Hadoop系统搭建及项目实践
类别:
计算机系列
书名:
Hadoop系统搭建及项目实践
主编:
刘淼 陈红 时瑞鹏
定价:
48.00
开本:
16开
时间:
2019年10月
出版:
北京邮电大学出版社
书号:
978-7-5635-5913-8
内容摘要
本书内容包括Hadoop基础知识、Hadoop安装与配置管理、HDFS技术、MapReduce技术、Hadoop I/O操作、HBase技术、ZooKeeper技术、分布式数据仓库技术Hive、分布式数据分析工具Pig、Hadoop与RDBMS数据迁移工具Sqoop、Hadoop实时数据处理技术。
本书适合作为Hadoop系统搭建基础教材,也可作为相关技术人员的参考用书。
目录
项目1 Hadoop基础知识
任务1 认识Hadoop
1.1.1 Hadoop的由来
1.1.2 关于Hadoop的版本
任务2 理解Hadoop体系架构
1.2.1 Hadoop 1.x和Hadoop 2.x的区别
1.2.2 HDFS架构
1.2.3 MapReduce架构
任务3 理解Hadoop与分布式开发
任务4 Hadoop应用案例简介
项目2 Hadoop安装与配置管理
任务1Hadoop环境的搭建与配置
2.1.1安装VMware
2.1.2安装CentOS
2.1.3安装JDK
任务2Hadoop的安装模式
2.2.1 单机安装
2.2.2 分布式安装
任务3 Hadoop的启动与验证
2.3.1 格式化HDFS
2.3.2 Hadoop的守护进程
2.3.3 验证集群HDFS
项目3 HDFS技术
任务1 认识HDFS
3.1.1 HDFS产生的背景
3.1.2 HDFS简介
3.1.3 HDFS的特点
任务2了解HDFS架构
3.2.1 HDFS读取和写入数据
3.2.2 元数据节点和数据节点
3.2.3 辅助元数据节点
3.2.4 安全模式
任务3 Hadoop shell命令
3.3.1 命令格式
3.3.2 HDFS命令
3.3.3 HDFS管理员命令
项目4 MapReduce技术
任务1认识MapReduce
4.1.1MapReduce简介
4.1.2MapReduce编程模型概念
4.1.3MapReduce架构的基本概念
4.1.4应用实例——词频统计
4.1.5使用Eclipse创建Java工程
4.1.6WordCount代码实现
任务2 MapReduce编程基础
4.2.1 剖析MapReduce编程过程
4.2.2 Map工作过程
4.2.3 Reduce工作过程
4.2.4 Job工作过程
4.2.5 Shuffle过程
4.2.6 MapReduce的输入/输出格式
4.2.7 MapReduce的优化
任务3 MapReduce高级编程
4.3.1 数据去重
4.3.2 数据排序
项目5 Hadoop I/O操作
任务1了解数据完整性
5.1.1校验和
5.1.2数据块检测程序
任务2 基于文件的数据结构
5.2.1 SequenceFile存储
5.2.2 MapFile存储
5.2.3 SequenceFile转换成MapFile
任务3 压缩
5.3.1 Hadoop中压缩格式的实现Codec
5.3.2 本地库
任务4 序列化
5.4.1 Hadoop序列化
5.4.2 Writable和WritableComparable接口
5.4.3 Writable类
项目6 HBase技术
任务1了解HBase
6.1.1 HBase是什么
6.1.2 搭建HBase环境
任务2 理解HBase体系架构
6.2.1 架构简介
6.2.2 理解HBase数据模型
6.2.3 概念视图
6.2.4 物理视图
6.2.5 HBase的命名空间
6.2.6 HBase表、行与列族
任务3 HBase shell基本操作
任务4 HBase API操作
6.4.1 HBase API类
6.4.2 HBase Java API操作
任务5 基于HBase API的应用
6.5.1 Scan
6.5.2 过滤器
6.5.3 协处理器
6.5.4 计数器
项目7 ZooKeeper技术
任务1了解ZooKeeper
7.1.1 ZooKeeper是什么
7.1.2 ZooKeeper的特征
7.1.3 ZooKeeper的架构
7.1.4 ZooKeeper的工作原理
7.1.5 ZooKeeper数据模型
任务2 搭建ZooKeeper 环境
7.2.1 ZooKeeper准备
7.2.2 ZooKeeper配置
7.2.3 启动ZooKeeper3.4.14
任务3 ZooKeeper常用命令
7.3.1 ZooKeeper客户端命令
7.3.2 ZooKeeper服务器命令
任务4 ZooKeeper API操作
7.4.1 ZooKeeper API 准备
7.4.2 ZooKeeper API应用
项目8 分布式数据仓库技术Hive
任务1认识Hive
任务2 Hive服务组成
任务3 Hive的安装和配置
8.3.1 Hive的基本安装
8.3.2 MySQL的安装
8.3.3 Hive的配置
任务4 Hive shell
任务5 HiveQL详解
8.5.1 Hive数据管理方式
8.5.2 Hive表DDL操作
8.5.3 Hive表DML操作
项目9 分布式数据分析工具Pig
任务1 了解Pig
任务2 Pig的安装
任务3 Pig保留关键字
9.3.1 Pig数据类型
9.3.2 null
9.3.3 Pig相关命令
任务4 使用 Pig
9.4.1 Pig 命令行选项
9.4.2 Pig 的两种运行模式
9.4.3 Pig的相关 shell 命令详解
9.4.4 Pig程序运行方式
9.4.5 Pig输入与输出
任务5 模式
任务6 Pig相关函数详解
9.6.1 Pig常用函数
9.6.2 数组操作函数
9.6.3 过滤函数
9.6.4 数据操作函数
9.6.5 聚合函数
项目10 Hadoop与RDBMS数据迁移工具Sqoop
任务1 Sqoop的安装
任务2 Sqoop配置
任务3 Sqoop相关功能
10.3.1 Sqoop基本操作
10.3.2 使用Sqoop导入MySQL数据到HDFS
10.3.3 使用Sqoop导出HDFS数据到MySQL
10.3.4 使用Sqoop导入MySQL数据到Hive
10.3.5 Sqoop Job
任务4 Hive、Pig和Sqoop的关系
项目11 Hadoop实时数据处理技术
任务1 Storm YARN
11.1.1 Apache Storm的组成结构
11.1.2 Storm数据流
11.1.3 Storm YARN产生的背景
11.1.4 Storm YARN功能介绍
任务2Apache Spark
11.2.1 Apache Spark的组成结构
11.2.2 Apache Spark的扩展功能
任务3 Storm与Spark的比较
参考文献
相关图书
主编:李海涛 陈涛 孙红丽
本书是“基于翻转课堂的课程教学范式改革”与校本应用型教材建设项目基础上编写的。本书采用案例驱动的方式编写,即把理论知识点的讲解融入实际的案例中,通过案例教学的方式达到理论与实践的融合,培养学生的动手实...
¥59.8
主编:周晓红 马永强
本书以CorelDRAW 2020为对象,以其应用实例为载体,向读者展示了CorelDRAW软件各项功能的使用方法和技巧。全书共9章,包括CorelDRAW基础知识,绘制和编辑图形,绘制和编辑...
¥78.00
主编:陶洁
本书介绍了Illustrator CC 2020的相关知识和基本操作,主要内容包括Illustrator 2020基础知识、绘制和编辑基本图形、绘制和编辑路径、对象的基本操作、设置填充与描边、创建和编...
¥55.00
主编:谢恩 朱雅岚
全书共10个模块,包括AutoCAD绘图基础、绘图前的准备、绘制平面图形、图形编辑、文字与表格、标注图形尺寸、图块、三维建模基础、三维建模的方法与应用、图形打印。 本书适用于高等职业院...
¥45.00