教育资源数字化平台

轨道类 > ---大类---

Hadoop大数据分析

书号：9787113259198 套系名称：高等学校大数据技术与应用规划教材

作者：高永彬钱亮宏方志军出版日期：2019-07-01

定价：38.00 页码 / 开本：184 /16

策划编辑：曹莉群责任编辑：曹莉群包宁

适用专业：无适用层次：本科

最新印刷时间：

资源下载

教学课件教学素材

习题答案(暂无) 教学案例(暂无)

教学设计(暂无) 教学视频(暂无)

内容简介前言目录作者介绍图书特色

本书从Hadoop的原理和使用出发，在重点介绍Hadoop生态系统的重要组件HDFS、MapReduce、YARN、Hive和Spark的同时，注重大数据分析能力的全面提高。

本书共分13章，主要内容包括Hadoop简介、HDFS文件系统、YARN资源管理、MapReduce计算框架、Hive简介、Hive数据定义、Hive数据操作、Hive数据查询、Spark简介、Spark大数据处理、Spark机器学习流程、Spark有监督学习模型和Spark无监督学习模型。

本书内容丰富、体系新颖、结构合理、文字精练，适合作为普通高等院校信息类专业Hadoop大数据分析课程的教材，也可以作为数据科学行业相关从业人员的自学教材。

```
无
```

第1部分  Hadoop核心基础

第1章  Hadoop简介 2

1.1  Hadoop产生背景 2

1.2  Hadoop简要历史 3

1.3  Hadoop生态系统组件 3

1.4  Hadoop版本和商用支持 5

1.5  Hadoop的基础环境配置 6

1.6  Hadoop的安装 7

1.7  Hadoop的配置 11

1.8  Hadoop的运行 14

小结 19

习题 19

第2章  HDFS文件系统 20

2.1  HDFS简介 20

2.2  HDFS架构 20

2.3  HDFS文件块 21

2.4  HDFS常用操作 22

小结 24

习题 24

第3章  YARN资源管理 25

3.1  YARN架构 25

3.2  YARN调度策略 26

3.3  YARN常用操作 28

小结 30

习题 31

第4章  MapReduce计算框架 32

4.1  MapReduce原理 32

4.2  MapReduce作业数据流 33

4.3  Hadoop流处理 35

4.4  MapReduce程序实现词频

     统计 35

4.5  MapReduce程序的Reducer

     数量 40

4.6  MapReduce程序的Combiner 41

4.7  MapReduce程序实现数据

     连接 43

小结 49

习题 49

第2部分  Hive数据仓库

第5章  Hive简介 52

5.1  Hive概述 52

5.2  Hive的安装 53

5.3  Hive的运行 56

小结 59

习题 59

第6章  Hive数据定义 60

6.1  数据库操作 60

6.2  数据表基本操作 62

6.3  存储格式和行格式 65

6.4  数据类型 67

6.5  外部表 70

6.6  分区表 72

小结 74

习题 74



第7章  Hive数据操作 75

7.1  数据导入 75

7.2  数据插入 78

7.3  数据导出 82

小结 84

习题 84

第8章  Hive数据查询 85

8.1  基本查询 85

8.2  数据聚合 87

8.3  数据连接 90

小结 92

习题 93

第3部分  Spark数据分析

第9章  Spark简介 96

9.1  Spark概述 96

9.2  Spark原理 97

9.3  Spark的安装 98

9.4  Spark运行方式 99

9.5  Spark运行位置 101

9.6  Spark运行参数 104

小结 104

习题 104

第10章  Spark大数据处理 105

10.1  数据框的创建 105

10.2  数据框的选择 107

10.3  数据框的运算和聚合 110

10.4  数据框的增加、删除

      和修改 114

10.5  数据框的连接 116

10.6  数据框的变形 119

小结 120

习题 120

第11章  Spark机器学习流程 121

11.1  数据探索 122

11.2  数据划分 123

11.3  数据填充 124

11.4  类别变量处理 125

11.5  特征选择 128

11.6  建模与调优 131

11.7  测试与评估 133

小结 135

习题 135

第12章  Spark有监督学习模型 136

12.1  线性回归模型 140

12.2  逻辑回归模型 142

12.3  决策树模型 145

12.4  随机森林模型 152

12.5  神经网络 158

12.6  协同过滤 163

小结 166

习题 166

第13章  Spark无监督学习模型 167

13.1  k均值聚类模型 168

13.2  主成分分析模型 172

13.3  关联分析模型 173

小结 176

习题 176

高永彬：博士、讲师、就职于上海工程技术大学，毕业于韩国全北国立大学，在模式识别、机器学习领域积累了大量的研究与实战经验。特别地，在基于深度学习技术的人脸识别以及车型检测技术进行了深入地研究，发表了近30篇期刊/会议论文，取得了丰厚的研究成果，发表在包括Information Sciences, Pattern Recognition Letters等高水平期刊中，其中SCI收录5篇，EI收录4篇。

本教材主要介绍如何应用Hadoop来实现大数据的学习与应用，教材从Hadoop的基本理论，基础教程、高级工具以及进阶教程来对相关理论的理论与技术进行深入分析与讲解。并提供大量的案例从零开始教会读者如何使用Hadoop进行开发以及应用。