教育资源数字化平台

计算机类教材 > 大数据

大数据技术基础

书号：9787113304607 套系名称：普通高等教育“十四五”大数据系列教材

作者：罗金炎董正山雷进宇出版日期：2023-09-01

定价：59.80 页码 / 开本：无 /16

策划编辑：潘星泉李学敏责任编辑：潘星泉

适用专业：计算机类适用层次：高等教育

最新印刷时间：2023-09-01

在线阅读

资源下载

教学课件教学素材(暂无)

习题答案(暂无) 教学案例(暂无)

教学设计(暂无) 教学视频(暂无)

内容简介前言目录作者介绍图书特色

      本书较为系统地讲解了大数据处理平台Hadoop和Spark生态系统的相关技术原理、使用方法和开发技术，全书共11章，主要包括大数据技术概述、 大数据处理平台Hadoop、分布式文件系统 HDFS 、分布式计算框架MapReduce、 Hadoop的发展和演化、数据仓库——Hive、 分布式数据库——HBase、 Spark的基本概念和整体架构及集群安装、 Spark核心编程、 Spark 生态系统、Flinkk基本概念和体系结构及编程实践。

      随着计算机及互联网的飞速发展，当今社会已进入大数据时代，大数据带来了信息技术的巨大变革，并深刻影响着人类社会生产和生活的方方面面。2020 年，国家推出了“新基建”战略，将5G、大数据中心、人工智能和工业互联网等列为新型基础设施建设的重点。在国家政策的引领下，各行各业都将大数据产业列为优先发展目标，而任何行业的兴起最需要的就是相关人才，特别是会分析数据、懂领域业务的复合型人才，目前大数据相关人才供不应求。在新的需求背景下，我国的高等教育也进入一个新的发展时期，尤其是相关大数据与人工智能方面的教育。
      本书以大数据技术为中心，系统论述了大数据处理生态系统的核心开发技术。本书共分十一章。第1 章绪论，介绍了大数据的发展背景、大数据处理的关键技术和系统框架以及大数据的应用。第2 章大数据处理框架Hadoop，论述了Hadoop 的发展历程、生态系统、特点和应用场景，并论述了Hadoop 集群搭建和安装配置。第3 章分布式文件系统HDFS，论述了HDFS 的体系结构、工作机制和访问方式，并用Java 复制文件到HDFS。第4 章分布式计算框架MapReduce，论述了MapReduce 的设计构思、运行理论、编程模型和机制，并开发词频统计MapReduce 程序。第5 章Hadoop 的发展与优化，论述了HDFS 的高可用和联邦、资源管理调度框架YARN 和分布式协调服务组件Zookeeper，并开发一个YARN 客户端应用。第6 章分布式数据HBase，论述了HBase 的使用场景、架构和存储原理以及安装，并实践HBase Shell 操作。第7 章数据仓库Hive，论述了Hive 的运行原理、数据类型与HiveQL 语句使用、分区和分桶使用、自定义函数开发等，并使用HiveQL 语句导入数据到HDFS。第8 章基于内存的分布式计算框架Spark，论述了Spark 的相关背景知识、生态系统、架构及运行原理和应用场景，以及Spark 的安装启动和Spark shell 的基本操作。第9 章Spark 核心编程，对RDD 各种操作进行了较为全面的解释，还对Spark DAG 机制和Spark Stage 进行了详细的论述，可以让读者更好地理解RDD 的执行过程。第10 章Spark 生态系统，论述了Spark SQL、Spark Streaming 及 Structured Streaming、Spark MLlib、Spark GraphX 及其应用场景等。第11 章流式数据处理引擎Flink，论述了Flink 的基本组件和架构、Flink编程模型、Flink 的部署及应用等。
     本书具有以下特点：
     1. 强调目标性，融入思政元素。每章设置学习目标，引导学生学习，启发学生思考。本书结合课程教学内容融入思政元素，在章末尾设置思政小讲堂，以学生为中心，将课程思政真正融入课堂教学中。
     2. 强化实践性。本书基于新工科课程体系建设过程中大数据运维、大数据分析处理等技术基础的理论与实践，在介绍实用知识体系的同时注重对相关基础理论的讲解，以便学生融会贯通，达到理论与实践的有机结合，并强调实践性，在每章都提供了比较充足的实践内容。感谢合作企业的工程师和课程教学团队的每位成员，是他们的帮助，使本书得以顺利完成编写并不断完善。书中的实战内容由编者联合江苏知途教育科技有限公司的工程师共同完成。
      在本书的编写过程中，编者参考了国内外出版的一些教材、报刊、文献和网络资源，吸收了学者们最新的研究成果，在此谨对所参考的资料的版权所有者表示衷心感谢！在编写过程中，得到了江苏知途教育科技有限公司李瑞芝经理的帮助，他为完善本书付出了很多努力，同时还得到了华纳信息科技有限公司的大力支持，在此一并表示感谢!
       由于时间仓促、编者水平有限，书中的不足之处在所难免，尚望同行专家及读者不吝赐教，以便今后进一步完善修改。

第1 章绪论 / 1
1.1大数据发展背景 / 1
1.2大数据基本概念与特点 / 2
1.2.1大数据基本概念 / 2
1.2.2大数据的特点 / 4
1.3大数据处理的关键技术 / 5
1.3.1数据采集 / 5
1.3.2数据存储 / 6
1.3.3分析、建模、计算 / 7
1.3.4结果展示 / 9
1.3.5数据安全与隐私保护 / 10
1.4大数据处理框架 / 11
1.4.1并行计算面临的挑战 / 11
1.4.2大数据并行处理系统 / 12
1.4.3大数据并行处理框架的发展历程 / 13
1.5大数据应用 / 16
1.5.1大数据产业构建 / 16
1.5.2大数据应用场景 / 18
1.5.3大数据行业发展趋势 / 20
小结 / 21
习题 / 21
思政小讲堂 / 22
第2 章大数据处理框架Hadoop / 23
2.1Hadoop 概述 / 23
2.1.1Hadoop 的概念 / 23
2.1.2Hadoop 发展史 / 24
2.1.3Hadoop 版本 / 25
2.2Hadoop 的体系结构和生态系统 / 26
2.2.1Hadoop 的体系结构 / 26
2.2.2Hadoop 生态系统 / 29
2.3Hadoop 的特点、应用与发展趋势 / 31
2.3.1Hadoop 的特点 / 31
2.3.2Hadoop 的应用现状和前景 / 31
2.4Hadoop 集群搭建和安装配置 / 34
2.4.1Hadoop 集群搭建概述 / 34

2.4.2Hadoop 安装、配置和启动 / 35
小结 / 47
习题 / 47
思政小讲堂 / 47
第3 章分布式文件系统HDFS / 49
3.1分布式文件系统概述 / 49
3.2HDFS 简介 / 51
3.3HDFS 体系结构及相关概念 / 53
3.3.1HDFS 体系结构 / 53
3.3.2HDFS 相关概念 / 53
3.4HDFS 的工作机制 / 59
3.4.1HDFS 读数据的过程 / 60
3.4.2HDFS 写数据的过程 / 61
3.5访问HDFS 的方式 / 62
3.5.1HDFS 的Shell 命令行方式 / 63
3.5.2HDFS 的Java API 编程方式 / 65
3.5.3HDFS 的Web 访问方式 / 68
3.6实战：用Java 复制文件到HDFS / 69
小结 / 82
习题 / 82
思政小讲堂 / 83
第4 章分布式计算框架MapReduce / 84
4.1初识MapReduce / 84
4.1.1MapReduce 简介 / 84
4.1.2MapReduce 的设计构思 / 85
4.1.3MapReduce 的特点 / 87
4.2MapReduce 的编程模型 / 88
4.2.1概述 / 88
4.2.2第一个MapReduce 程序——WordCount 程序 / 89
4.3MapReduce 的工作机制 / 94
4.3.1MapReduce 的基本架构 / 94
4.3.2MapReduce 的执行过程 / 96
4.3.3MapReduce 的Shuffle 过程 / 99
4.4Hadoop MapReduce 的序列化机制 / 101
4.4.1序列化概述 / 101
4.4.2Hadoop 对序列化机制的要求 / 102
4.4.3Hadoop 中的序列化相关接口 / 102
4.5MapReduce 的性能调优 / 105
4.5.1MapReduce 的参数配置优化 / 105
4.5.2启用数据压缩 / 109
4.5.3重用JVM / 109
4.6实战：MapReduce 程序统计文本单词出现频次 / 110
小结 / 117
习题 / 118
思政小讲堂 / 118
第5 章Hadoop 的发展与优化 / 119
5.1概述 / 119
5.2HDFS 的高可用和联邦 / 120
5.2.1HDFS 的HA 机制 / 120
5.2.2HDFS 的Federation 机制 / 123
5.3资源管理调度框架YARN / 125
5.3.1YARN 简介 / 125
5.3.2YARN 的基本架构 / 128
5.3.3YARN 的工作流程 / 130
5.3.4YARN 的完善 / 132
5.4分布式协调服务组件 Zookeeper / 133
5.4.1Zookeeper 概述 / 133
5.4.2Zookeeper 服务 / 135
5.4.3Zookeeper 的应用场景 / 138
5.4.4Zookeeper 的安装配置 / 140
5.5实战：开发一个YARN 客户端应用 / 142
小结 / 153
习题 / 153
思政小讲堂 / 154
第6 章分布式数据库HBase / 156
6.1HBase 概述 / 156
6.1.1HBase 简介 / 156
6.1.2安装HBase / 158
6.2HBase 基础 / 160
6.2.1HBase 架构 / 160
6.2.2HBase 数据存储 / 162
6.3HBase Shell 命令行方式 / 163
6.3.1NameSpace 操作 / 164
6.3.2DDL 操作 / 164
6.3.3DML 操作 / 165
6.4HBase API 编程方式 / 165
6.4.1客户端配置 / 165
6.4.2创建表 / 166
6.4.3删除表 / 167
6.4.4插入数据 / 167
6.4.5查询数据 / 168
6.4.6删除数据 / 169
6.5实战:HBase Shell 操作 / 169
小结 / 176
习题 / 176
思政小讲堂 / 176
第7 章数据仓库Hive / 179
7.1初识Hive / 179
7.1.1Hive 简介 / 179
7.1.2Hive 的数据类型 / 180
7.2Hive 的原理及架构 / 180
7.3Hive 的数据操作和查询语言 / 181
7.3.1Hive Shell 命令行形式 / 181
7.3.2Hive DDL 操作 / 182
7.3.3Hive DML 操作 / 183
7.4Hive 的高级技术 / 185
7.4.1Hive 复杂数据类型 / 185
7.4.2Hive 索引 / 187
7.4.3优化Hive 执行 / 188
7.4.4使用分区 / 188
7.4.5使用桶 / 190
7.4.6Hive Java 编程接口 / 191
7.4.7Hive 自定义函数 / 192
7.5实战：Hive 综合实例 / 193
小结 / 196
习题 / 196
思政小讲堂 / 196
第8 章基于内存的分布式计算
框架Spark / 198
8.1Spark 概述 / 198
8.1.1Spark 的发展 / 198
8.1.2Spark 与Hadoop 的比较 / 199
8.1.3Spark 的特点 / 200
8.2Spark 架构设计 / 201
8.3Spark 运行架构及运行原理 / 203
8.4Spark 部署模式 / 204
8.5Spark 的应用场景 / 205
8.5.1数据处理应用 / 205
8.5.2数据科学任务 / 206
8.6Spark 集群安装与启动 / 207
8.6.1集群的安装 / 208
8.6.2Spark Shell / 210
小结 / 214
习题 / 214
思政小讲堂 / 214
第9 章Spark 核心编程 / 216
9.1RDD 编程基础 / 216
9.1.1RDD 概述 / 216
9.1.2RDD 创建 / 217
9.1.3RDD 操作 / 219
9.1.4RDD 持久化 / 222
9.1.5RDD 分区 / 224
9.1.6RDD 容错机制 / 227
9.2Spark DAG 工作原理 / 227
9.2.1Lineage 概述 / 227
9.2.2Spark DAG 概述 / 228
9.2.3Spark DAGScheduler 概述 / 229
9.3Spark stage 概述 / 231
9.4Spark 基础编程实践 / 232
9.4.1数据读写 / 232
9.4.2Spark RDD 基本操作 / 238
小结 / 251
习题 / 251
思政小讲堂 / 252
第10 章Spark 生态系统 / 253
10.1Spark SQL 介绍 / 253
10.1.1Spark SQL 接口 / 254
10.1.2SparkSession 简介 / 254
10.1.3DataFrame 创建与操作 / 255
10.1.4Spark SQL 临时视图与全局视图 / 257
10.1.5Spark SQL 创建Datasets / 258
10.1.6将 RDD 转化为 DataFrame / 259
10.1.7Spark SQL 数据源 / 261
10.1.8Spark SQL REPL / 263
10.2Spark Streaming / 263
.10.2.1 Spark Streaming 概述 / 263
10.2.2Spark Streaming 工作机制 / 264
10.2.3DStream 概述 / 265
10.2.4Spark Streaming 数据输入源 / 265
10.2.5DStream 支持的转换操作 / 266
10.2.6DStream 窗口操作 / 267
10.2.7DStream 输出操作 / 269
10.3Structured Streaming / 269
10.3.1Structured Streaming 概述 / 270
10.3.2Structured Streaming 处理模型 / 271
10.4Spark MLlib / 272
10.4.1MLlib 概述 / 273
10.4.2基本数据类型 / 273
10.4.3Spark 机器学习基本统计 / 276
10.4.4Spark 机器学习Pipeline / 278
10.4.5Pipeline 示例 / 279
10.5Spark GraphX 介绍 / 281
10.5.1属性图 / 281
10.5.2属性图实例 / 282
10.5.3图操作 / 283
小结 / 289
习题 / 289
思政小讲堂 / 289
第11 章流式数据处理引擎Flink / 291
11.1Flink 概述 / 291
11.1.1Flink 的发展 / 291
11.1.2Flink 流处理的基本组件 / 292
11.1.3Flink 应用 / 294
11.1.4Flink 的部署 / 297
11.2Flink 架构 / 298
11.3Flink 编程模型 / 301
11.4Flink 应用程序结构 / 302
11.5Flink 环境搭建和简单使用 / 304
11.5.1安装Flink / 304
11.5.2Scala Shell 的使用 / 305
11.5.3使用IntelliJ IDEA 开发Flink应用程序 / 306
小结 / 312

习题 / 312
思政小讲堂 / 312
参考文献 / 314

       罗金炎，工学硕士，闽江学院副教授，主要研究方向为智能优化算法、机器学习、人工智能等。主要讲授程序设计基础C语言、Hadoop原理及应用、大数据技术与应用、人工神经网络与深度学习等课程，参编教材2部。曾主持多项省自然科学基金项目、校基金项目、横向项目等，发表学术论文30多篇。

       董正山，应用数学博士，现任闽江学院数学与数据科学学院讲师。主要从事优化理论与算法、机器学习、数据分析等相关领域的理论与应用研究，已经在国内外重要学术期刊上发表论文5篇。个人曾在企业从事过视频数据智能分析等相关工作3年，拥有数据分析、人工智能等工程实践经验。

       雷进宇，博士，现任闽江学院数学与数据科学学院讲师。主要从事船舶轨迹数据挖掘、时空数据可视分析及智能交通信息系统的研究。主要主持或参与国家级、省级科学基金多项。在国内外学术刊物发表了10余篇学术论文，获得国家专利4项，软件著作权2项。

本书适合作为普通高等院校大数据技术与应用、数据科学与大数据技术、计算机、软件工程、电子信息等专业大数据技术课程教材，也可作为相关专业领域技术人员的参考书。