教育资源数字化平台

计算机类教材 > 大数据

大数据技术实用教程

书号：9787113299644 套系名称：高等教育新工科信息技术课程系列教材

作者：井超乔钢柱出版日期：2023-03-01

定价：42.00 页码 / 开本：无 /16

策划编辑：侯伟汪敏责任编辑：汪敏贾淑媛

适用专业：计算机基础教育适用层次：高等教育

最新印刷时间：

在线阅读

资源下载

教学课件教学素材(暂无)

习题答案(暂无) 教学案例(暂无)

教学设计(暂无) 教学视频(暂无)

内容简介前言目录作者介绍图书特色

本书从大数据技术相关概念出发，介绍了大数据平台构建的相关技术，并在此基础上进行离线数据分析和在线数据分析。全书共分七章，包括大数据技术概述、大数据分析技术概述、Hadoop技术基础、Spark技术基础、构建基于Hadoop的离线电商大数据分析平台、构建基于Hadoop+Spark的旅游大数据多维度离线分析系统，以及基于Spark的汽车大数据实时评分系统。
本书针对学习大数据技术过程中可能遇到的问题，先介绍大数据的基本概念、大数据技术生态圈的构成和大数据分析的基本过程，而后介绍大数据平台构建需要的技术及相关组件，最后介绍离线、在线数据分析系统案例。本书整理和运用了一些案例资料和视频资源，自成体系，以理论为基础，以实践为引导，完整阐述了如何从无到有搭建大数据平台，并在此平台基础上进行应用。
本书适用于大数据等相关专业学生，对大数据技术有兴趣的相关人员亦可参考使用。

当今时代，大数据技术已经广泛应用于金融、医疗、教育、电信及电商等各个领域。各行各业每天都在产生海量数据，数据量已经从B、KB、MB、GB、TB发展到PB、EB、ZB甚至更大的量级，大数据定义也从PB级提高到了EB级。在计算机领域里存在“新摩尔定律”，指的是每18个月数据量将会倍增。也就是说，每18个月所产生的数据量会是以往所有数据量的总和。由此看出，数据量的发展呈现出多而快的趋势。
2020年，国家推出了“新基建”战略，将5G、大数据中心、人工智能和工业互联网列为新型基础设施建设的重点。在国家政策的引领下，各省将大数据产业列为优先发展目标，而任何行业的兴起最需要的就是相关人才，目前大数据相关人才尚处于供不应求的状况。
大数据是信息产业持续高速增长的新引擎，大数据成为提高企业核心竞争力的关键因素。大数据时代，科学研究的方法手段发生了重大变革，对大数据的处理分析已经成为新一代信息技术融合应用的关键。各行各业对于大数据人才的需求呈现井喷式增长，高校大数据相关专业的建设也呈现这一态势。众多企事业单位都迫切需要具备理论基础和实践技能的大数据人才。相应地，对适用于此类人才培养的大数据技术应用型教材的需求也非常迫切。
本书从大数据技术相关概念出发，系统介绍了大数据分析的流程和大数据分析处理系统的组成，详细讲解了大数据集群的搭建过程，并以大数据集群为基础深入剖析了多个离线数据分析和在线数据分析的实战项目案例，涵盖了生产生活中的多个大数据应用场景。本书可谓理论结合实际，特别突出了实践特色，能够很好地满足高校大数据人才培养需求和大数据相关岗位工程师的技能提升需求。
全书共分7章。第1章介绍大数据的基本概念；第2章介绍大数据分析的基本过程以及基本方法、工具；第3章主要介绍搭建离线大数据平台所需组件Hadoop、ZooKeeper的搭建方法及高可用的配置；第4章介绍构建实时大数据平台所需组件及各组件的部署，包括Spark、Hive、HBase、Kafka及Flume；第5章通过案例介绍电商大数据分析系统；第6章介绍基于Hadoop+Spark的大数据离线分析系统；第7章介绍基于Spark的大数据实时分析系统。
本书前4章作为理论体系，介绍了大数据分析系统的基本概念、基本原理、基本组成和构建方法。第5章～第7章辅以3个项目案例，通过一些实际应用程序来展示大数据分析应用的案例。本书可以帮助读者建立大数据技术概念上的整体认知，也能够通过丰富的实践案例帮助读者掌握主流大数据技术的实际应用，实用性和指导性都很强。
使用本书时，建议初学者按照章节顺序从头至尾学习，同时也应进行一定的实操练习。本书适用于大数据等相关专业学生，对大数据技术有兴趣的相关人员亦可参考使用。
本书由井超、乔钢柱主编，乔钢柱编写第2章，其余章节均为井超编写。特别感谢中北大学大数据学院数据科学与大数据技术专业2018级本科生郭媛、李海永、刘甜甜、朱忠诺等同学在编写过程中为我们提供的协助。
由于编者水平有限，书中难免存在不足之处，恳请广大读者指正。

第1章  大数据技术概述 1
1.1  大数据的基本概念 1
1.2  大数据的应用 2
1.3  分布式技术与集群 3
1.3.1  分布式技术概述 3
1.3.2  分布式大数据集群概述 4
1.4  大数据技术生态圈 6
1.4.1  Linux操作系统 6
1.4.2  Hadoop生态系统 9
1.4.3  Spark对Hadoop的完善 12
1.5  大数据技术的新发展 12
1.5.1  Hadoop 3.0的新特性 12
1.5.2  大数据引擎Flink 13
1.5.3  智能化大数据分析处理 15
小    结 15
第2章  大数据分析技术概述 16
2.1  大数据分析流程及相关技术 16
2.1.1  大数据采集与预处理 16
2.1.2  大数据存储与管理 17
2.1.3  大数据分析与挖掘 18
2.1.4  数据可视化 19
2.2  大数据分析常用方法 19
2.2.1  数理统计分析 19
2.2.2  聚类分析 19
2.2.3  分类分析 20
2.2.4  回归分析 20
2.3  数据分析基础工具 20
2.3.1  数据采集工具 20
2.3.2  使用Excel爬取数据 22
2.3.3  数据清洗工具 25
2.3.4  数据存储工具 25
2.3.5  机器学习工具 27
2.3.6  数据可视化工具 27
小    结 29
第3章  Hadoop技术基础 30
3.1  集群环境搭建准备 30
3.1.1  VMware安装及CentOS系统环境准备 30
3.1.2  克隆虚拟机 41
3.1.3  配置主机名 42
3.1.4  配置网络IP地址 44
3.2  Hadoop技术基础 45
3.2.1  Hadoop的组成 45
3.2.2  Hadoop运行模式 53
3.2.3  HDFS文件存取方式与实现 54
3.2.4  Hadoop集群的环境配置 55
3.2.5  Hadoop集群的搭建 56
3.2.6  启动Hadoop集群 59
3.3  ZooKeeper技术基础及部署 60
3.3.1  ZooKeeper简介 60
3.3.2  ZooKeeper的安装部署 62
3.3.3  Leader选举机制 64
3.3.4  ZooKeeper客户端访问集群（命令行操作方式） 71
3.4  HDFS与YARN高可用技术基础 73
3.4.1  HDFS高可用的工作机制 73
3.4.2  HDFS高可用配置 74
3.4.3  YARN高可用的工作机制 81
3.4.4  YARN高可用配置 81
3.5  实践：HDFS及MapReduce的应用示例 85
3.5.1  读写HDFS文件的操作 85
3.5.2  MapReduce操作1：二次排序 92
3.5.3  MapReduce操作2：计数器 97
3.5.4  MapReduce操作3：Join操作 99
小    结 104
第4章  Spark技术基础 105
4.1  Spark核心机制 105
4.1.1  Spark基本原理 105
4.1.2  Spark系统架构 106
4.1.3  Spark-Shell操作 107
4.2  Hive原理及实践 108
4.2.1  Hive定义 108
4.2.2  Hive架构 108
4.2.3  Hive表分类及查询操作 109
4.3  HBase原理及实践 113
4.3.1  HBase定义 113
4.3.2  HBase集群架构 113
4.3.3  HBase数据模型 114
4.4  Kafka原理及实践 116
4.4.1  Kafka的定义 116
4.4.2  Kafka的基础架构 118
4.5  Flume原理及实践 118
4.5.1  Flume简介 118
4.5.2  Flume基础架构 119
4.6  Flink原理及应用 120
4.6.1  流式处理的背景 120
4.6.2  Flink的原理 121
4.6.3  Flink的应用 122
4.7  实践：搭建基于Spark的实时大数据平台 123
4.7.1  Spark安装部署 123
4.7.2  MySQL安装部署 126
4.7.3  Hive安装部署 127
4.7.4  HBase安装部署 128
4.7.5  Kafka安装部署 132
4.7.6  Flume安装部署 134
4.7.7  Spark集群典型应用 134
小    结 141
第5章  构建基于Hadoop的离线电商大数据分析平台 142
5.1  系统需求与架构 142
5.1.1  系统背景介绍 142
5.1.2  系统功能需求 143
5.1.3  系统架构设计 143
5.2  数据采集模块实现 144
5.2.1  商品信息爬取 144
5.2.2  调试分析 157
5.3  数据处理与存储模块实现 158
5.3.1  信息分析与处理 158
5.3.2  商品信息存储 165
5.3.3  调试分析 167
5.4  数据可视化模块实现 168
5.4.1  使用Superset连接MySQL数据库 168
5.4.2  调试分析 168
小    结 172
第6章  构建基于Hadoop+Spark的旅游大数据多维度离线分析系统 173
6.1  系统架构概述 173
6.1.1  需求分析 173
6.1.2  数据存储 175
6.1.3  数据处理与可视化 175
6.2  采集旅游相关数据 176
6.2.1  使用爬虫采集城市、景点数据 176
6.2.2  数据采集模块测试 180
6.3  数据存储模块实现 181
6.3.1  数据库设计 181
6.3.2  使用HDFS和Hive存储数据 183
6.3.3  数据存储模块测试 183
6.4  数据分析处理模块实现 184
6.4.1  Spark处理数据 185
6.4.2  分词处理和情感分析 185
6.4.3  数据分析处理模块测试 188
6.5  数据可视化模块实现 189
6.5.1  数据可视化模块后端设计 189
6.5.2  数据可视化模块前端设计 200
6.5.3  数据可视化页面展示 207
小    结 215
第7章  基于Spark的汽车大数据实时评分系统 216
7.1  系统架构概述 216
7.1.1  需求分析 216
7.1.2  数据存储 218
7.1.3  数据处理与可视化 218
7.2  采集汽车网站数据 218
7.2.1  使用爬虫获取汽车和用户数据 218
7.2.2  数据采集模块测试 220
7.3  数据存储模块实现 221
7.3.1  数据库设计 221
7.3.2  使用MySQL存储汽车数据 221
7.3.3  数据存储模块测试 221
7.4  数据分析处理模块实现 222
7.4.1  实时发送数据至Kafka 222
7.4.2  Spark处理汽车数据 223
7.4.3  Redis数据库存储处理结果 224
7.4.4  数据分析处理模块测试 224
7.5  数据可视化模块 225
7.5.1  数据可视化模块后端设计 225
7.5.2  数据可视化模块前端设计 228
7.5.3  数据可视化页面展示 229
小    结 232
参考文献 233

      井超，硕士，实验师，中国计算机学会会员。2002年7月吉林大学计算机科学系计算机软件专业，获学士学位；2006年7月中北大学电子与计算机工程学院计算机应用技术专业，获硕士学位。毕业后一直在中北大学任教，现在中北大学大数据学院数据科学与大数据技术系任教并从事教学研究和计算机信息系统、大数据系统应用方面的科研工作。

      乔钢柱，博士，教授，硕士生导师。目前主要从事物联网、大数据相关的研究。近年来主要研究工作为：针对煤矿井下人员定位及灾后井下通信网络的恢复与重建，提出了基于传感器网络的人员定位算法和灾后井下通信网络恢复与重建的方法，并申请了相关的国家专利；2016-2017年期间担任山西省煤炭厅煤炭监管信息平台技术专家组成员，参与并设计了山西省煤炭大数据系统，设计并研发了相关预测算法；2017年与企业合作针对检察院系统的智慧检务建设工作展开了检务大数据相关研发工作，合作研发了智慧检务大数据平台。

本书适用于大数据等相关专业学生，对大数据技术有兴趣的相关人员亦可参考使用。