教育资源数字化平台

高职教育 > 计算机类

Spark大数据分析

书号：9787113306724 套系名称：职业教育赛教一体化课程改革系列教材

作者：蒋一锄出版日期：2023-12-01

定价：45.00 页码 / 开本： /16

策划编辑：徐海英责任编辑：王春霞彭立辉

适用专业：计算机类适用层次：高职教育

最新印刷时间：2023-12-01

在线阅读

资源下载

教学课件(暂无) 教学素材(暂无)

习题答案(暂无) 教学案例(暂无)

教学设计(暂无) 教学视频(暂无)

内容简介前言目录作者介绍图书特色

本书为“职业教育赛教一体化课程改革系列教材”之一，介绍了 Spark 应用程序体系架构的核心技术。全书共分 8 章 ：第 1 章介绍大数据与 Spark 以及其他数据处理框架 ；第 2 章主要讲解Spark 集群的安装配置，包括 Standalone、Spark on Yarn、Spark HA 模式，另外介绍了 Spark 的运行架构与原理，以及 Spark Shell 的简单使用 ；第 3 章 ~ 第 8 章主要讲解 Spark 程序入门、弹性分布式数据集、Spark 核心原理、Spark SQL 处理结构化数据和多数据源操作、Spark Streaming 实时计算框架，并包含实战案例。

       本书理论联系实际，对每个知识点都进行了精心设计，真正做到了所学即所得，可帮助学生快速理解并掌握 Spark 的应用。

       本书适合作为高等职业院校电子信息大类各专业学习 Spark 大数据技术的教材，也可作为全国大学生大数据竞赛的指导书，还可作为培训学校的培训教材，以及大数据爱好者的自学参考书。




？

       为认真贯彻落实党的二十大精神，响应教育部实施新时代中国特色高水平高职学校和专业群建设的各项政策部署，扎实持续推进职校改革，强化内涵建设和高质量发展，落实双高计划，抓好职业院校信息技术人才培养方案实施及配套建设，我们统筹规划并启动了“职业教育赛教一体化课程改革系列教材”的建设（《云计算技术与应用》《大数据技术与应用Ⅰ》《网络综合布线》《物联网.NET开发》《物联网嵌入式开发》《物联网移动应用开发》《Python网络爬虫实战》《Spark大数据分析》《传感器应用技术》《计算机网络基础项目化教程》）。本系列教材是职业教育教学一线专家、教育企业一线工程师、中国铁道出版社教材开发专家数十人团队的匠心之作，是全体编委精益求精，在日复一日、年复一年的工作中，不断探索和超越的智慧结晶。本书教学设计遵循职业教育教学规律，对真实项目科学拆分与提炼。
       Spark作为大数据计算平台的后起之秀，具有运行速度快、容易使用、通用性强和运行模式多样等特点，深受大数据行业技术人员的喜爱。

       本书以实践为导向，突出案例教学；结合Spark生态圈，扩展相关知识点，呈现完整的Spark大数据分析体系；使用通俗易懂的语言阐述难点，辅以大量生动形象的图例，增强读者的理解和记忆；具有完整的知识体系和目录结构，形成逻辑清晰的知识脉络；采用深入浅出的层级教学，逐步深化读者对Spark的理解；提供可运行的示例代码、PPT讲义等辅助读者学习的教学资源。

       本书旨在介绍Spark应用程序体系架构的核心技术，共分8章，具体内容简介如下：
       第1章从大数据和Spark框架的概念出发，详细介绍大数据的特点和应用场景，以及Spark框架的历史、功能和优势。此外，还介绍了其他一些数据处理框架的比较和应用。
       第2章主要讲解Spark集群的搭建和配置过程，包括Standalone、Spark on Yarn、Spark HA模式等。读者将学会如何进行硬件和软件环境的配置，并了解集群的各种部件和组件。
       第3章介绍Spark程序的基本结构和编写方式，包括如何读取和处理数据、如何进行数据转换和计算，以及如何输出结果。
       第4章主要介绍Spark框架中的RDD（弹性分布式数据集），包括RDD的概念、RDD的特性、RDD的使用方法和操作，以及RDD的持久化等相关内容。
       第5章主要介绍Spark框架的核心原理，包括Spark的计算模型、任务调度和执行、内存管理和数据传输等方面的原理和机制。读者将了解Spark框架的内部实现原理和运行机制。
       第6章主要介绍Spark框架中数据的存储和管理方式，包括Spark的数据存储结构、数据压缩和序列化，以及数据管理和清理等相关内容。读者将了解如何优化数据存储和访问性能。
       第7章介绍Spark SQL的概念和使用方法，包括如何使用Spark SQL进行数据处理和分析，如何进行SQL查询和数据聚合，以及如何与其他数据源进行集成。
       第8章主要介绍Spark Streaming的概念和使用方法，包括如何使用Spark Streaming进行实时数据处理和分析，如何进行流数据的处理和转换，以及如何与其他数据源进行集成。此外，还包含一些实战案例供读者参考。
       本书由湖南环境生物职业技术学院蒋一锄任主编，武汉唯众智创科技有限公司冉柏权和陈家枫、武汉铁路职业技术学院杨健、武汉船舶职业技术学院李熙任副主编。具体分工如下：蒋一锄编写第1章、第2章、第6章，冉柏权编写第3章，杨健编写第4章，李熙编写第5章，陈家枫编写第7章、第8章。全书由蒋一锄统稿。

       由于编者水平有限，加之编写时间仓促，书中难免存在疏漏与不妥之处，敬请广大读者批评指正。

       编？者

       2023 年 10 月
？

第1章 ？大数据与Spark简介  1
1.1 大数据简介与相关技术 2
1.1.1 大数据简介 2
1.1.2 大数据相关技术 .2
1.2 Spark简介  5
1.2.1 Spark特性 5
1.2.2 Spark的历史与发展8
1.2.3 Spark组件 9
1.3 其他数据处理框架 10
1.3.1 Hadoop  11
1.3.2 Storm 20
1.3.3 Flink21
1.3.4 Beam 23
小结. 24
习题. 25
第2章 ？Spark集群安装配置26
2.1 集群环境准备  26
2.1.1 系统环境配置 26
2.1.2 JDK安装 31
2.1.3 Hadoop集群部署 34
2.1.4 ZooKeeper集群部署42
2.1.5 Scala安装 45
2.2 Spark环境搭建  46
2.2.1 Standalone模式部署46
2.2.2 Spark on Yarn模式部署49
2.2.3 Spark HA集群部署 54
2.3 Spark运行架构与原理57
2.3.1 基本概念 57
2.3.2 Spark集群运行架构 59
2.3.3 Spark运行基本流程 59
2.4 Spark-Shell  61
小结. 62
习题. 62
第3章 ？Spark程序入门.64
3.1 Scala简介 64
3.2 Scala环境准备 65
3.2.1 Windows下的Scala安装 65
3.2.2 IDEA安装Scala插件 66
3.2.3 输出HelloWorld 68
3.3 Scala基础语法. 70
3.3.1 Scala数据类型 70
3.3.2 Scala变量 70
3.3.3 方法与函数71
3.4 Scala面向对象72
3.4.1 类和对象 72
3.4.2 继承 73
3.4.3 单例对象和伴生对象 75
3.5 Scala基本数据结构  76
3.5.1 数组 .76
3.5.2 元组 .78
3.5.3 集合 .80
3.6 使用IDEA开发运行worldCount程序 83
3.6.1 项目运行 83
3.6.2 提交任务到集群 85
小结89
习题89
第4章 ？弹性分布式数据集90
4.1 RDD概述  91
4.2 RDD创建方式 91
4.2.1 通过读取文件生成RDD 92
4.2.2 通过并行化方式创建RDD .92
4.3 RDD类型操作 93
4.3.1 转换算子 93
4.3.2 行动算子 96
4.4 RDD之间的依赖关系  98
4.5 RDD机制  99
4.5.1 持久化机制 .99
4.5.2 容错机制 102
4.6 统计每日新增用户  103
4.6.1 需求分析 103
4.6.2 在Spark Shell中实现 103
4.6.3 在IDEA中实现 106
小结 112
习题 112
第5章 ？Spark核心原理113
5.1 消息通信原理  113
5.1.1 整体框架  113
5.1.2 启动消息通信 115
5.1.3 运行时消息通信  118
5.2 Spark任务执行原理 124
5.2.1 划分调度 124
5.2.2 提交调度 127
5.2.3 提交任务 129
5.2.4 执行任务 134
5.2.5 获取执行结果136
5.3 容错 138
5.3.1 Executor异常 138
5.3.2 Worker异常139
5.3.3 Master异常 140
小结 141
习题 142
第6章 ？Spark存储原理 143
6.1 存储分析 143
6.1.1 体系架构 143
6.1.2 读数据过程 146
6.1.3 写数据过程 153
6.2 Shuffle 161
6.2.1 Shuffle Write161
6.2.2 Shuffle Read 163
6.2.3 Hadoop Shuffle与Spark Shuffle .164
6.3 共享变量 166
6.3.1 广播变量 166
6.3.2 累加器 .168
小结 168
习题 169
第7章 ？Spark SQL 170
7.1 Spark SQL简介  171
7.1.1 Spark SQL的概念 .171
7.1.2 Spark SQL架构 171
7.2 DataFrame . 173
7.2.1 创建DataFrame 173
7.2.2 操作DataFrame 176
7.2.3 RDD转换为DataFrame 179
7.3 Spark SQL多数据源操作 181
7.3.1 MySQL数据源操作 181
7.3.2 Hive数据源操作183
7.4 Spark SQL应用案例  185
7.4.1 用Spark SQL实现单词统计 185
7.4.2 电影数据分析 188
小结 191
习题 191
第8章 ？Spark Streaming  193
8.1 认识Spark Streaming 194
8.1.1 流式计算简介194
8.1.2 Spark Streaming简介 195
8.1.3 Spark Streaming工作原理 196
8.2 DStream 196
8.2.1 DStream简介 196
8.2.2 DStream 转换操作 197
8.2.3 DStream 输出 200
8.2.4 Spark Streaming窗口操作 202
8.3 Spark Streaming应用案例 207
8.3.1 Spark Streaming实现单词统计 207
8.3.2 Spark Streaming热搜统计 209
8.3.3 自定义输出实训 210
8.3.4 Spark Streaming窗口计算实训 214
小结 217
习题 217
？

蒋一锄，毕业于华中科技大学计算机科学与技术专业，湖南环境生物职业技术学院副教授（副研究馆员）、IBM Certified for On Demand Business；现任湖南环境生物职业技术学院图书馆副馆长、计算机专业课程教师；工作以来，发表学术论文10余篇、主持或参与省市级课题6项、主编或参编专著（教材）3部、获实用新型专利7项、发明专利2项。指导学生在第十一届“中国软件杯”大学生软件设计大赛总决赛获一等奖；指导学生在大数据技术与应用等赛项中获得省级奖项多项。？

本书以实践为导向，突出案例教学；结合Spark生态圈，扩展相关知识点，呈现完整的Spark大数据分析体系；使用通俗易懂的语言阐述难点，辅以大量生动形象的图例，增强读者的理解和记忆；具有完整的知识体系和目录结构，形成逻辑清晰的知识脉络；采用深入浅出的层级教学，逐步深化读者对Spark的理解；提供可运行的示例代码、PPT讲义等辅助读者学习的教学资源。
？