计算机类教材 > 大数据

大数据平台搭建与配置管理

书号:9787113271350 套系名称:高等职业教育校企合作系列教材.大数据技术与应用专业

作者:邓建萍 出版日期:2020-08-01

定价:42.00 页码 / 开本:224 /16

策划编辑:翟玉峰 责任编辑:翟玉峰 包宁

适用专业:计算机教材 适用层次:高职高专

最新印刷时间:

资源下载
教学课件 教学素材
习题答案 教学案例
教学设计 教学视频
内容简介 前言 目录 作者介绍 图书特色
  • 大数据平台搭建与配置管理”课程是大数据技术与应用专业的必修核心课程。本书重点培养读者深入认识和使用Hadoop平台,学习并掌握Hadoop大数据平台的搭建与配置管理,并利用Hadoop知识处理和解决实际问题的能力。主要内容为Hadoop安装与配置、分布式文件系统HDFS、分布式编程框架MapReduce、分布式服务框架Zookeeper、数据仓库Hive、分布式数据库HBase、流式数据处理框架Storm。本书具有较强的实用性和可操作性,通俗易懂,操作步骤描述详尽,并配有微课视频。
    本书适合作为高等职业院校大数据技术与应用、软件技术、云计算技术与应用等专业大数据相关课程的教材,也可作为从事大数据相关工作人员的参考用书,还可供有Java编程基础的读者参考学习。
    
    
  • 随着计算机技术的进步和发展,人类社会产生的数据正呈爆炸式增长。数据是人类社会重要的战略资源,大数据是“未来的新石油”,大数据对未来的科技与经济发展将带来重大影响,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家和企业间争夺的焦点。大数据如此重要,但大数据人才却十分短缺,据统计,截至2018年美国大数据分析人才缺口是19万人,中国作为全球第二大经济体,拥有的数据占全球总量的13%,增长速度保持在50%左右,明显高于全球的增长速度。如此巨大的市场,大数据处理技术人才必将供不应求,未来几年我国将需要十几万大数据相关人才。
    “大数据平台搭建与配置管理”课程是大数据技术与应用专业的必修核心课程,基于能力本位教育理念设计,以学生为中心,强调参与式、互动式的主动学习过程。本书基于学生能力的发展,旨在培养学生深入认识和使用Hadoop平台,掌握Hadoop大数据平台的搭建与配置管理,并利用Hadoop知识处理和解决实际问题。
    本教材的参考学时为114学时,建议采用理论实践一体化教学模式,各项目的参考学时见表1。
    
    
    表1  学时分配表
    单元                            学时
    单元1 Hadoop安装与配置             12
    单元2 分布式文件系统HDFS           18
    单元3 分布式编程框架MapReduce      24
    单元4 分布式服务框架Zookeeper      12
    单元5 数据仓库Hive                 18
    单元6 分布式数据库HBase            18
    单元7 流式数据处理框架Storm        12
    课时总计                           114
    
    本书由邓建萍任主编,并负责编写单元1~单元4;周锋任副主编,并负责编写单元5、单元6;蔡斐负责编写单元7和教材中所有代码部分的检查测试工作。
    本书配套的资源包、运行脚本、电子教案等可登录http://www1daoyuncom下载。
    大数据技术发展日新月异,笔者在撰写本书过程中,参考了大量国内外的教材、博客、专著、论文和资料,对大数据知识进行了系统的梳理,但限于时间和水平,书中疏漏和不足之处在所难免,殷切希望广大读者批评指正。
    编者
    2020年6月
    
  • 目录:
    
    单元1	Hadoop安装与配置1
    任务1.1	安装Linux虚拟环境1
      知识学习
      1. Linux系统介绍2
      2.开源协议介绍7
    任务1.2	使用Linux基础操作命令16
      知识学习
      1. Linux文件和目录管理16
      2. Linux用户和用户组管理19
      3. Linux Shell简介20
    任务1.3	安装Java28
      知识学习
      1. Java简介28
      2. Java与Hadoop的关系34
    任务1.4	安装Hadoop单节点和集群37
      知识学习
      1. Hadoop简介37
      2. Hadoop系统架构41
    小结46
    习题46
    
    单元2	分布式文件系统HDFS47
    任务2.1	理解HDFS的读写过程47
      知识学习
      1. HDFS文件系统简介47
      2. HDFS设计原则49
      3. HDFS核心概念51
      4. HDFS的HA方案53
    任务2.2	使用Java操作HDFS58
      知识学习
      1. HDFS简介59
      2. HDFS读数据流程59
      3. HDFS写数据流程61
    小结69
    习题69
    
    单元3	分布式编程框架MapReduce70
    任务3.1	讲解WordCount实例70
      知识学习
      1. MapReduce概述70
      2. MapReduce计算架构73
    任务3.2	分析MapReduce实例应用83
      知识学习
      1. MapReduce的Map过程83
      2. MapReduce的Reduce过程85
    小结91
    习题92
    
    单元4	分布式服务框架Zookeeper95
    任务4.1	安装与配置Zookeeper93
      知识学习
      1. Zookeeper概述94
      2. Zookeeper工作流96
      3. Zookeeper leader选举100
    任务4.2	调用Zookeeper的Java客户端API103
      知识学习
      1. Zookeeper分布式协调服务原理103
      2. Zookeeper znode剖析105
      3.解读分布式锁110
    小结118
    习题118
    
    单元5	数据仓库Hive119
    任务5.1	安装与配置Hive119
      知识学习
      1. Hive基础知识120
      2. Hive的工作123
      3. Hive的数据类型124
      4. Hive的数据模型125
      5. Hive的架构解析126
      6. HiveQL127
    任务5.2	调用Hive的Java API133
      知识学习
      1. Hive函数与自定义函数134
      2. Hive常用模式设计137
    小结146
    习题146
    
    单元6	分布式数据库HBase148
    任务6.1	安装与配置HBase148
      知识学习
      1. HBase概述149
      2. HBase基本原则和架构152
      3. HBase数据模型154
      4. HBase HDFS目录分析155
    任务6.2	使用HBase Shell159
      知识学习
      1. HBase Shell常用命令159
      2. HBase架构详情162
      3. HBase文件存储与读写166
    任务6.3	调用HBase的Java API175
      知识学习
      1. HBase Schema设计规则175
      2. HBase API基本访问命令179
    小结185
    习题186
    
    单元7	流式数据处理框架Storm190
    任务7.1	安装与配置Storm188
      知识学习
      1. Storm概述与架构188
      2. Storm、Flink、Spark流式数据处理框架比较192
      3. Storm基本概念与组件195
      4. Storm的扩展197
    任务7.2	使用Java开发Storm203
      知识学习
      1.深入剖析Storm Nimbus和Supervisor 203
      2. Storm Worker、Executor和Task深入分析205
      3. Storm的应用开发和调试过程介绍206
    小结217
    习题217
    参考文献218
    
    
  • 邓建萍,贵州轻工职业技术学院
    
  • 本书培养学生深入认识和使用Hadoop平台,掌握Hadoop大数据平台的搭建与配置管理,并利用Hadoop知识处理和解决实际问题。