计算机类教材 > 数据库技术与应用
Hadoop大数据基础实训教程
书号:9787113287528 套系名称:高等学校大数据技术与应用规划教材
作者:彭梅 胡必波 李满 出版日期:2022-02-01
定价:39.80 页码 / 开本:无 /16
策划编辑:唐旭 责任编辑:刘丽丽 徐盼欣
适用专业:计算机类 适用层次:高等教育
最新印刷时间:
资源下载
教学课件
教学素材(暂无)
习题答案(暂无)
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
本书以 Hadoop 大数据技术生态圈主流框架的应用为主线,介绍了数据处理与分析中典型软件的使用和基础编程方法。全书共包含七个基础实训和两个综合案例,内容涵盖操作系统(Linux)、开发工具(IDEA和Maven)以及大数据相关软件(Hadoop、HDFS、HBase、Hive、MapReduce、Spark、MySQL)等,可以较好地满足大数据实践教学需求。?本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用书与其他大数据教材配套使用。
近年来,大数据已成为国家和企业的重要战略资源。大数据相关产业已成为我国未来科技创新和经济结构转型的战略性支柱产业之一,在国民经济的方方面面发挥着重要的作用。大数据技术的广泛应用也带来了巨大的人才缺口,各行各业都亟需大量掌握大数据处理技术的人才。要培养大数据人才,建设和完善大数据课程体系成为各高校的迫切任务。面对这种情况,高校需及时建立和完善大数据课程体系。 Hadoop作为开源的大数据平台是大数据课程教学和企业大数据应用中的重要内容。从实践教学的教学过程和反馈来看,Hadoop大数据技术课程具备较强的应用性和综合性特征,学生反映实践难度较大。为推进高校大数据课程体系的完善,满足高校实践教学的需求,加强课程中 Hadoop大数据实践环节的训练,减少学生搭建大数据实训环境的障碍,我们组织编写了本书。 本书以 Hadoop 大数据技术生态圈主流框架的应用为主线,从搭建初始化的Linux 集群到Hadoop完全分布式集群入手,重点阐述分布式文件系统 HDFS、分布式并行计算框架 MapReduce 基础编程方法,详细介绍分布式数据库 HBase、数据仓库 Hive 的安装和部署方法,拓展介绍基于内存的分布式并行计算框架 Spark 安装和部署方法以及Hadoop 应用开发环境配置过程,便于学生为后续大数据开发学习做好准备。 通过学习本书,学生即使没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据集群并独立完成项目开发,从而降低学习大数据的门槛。 本书共九个实训,包括七个基础实训和两个综合案例。基础实训部分详细介绍系统和软件的安装、使用以及基础编程方法。综合案例部分侧重于系统培养学生大数据处理设计开发、编程测试、部署调优等能力,使学生加深对知识的理解。 各实训主要内容如下∶ 实训 1介绍 Linux 系统的安装。 实训2介绍分布式计算框架 Hadoop的安装和配置。实训 3介绍分布式文件系统 HDFS的操作方法和基础编程。 实训4介绍分布式数据库HBase和基干Hadoop的数据仓库 Hive 的安装和配置。实训5介绍如何编写基本的 MapReduce 程序。 实训 6介绍基于内存的分布式并行计算框架 Spark 的安装和部署。实训7介绍 Hadoop 应用开发环境的安装和部署。 实训 8 为综合案例—电信流量大数据分析统计,介绍电信流量大数据分析统计,让学生掌握 Hadoop+Spark 数据分析处理的实战应用。 实训9为综合案例——基于 Hadoop的云盘信息管理系统的设计与实现,介绍基于Hadoop的云信息管理系统的设计与实现,让学生掌握 Hadoop结合 Java Web 技术的实战应用。 本书中大数据软件之间的相互关系,由底向上简要说明如下; ①操作系统层,采用 Linux 操作系统作为基础平台。 ②数据存储与管理层,主要包括分布式文件系统 HDFS、分布式数据库 HBase 等,其中 HBase借助HDFS作为底层存储。 ③数据处理与分析层,主要包括分布式计算框架 MapReduce、数据仓库 Hive、基于内存的分布式计算框架Spark等,其中数据仓库 Hiye既可以作为数据分析工具,也可以作为数据存储和管理工具。用户可以直接编写 MapReduce程序,也可以先编写 Hive SQL 查询语句再自动转换成 MapReduce 程序执行,实现对数据存储与管理层中的数据的处理和分析。 ④Hadoop 应用开发环境,与 Java 应用开发环境类似。IDEA作为一种集成化开发工具,支持 Java、Scala 等面向对象语言,让用户既可以编写 MapReduce、Spark 等应用程序,实现数据分析和处理,也可以编写 Hadoop Java API程序实现数据存储与管理操作。 本书由广州粤嵌科技股份有限公司一线工程师和广州工商学院多年从事大数据专业教学和科研的一线教师合作编写而成。其中彭梅、胡必以波、李满任主编. 刘晓娟、左文涛、蔡敏、刘钟凌、冯毅鹏任副主编。 本书实践内容由浅到深,循序渐进,凸显学习的认知规律,着重介绍当前最新的知识和主流技术,保证学生所学知识和技术都与行业联系密切,让学生能够学以致用。 本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用书与其他大数据教材配套使用。 尽管我们力求精益求精,但由干编者水平有限。书中难免存在不足及疏漏之处,敬请广大读者批评指正。 编 者2021年9月
实训1LINUX操作系统的安装1 1.1实训目的1 1.2实训要求1 1.3实训原理1 1.3.1虚拟化技术1 1.3.2Linux4 1.3.3Xmanager6 1.3.4JDK6 1.3.5SSH免密登录7 1.3.6同步时钟8 1.4实训步骤8 1.4.1安装和配置Linux虚拟机9 1.4.2安装和配置Linux系统17 1.4.3搭建Linux集群24 实训2HADOOP的安装和配置31 2.1实训目的31 2.2实训要求31 2.3实训原理31 2.3.1Hadoop31 2.3.2Ambari32 2.3.3Docker33 2.4实验步骤34 2.4.1手工搭建方式35 2.4.2Ambari自动化搭建方式45 2.4.3使用Docker搭建Hadoop分布式集群50 实训3HDFS操作方法和基础编程.55 3.1实训目的55 3.2实训要求55 3.3实训原理55 3.3.1HDFS55 3.3.2HDFSShell56 3.3.3HDFSJavaAPI57 3.3.4HDFS运行原理58 3.4实训步骤60 3.4.1HDFSShell基本操作60 3.4.2JavaAPI基本操作61 3.4.3JavaAPI读写数据66 实训4HBASE与HIVE的安装和配置69 4.1实训目的69 4.2实训要求69 4.3实训原理69 4.3.1HBase69 4.3.2Hive70 4.4实训步骤71 4.4.1安装Zookeeper71 4.4.2安装HBase72 4.4.3安装Hive75 实训5MAPREDUCE基础编程81 5.1实训目的81 5.2实训要求81 5.3实训原理81 5.3.1MapReduce编程思想81 5.3.4单词频数统计83 5.3.2YARN框架84 5.4实验步骤86 实训6Spark的安装和配置93 6.1实训目的93 6.2实训要求93 6.3实训原理93 6.3.1Zookeeper94 6.3.2Spark94 6.3.3Spark编程原理95 6.4实训步骤96 6.4.1搭建Zookeeper分布式集群96 6.4.3搭建Spark分布式集群99 6.4.4运行SPARK分布式集群103 实训7HADOOP开发环境的安装和部署.106 7.1实训目的106 7.2实训要求106 7.3实训原理106 7.3.1IntelliJIDEA106 7.3.2Eclipse108 7.3.3Maven108 7.3.4Tomcat109 7.3.5MySQL109 7.4实验步骤109 7.4.1部署IDEA109 7.4.2部署Eclipse127 7.4.3部署ScalaSDK131 7.4.4部署Maven133 7.4.5部署Tomcat服务器137 7.4.6部署MySQL服务器142 综合案例1电信流量大数据分析统计151 8.1案例背景151 8.2优化词频统计项目151 8.3使用Spark的local模式进行数据清洗ETL实战153 综合案例2基于HADOOP的云盘信管理系统的设计与实现158 9.1案例背景159 9.2系统开发工具与技术159 9.2.1HDFS分布式文件系统159 9.2.2JSP技术159 9.2.3ApacheTomcat服务器160 9.2.4MySQL数据库160 9.3搭建开发环境161 9.3.1搭建Hadoop开发环境161 9.3.2安装和配置开发工具171 9.4系统分析172 9.5系统设计174 9.5.1数据库设计177 9.6部分模块代码实现179
彭梅,硕士,副教授,广州工商学院计算机科学与工程系副主任,骨干教师,获得“正保教育杯第五界全国ITAT教育工程技能大赛”优秀指导老师奖、指导第五届“蓝桥杯”全国软件和信息技术专业人才大赛广东赛区JAVA软件开发高职高专组优秀奖等荣誉。研究方向:软件工程、计算机应用。主持及参加省部级科研项目5项,公开发表论文10余篇,主编教材4部,参编教材2部。 胡必波,本科,副教授,广州工商学院大数据专业带头人,主讲课程:大数据,数据库,数据结构,研究方向大数据及应用。 李满,本科,副教授,广州工商学院工学院副院长,主讲课程python、虚拟现实,主编教材多部,研究方向大数据及应用。
1.以实际案例来驱动学习,让学生真正地实现边实操边学习,在教与学的过程的中弱化“教”,深化“做”与“学”,最终达到“老师轻松教,学生高效学,实验简单做”的目的。 2.两个综合案例有助于读者全方面理解大数据工程的实施。