高等职业教育 > 计算机大类
数据存储技术
书号:9787113292775 套系名称:“十四五”高等职业教育新形态一体化系列教材
作者:付雯 李旭 出版日期:2022-11-01
定价:49.80 页码 / 开本:无 /16
策划编辑:王春霞 责任编辑:王春霞 贾淑媛
适用专业:电子信息类 适用层次:高等职业(专科)
最新印刷时间:
资源下载
教学课件
教学素材(暂无)
习题答案(暂无)
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
本书分为 7 章,全面系统地对数据存储技术进行讲解,并采用大量案例完成实操,此提高教 师课堂教学的时效性,强化学生的动手能力,将行业与专业核心技术贯穿始终。 本书在深入企业调研的基础上,结合企业岗位需求,根据课程内容特点,采取任务驱动教学 模式,确立职业岗位工作过程中工作任务,将工作任务内容转化为学习领域课程内容,与企业合 作,共同完成对课程的设计和开发工作。本书内容贴近实际,按照学生职业能力成长的过程设计, 培养学生的基本职业技能和实际操作能力,从而为大数据技术的发展打通更广阔的就业路径,满 足专业岗位的需求。 本书适合职业院校大数据相关专业作为教材使用,同时也为本科院校学生专业课程的学习打 下基础,也适合作为数据存储技术爱好者的参考用书。
程序、作业级别参数和任务级别参数的调整优化进行了详述。 第 7 章通过大数据的应用实例,结合一些社会实际问题的背景,对大数据的功能性需求和非功 能性需求进行了详细描述,并逐步深入分析,将大数据的理论和新技术应用到了实践当中。 本书主要面向高职院校的学生,旨在为高职院校大数据技术的学习者们打开一扇理解大数据和 应用大数据技术的窗户,深入浅出地介绍了大数据、大数据的价值和应用、数据存储与分析技术和 大数据的应用等内容。 本书由付雯、李旭任主编,罗攀、吴焱岷、李俊翰、于鹏、于震宇任副主编。本书的编写分工如下: 重庆电子工程职业学院的付雯完成第 1 章的编写工作,李旭完成第 2 章、第 4 章的编写工作,罗攀 完成第 5 章、第 7 章和全书习题的编写工作,李俊翰完成第 3 章的编写工作,吴焱岷完成第 6 章的 编写工作,阿克苏职业技术学院于震宇和新华三技术有限公司于鹏负责全书案例的编写。 由于时间仓促加之编者水平有限,书中难免存在不妥之处,敬请指正。 编者 2022 年 2 月
第 1 章大数据概述 1 1.1大数据存储技术简介 2 1.1.1大数据的概念 3 1.1.2大数据的特点 4 1.1.3大数据的数据来源 5 1.1.4大数据的结构类型 6 1.1.5大数据的存储 6 1.2大数据分析技术简介 7 1.2.1大数据分析的概念 7 1.2.2大数据分析的应用 8 1.2.3大数据分析的过程 9 1.2.4大数据分析的技术 10 1.2.5大数据分析的难点 10 1.3项目实战:HDFS 系统搭建 11 1.3.1基础环境变量配置 11 1.3.2配置 HDFS 11 1.3.3配置 NameNode 节点 13 1.3.4格式化 NameNode 和启动 HDFS 系统 13 小结 14 习题 14 第2章大数据的存储与管理 16 2.1项目需求 16 2.2HDFS 设计 17 2.2.1设计前提与目标 18 2.2.2基本组件 19 2.2.3文件系统的名字空间 20 2.2.4数据复制 20 2.2.5文件系统元数据的持久性 22 2.2.6文件系统的通信协议 23 2.2.7文件系统的健壮性 23 2.3HDFS 数据管理 24 2.3.1数据块 24 2.3.2安全模式 26 2.3.3文件权限 26 2.3.4 HDFS 优缺点 27 2.4HDFS 存储原理 .28 2.4.1存储原理 28 2.4.2写文件流程 30 2.4.3读文件流程 31 2.4.4 HDFS 存储扩容 32 2.5项目实战:HDFS 添加节点和删除 节点 32 小结 34 习题 34 第 3 章HDFS 文件系统操作 36 3.1HDFS Shell 操作 36 3.1.1创建目录 39 3.1.2上传文件 40 3.1.3查看文件内容 40 3.1.4复制文件 40 3.1.5修改文件权限 41 3.1.6修改文件属组、属主信息 41 3.1.7查看目录所有文件 42 3.1.8查看文件系统磁盘使用 情况 42 3.1.9删除文件 42 3.1.10删除目录 43 3.2HDFS Java API 43 3.2.1根据配置文件获取 HDFS 操作对象 44 3.2.2创建文件夹 46 3.2.3重命名文件夹 47 3.2.4文件上传 49 3.2.5文件的下载 51 3.2.6文件判断 53 3.2.7 HDFS 文件的复制 56 3.2.8文件夹的遍历操作 58 3.2.9获取配置的所有信息 60 3.2.10删除文件夹 61 3.3项目实战:将数据存储到 HDFS 63 小结 68 习题 68 第 4 章MapReduce 简介及架构原理 70 4.1MapReduce 介绍 70 4.1.1 MapReduce 编程模型概述 71 4.1.2 MapReduce 编程模型介绍 72 4.1.3 MapReduce API 基本概念 74 4.1.4 Java API 解析 75 4.2MapReduce 工作机制 93 4.2.1 MapReduce 架构 93 4.2.2 MapReduce 作业运行机制 94 4.2.3 MapReduce 原理 97 4.3MapReduce 类型与格式 99 4.3.1 MapReduce 输入格式 99 4.3.2 MapReduce 输出格式 101 4.4MapReduce 案例 102 4.4.1案例一:分组取 topN 统计温度案例 102 4.4.2案例二:微博推荐案例(TF-IDF) 110 4.4.3案例三:好友推荐案例 124 4.5项目实战:数据清洗 135 小结 145 习题 145 第 5 章Hive 介绍及架构原理 147 5.1Hive 简介 147 5.1.1数据仓库概念介绍 148 5.1.2数据仓库数据模型 148 5.1.3 Hive 数据仓库的特点 149 5.2Hive 的架构 150 5.2.1 Hive 的架构图 150 5.2.2 Hive 的存储 153 5.3Hive 的定义语言 155 5.3.1 Hive 数据类型 155 5.3.2基本数据类型 155 5.3.3复杂数据类型 156 5.4Hive 数据库操作 156 5.4.1创建数据库 156 5.4.2删除数据库 158 5.4.3修改数据库 158 5.5Hive 表操作 158 5.5.1创建表 160 5.5.2列出表 162 5.5.3内部表 163 5.5.4外部表 163 5.5.5分区 164 5.5.6修改表 165 5.5.7删除表 166 5.6将数据装载到表中 167 5.6.1使用存储在 HDFS 中的文件装载数据 167 5.6.2使用查询装载数据 169 5.6.3单个查询语句中创建表并加载数据 170 5.6.4导出数据 171 5.7UDF 函数 173 5.7.1 Hive 内置运算符 173 5.7.2字符串函数 175 5.7.3数学函数 176 5.7.4日期函数 178 5.7.5自定义函数 178 5.8连接 180 5.8.1内连接 182 5.8.2左外连接 184 5.8.3右外连接 186 5.8.4全外连接 188 5.8.5左半开连接 190 5.9Hive 案例 191 5.9.1案例一:使用 Hive 实现WordCount 192 5.9.2案例二:使用 Hive 实现掉话率统计业务 199 5.9.3案例三:使用 Hive 实现房产数据统计 202 5.10项目实战:数据分析 213 小结 220 习题 220 第 6 章离线分析集群调优 222 6.1Hadoop 性能调优 222 6.1.1应用程序编码调优 222 6.1.2作业级别参数调优 223 6.1.3任务级别参数调优 224 6.2Hive 性能调优 227 6.2.1 Hive 的压缩存储调优 227 6.2.2表的调优 228 6.2.3数据倾斜优化 231 6.3项目实战:Hive 的压缩 235 小结 236 习题 236 第 7 章大数据的应用实例 238 7.1Hadoop 在 Last.fm 的应用 .238 7.2几个大数据的应用实例 242 7.3项目实战:网络爬虫实验 243 小结 247 习题 247
付雯,女,中共党员,教授,武汉大学硕士,北京大学访问学者。全国高校大数据教育“实践教学”年度人物获得者。“双师双能型”素质的专业骨干教师,学科专业群带头人。有良好的职业道德,为人师表,学风端正。先后承担了数十门专业课程的教学及教研工作。公开发表论文15篇,出版学术专著1部;主编教材2部,参编教材5部,实用新型专利7项;软件著作权6项;主研(负责)大数据技术与应用专业国家教学资源库项目建设,主研市级骨干专业-移动应用开发专业建设1个(已获批国家级骨干专业);主研软件技术专业、移动应用开发专业国家教学资源库子项目3个。主持参与为企业开发“电磁环境及气象参数自动采集系统”项目、 “巫溪县‘互联网+教育’综合服务平台策划服务”等项目,产值达700万。受聘于多省市学术团体专家组成员。指导学生参加全国职业院校技能大赛“软件测试”赛项获一等奖,“大数据技术与应用”赛项获二等奖。同时获28项省部级行业赛奖项。,李旭,36岁,毕业于北京语言大学语言智能与技术专业,博士研究生,讲师,现任职于重庆电子工程职业学校人工智能与大数据学院教师。主要研究方向:机器算法、粗糙集应用。现为国家高等职业院校教学创新团队成员、重庆市创新研究群体主要成员;主持参与国家、省科研项目多项,其中主持省级纵向项目1项、校级项目1项。
本书适合职业院校大数据相关专业作为教材使用,同时也为本科院校学生专业课程的学习打下基础,也适合作为数据存储技术爱好者的参考用书。