高等职业教育 > 计算机大类

数据存储技术

书号:9787113292775 套系名称:“十四五”高等职业教育新形态一体化系列教材

作者:付雯 李旭 出版日期:2022-11-01

定价:49.80 页码 / 开本:无 /16

策划编辑:王春霞 责任编辑:王春霞 贾淑媛

适用专业:无 适用层次:高等职业(专科)

课程类别:大数据 课程分类:无

配盘:无 配套教材:无

获奖情况:无

资源下载
教学课件(暂无) 教学素材(暂无)
习题答案(暂无) 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  • 本书分为 7 章,全面系统地对数据存储技术进行讲解,并采用大量案例完成实操,此提高教
    
    师课堂教学的时效性,强化学生的动手能力,将行业与专业核心技术贯穿始终。
    
    本书在深入企业调研的基础上,结合企业岗位需求,根据课程内容特点,采取任务驱动教学
    
    模式,确立职业岗位工作过程中工作任务,将工作任务内容转化为学习领域课程内容,与企业合
    
    作,共同完成对课程的设计和开发工作。本书内容贴近实际,按照学生职业能力成长的过程设计,
    
    培养学生的基本职业技能和实际操作能力,从而为大数据技术的发展打通更广阔的就业路径,满
    
    足专业岗位的需求。
    
    本书适合职业院校大数据相关专业作为教材使用,同时也为本科院校学生专业课程的学习打
    
    下基础,也适合作为数据存储技术爱好者的参考用书。
  • 程序、作业级别参数和任务级别参数的调整优化进行了详述。
    
    第 7 章通过大数据的应用实例,结合一些社会实际问题的背景,对大数据的功能性需求和非功
    
    能性需求进行了详细描述,并逐步深入分析,将大数据的理论和新技术应用到了实践当中。
    
    本书主要面向高职院校的学生,旨在为高职院校大数据技术的学习者们打开一扇理解大数据和
    
    应用大数据技术的窗户,深入浅出地介绍了大数据、大数据的价值和应用、数据存储与分析技术和
    
    大数据的应用等内容。
    
    本书由付雯、李旭任主编,罗攀、吴焱岷、李俊翰、于鹏、于震宇任副主编。本书的编写分工如下:
    
    重庆电子工程职业学院的付雯完成第 1 章的编写工作,李旭完成第 2 章、第 4 章的编写工作,罗攀
    
    完成第 5 章、第 7 章和全书习题的编写工作,李俊翰完成第 3 章的编写工作,吴焱岷完成第 6 章的
    
    编写工作,阿克苏职业技术学院于震宇和新华三技术有限公司于鹏负责全书案例的编写。
    
    由于时间仓促加之编者水平有限,书中难免存在不妥之处,敬请指正。
    
    编者
    
    2022 年 2 月
  • 第 1 章大数据概述         1
    
    1.1大数据存储技术简介      2
    
    1.1.1大数据的概念          3
    
    1.1.2大数据的特点          4
    
    1.1.3大数据的数据来源      5
    
    1.1.4大数据的结构类型     6
    
    1.1.5大数据的存储          6
    
    1.2大数据分析技术简介        7
    
    1.2.1大数据分析的概念     7
    
    1.2.2大数据分析的应用    8
    
    1.2.3大数据分析的过程 9
    
    1.2.4大数据分析的技术       10
    
    1.2.5大数据分析的难点       10
    
    1.3项目实战:HDFS 系统搭建    11
    
    1.3.1基础环境变量配置    11
    
    1.3.2配置 HDFS             11
    
    1.3.3配置 NameNode 节点        13
    
    1.3.4格式化 NameNode 和启动
    
    HDFS 系统         13
    
    小结                14
    
    习题               14
    
    第2章大数据的存储与管理  16
    
    2.1项目需求              16
    
    2.2HDFS 设计               17
    
    2.2.1设计前提与目标    18
    
    2.2.2基本组件           19
    
    2.2.3文件系统的名字空间        20
    
    2.2.4数据复制          20
    
    2.2.5文件系统元数据的持久性 22
    
    2.2.6文件系统的通信协议        23
    
    2.2.7文件系统的健壮性       23
    
    2.3HDFS 数据管理        24
    
    2.3.1数据块                24
    
    2.3.2安全模式          26
    
    2.3.3文件权限          26
    
    2.3.4 HDFS 优缺点          27
    
    2.4HDFS 存储原理          .28
    
    2.4.1存储原理          28
    
    2.4.2写文件流程           30
    
    2.4.3读文件流程           31
    
    2.4.4 HDFS 存储扩容           32
    
    2.5项目实战:HDFS 添加节点和删除
    
    节点               32
    
    小结                 34
    
    习题                 34
    
    第 3 章HDFS 文件系统操作    36
    
    3.1HDFS Shell 操作            36
    
    3.1.1创建目录          39
    
    3.1.2上传文件           40
    
    3.1.3查看文件内容            40
    
    3.1.4复制文件          40
    
    3.1.5修改文件权限            41
    
    3.1.6修改文件属组、属主信息   41
    
    3.1.7查看目录所有文件       42
    
    3.1.8查看文件系统磁盘使用
    
    情况               42
    
    3.1.9删除文件            42
    
    3.1.10删除目录              43
    
    3.2HDFS Java API        43
    
    3.2.1根据配置文件获取 HDFS
    
    操作对象        44
    
    3.2.2创建文件夹           46
    
    3.2.3重命名文件夹            47
    
    3.2.4文件上传           49
    
    3.2.5文件的下载           51
    
    3.2.6文件判断         53
    
    3.2.7 HDFS 文件的复制      56
    
    3.2.8文件夹的遍历操作       58
    
    3.2.9获取配置的所有信息        60
    
    3.2.10删除文件夹       61
    
    3.3项目实战:将数据存储到 HDFS  63
    
    小结                  68
    
    习题                 68
    
    第 4 章MapReduce 简介及架构原理         70
    
    4.1MapReduce 介绍            70
    
    4.1.1 MapReduce 编程模型概述   71
    
    4.1.2 MapReduce 编程模型介绍   72
    
    4.1.3 MapReduce API 基本概念 74
    
    4.1.4 Java API 解析          75
    
    4.2MapReduce 工作机制       93
    
    4.2.1 MapReduce 架构       93
    
    4.2.2 MapReduce 作业运行机制   94
    
    4.2.3 MapReduce 原理       97
    
    4.3MapReduce 类型与格式      99
    
    4.3.1 MapReduce 输入格式        99
    
    4.3.2 MapReduce 输出格式   101
    
    4.4MapReduce 案例        102
    
    4.4.1案例一:分组取 topN 统计温度案例            102
    
    4.4.2案例二:微博推荐案例(TF-IDF)          110
    
    4.4.3案例三:好友推荐案例    124
    
    4.5项目实战:数据清洗          135
    
    小结                  145
    
    习题                  145
    
    第 5 章Hive 介绍及架构原理       147
    
    5.1Hive 简介            147
    
    5.1.1数据仓库概念介绍         148
    
    5.1.2数据仓库数据模型         148
    
    5.1.3 Hive 数据仓库的特点     149
    
    5.2Hive 的架构            150
    
    5.2.1 Hive 的架构图         150
    
    5.2.2 Hive 的存储        153
    
    5.3Hive 的定义语言            155
    
    5.3.1 Hive 数据类型         155
    
    5.3.2基本数据类型      155
    
    5.3.3复杂数据类型        156
    
    5.4Hive 数据库操作            156
    
    5.4.1创建数据库             156
    
    5.4.2删除数据库             158
    
    5.4.3修改数据库             158
    
    5.5Hive 表操作            158
    
    5.5.1创建表           160
    
    5.5.2列出表            162
    
    5.5.3内部表            163
    
    5.5.4外部表           163
    
    5.5.5分区                 164
    
    5.5.6修改表              165
    
    5.5.7删除表             166
    
    5.6将数据装载到表中           167
    
    5.6.1使用存储在 HDFS 中的文件装载数据        167
    
    5.6.2使用查询装载数据         169
    
    5.6.3单个查询语句中创建表并加载数据             170
    
    5.6.4导出数据            171
    
    5.7UDF 函数             173
    
    5.7.1 Hive 内置运算符          173
    
    5.7.2字符串函数             175
    
    5.7.3数学函数            176
    
    5.7.4日期函数            178
    
    5.7.5自定义函数             178
    
    5.8连接                180
    
    5.8.1内连接            182
    
    5.8.2左外连接            184
    
    5.8.3右外连接            186
    
    5.8.4全外连接            188
    
    5.8.5左半开连接             190
    
    5.9Hive 案例             191
    
    5.9.1案例一:使用 Hive 实现WordCount           192
    
    5.9.2案例二:使用 Hive 实现掉话率统计业务       199
    
    5.9.3案例三:使用 Hive 实现房产数据统计             202
    
    5.10项目实战:数据分析       213
    
    小结                  220
    
    习题                  220
    
    第 6 章离线分析集群调优      222
    
    6.1Hadoop 性能调优         222
    
    6.1.1应用程序编码调优         222
    
    6.1.2作业级别参数调优         223
    
    6.1.3任务级别参数调优         224
    
    6.2Hive 性能调优           227
    
    6.2.1 Hive 的压缩存储调优     227
    
    6.2.2表的调优            228
    
    6.2.3数据倾斜优化         231
    
    6.3项目实战:Hive 的压缩      235
    
    小结                  236
    
    习题                  236
    
    第 7 章大数据的应用实例      238
    
    7.1Hadoop 在 Last.fm 的应用    .238
    
    7.2几个大数据的应用实例      242
    
    7.3项目实战:网络爬虫实验     243
    
    小结                  247
    
    习题                  247
    
  • 付雯,女,中共党员,教授,武汉大学硕士,北京大学访问学者。全国高校大数据教育“实践教学”年度人物获得者。“双师双能型”素质的专业骨干教师,学科专业群带头人。有良好的职业道德,为人师表,学风端正。先后承担了数十门专业课程的教学及教研工作。公开发表论文15篇,出版学术专著1部;主编教材2部,参编教材5部,实用新型专利7项;软件著作权6项;主研(负责)大数据技术与应用专业国家教学资源库项目建设,主研市级骨干专业-移动应用开发专业建设1个(已获批国家级骨干专业);主研软件技术专业、移动应用开发专业国家教学资源库子项目3个。主持参与为企业开发“电磁环境及气象参数自动采集系统”项目、 “巫溪县‘互联网+教育’综合服务平台策划服务”等项目,产值达700万。受聘于多省市学术团体专家组成员。指导学生参加全国职业院校技能大赛“软件测试”赛项获一等奖,“大数据技术与应用”赛项获二等奖。同时获28项省部级行业赛奖项。,李旭,36岁,毕业于北京语言大学语言智能与技术专业,博士研究生,讲师,现任职于重庆电子工程职业学校人工智能与大数据学院教师。主要研究方向:机器算法、粗糙集应用。现为国家高等职业院校教学创新团队成员、重庆市创新研究群体主要成员;主持参与国家、省科研项目多项,其中主持省级纵向项目1项、校级项目1项。
  • 本书适合职业院校大数据相关专业作为教材使用,同时也为本科院校学生专业课程的学习打下基础,也适合作为数据存储技术爱好者的参考用书。