高等教育 > 计算机类
Hive数据仓库应用与实战
书号:9787113308049 套系名称:高等院校大数据应用型人才培养立体化资源“十四五”系列教材
作者:黄金土 肖紫珍 李杰 俞显茂 出版日期:2024-10-01
定价:49.80 页码 / 开本:无 /16
策划编辑:荆波 责任编辑:荆波 许璐
适用专业:计算机类 适用层次:高等教育
最新印刷时间:2024-10-01
资源下载
教学课件
教学素材
习题答案
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
本书是高等院校大数据应用型人才培养立体化资源“十四五”系列教材之一,主要讲解数据仓库基础知识及基于Hadoop的数据仓库工具Hive的安装、使用方法。全书分为基础篇、实践篇和拓展篇三篇:基础篇是对数据仓库的发展历史、背景和技术原理的解释;实践篇对Hive数据仓库主要知识点进行解析和实践,依据简单、易学和实用等原则进行编写;拓展篇通过行业项目来巩固所学内容。本书主要突出实用性和校企融合的特点,且配备了丰富的微视频资源,以方便学生学习及教师授课。
本书是国信蓝桥教育科技股份有限公司面向应用型高等院校学生及对大数据技术感兴趣的人士所开发的系列教材之一。本书以培养应用型专业人才的应用能力为主要目标,理论与实践并重,并强调理论与实践相结合,通过校企双方优势资源的共同投入和促进,建立以产业需求为导向、以实践能力培养为重点、以校企合作为途径的专业培养模式,使学生既能夯实基础知识,又能获得实际工作体验,掌握实际技能,提升综合素养。 全书共分三篇六个项目,分别是基础篇、实践篇和拓展篇。基础篇是对数据库仓库的历史、背景和技术原理的解释;实践篇对Hive 数据仓库主要知识点进行解析和实践,依据简单、易学和实用等原则进行编写;拓展篇通过行业项目来巩固所学内容。在内容设计上,本书将知识点项目化、模块化,用任务驱动的方式进行讲解,力求使抽象的理论具体化、形象化,使之真正贴合实际、面向应用。 本书主要具有以下特点: (1)实用性。以项目为基础、以模块为划分、以任务实战的方式安排项目,架构清晰,先让学生掌握课程整体知识内容的架构,然后在不同项目中穿插实战任务,学习目标明确,学习内容系统。 (2)校企融合。本书由一批具有丰富教学经验的教师和具有多年实践经验的企业工程人员共同编写,既解决了高校教师教学经验丰富但实践经验少、编写教材时不免理论内容过多的问题,又弥补了工程人员实践经验丰富却无法清晰阐述理论内容的短板。实践案例来自一线,案例新、实践性强。 (3)配套资源丰富。本书配备了相关的课件、实训手册、题库、微课、教学大纲、课程标准等资源,以方便学生学习以及教师授课。相关教学资源可在中国铁道出版社教育资源数字化平台(www. tdpress. com/51eds)下载。 本书既注重培养学生分析问题的能力,也注意培养学生思考、解决问题的能力,使学生真正做到学以致用。本书适合作为高等院校计算机、软件工程、大数据等专业教材,也可供相关技术人员参考。 本书由黄金土、肖紫珍、李杰、俞显茂任主编,由杨天、肖丽任副主编。具体分工为:项目一由黄金土(阳光学院)编写;项目二由肖紫珍(宜春幼儿师范高等专科学校)编写;项目三由肖丽(郑州轻工业大学) 编写;项目四由李杰( 东营科技职业学院) 编写;项目五由俞显茂(黄冈教育谷投资控股有限公司) 编写;项目六由杨天( 黄冈教育谷投资控股有限公司)编写。全书由黄金土统稿。 本书的编写过程中,编者吸收了相关教材及论著的研究成果,在此,谨向各位同仁及作者表示衷心的感谢! 限于编者的水平,书中难免有不妥或疏漏之处,敬请广大读者批评指正。
基础篇 项目一 初识Hive与数据仓库………………………………………………………………… 2 任务一 初识数据仓库………………………………………………………………………… 2 一、数据仓库介绍………………………………………………………………………… 2 二、Hadoop与数据仓库…………………………………………………………………… 6 任务二 初识Hive…………………………………………………………………………… 6 一、Hive的发展历史……………………………………………………………………… 7 二、Hive特性……………………………………………………………………………… 7 三、Hive和传统关系型数据库的区别……………………………………………………… 8 四、Hive架构……………………………………………………………………………… 9 五、Hive工作原理………………………………………………………………………… 10 六、Hive数据模型………………………………………………………………………… 10 思考与练习…………………………………………………………………………………… 13 项目二 配置Hive……………………………………………………………………………… 15 任务 Hive的部署和配置…………………………………………………………………… 15 一、下载Hive …………………………………………………………………………… 15 二、Hive安装…………………………………………………………………………… 17 三、测试:将本地文件导入Hive………………………………………………………… 18 四、安装MySQL………………………………………………………………………… 20 五、将Hive元数据配置到MySQL ……………………………………………………… 22 六、Hive JDBC访问……………………………………………………………………… 24 七、Hive常见属性配置…………………………………………………………………… 25 思考与练习…………………………………………………………………………………… 27 实践篇 项目三 解析HiveQL语法…………………………………………………………………… 31 任务一 熟悉Hive数据类型………………………………………………………………… 31 一、原始类型……………………………………………………………………………… 32 二、复杂数据类型………………………………………………………………………… 33 三、类型转换……………………………………………………………………………… 34 任务二 解析HiveQL DDL………………………………………………………………… 34 一、基于数据库的DDL操作……………………………………………………………… 35 二、基于表的DDL 操作…………………………………………………………………… 39 任务三 解析HiveQL DML ………………………………………………………………… 53 一、加载数据……………………………………………………………………………… 53 二、插入数据……………………………………………………………………………… 56 三、数据导出……………………………………………………………………………… 58 四、查询操作……………………………………………………………………………… 60 任务四 解析Hive Shell基本操作…………………………………………………………… 62 一、常见变量……………………………………………………………………………… 62 二、Hive变量的使用……………………………………………………………………… 63 三、设置自定义变量……………………………………………………………………… 64 四、HiveQL执行方式……………………………………………………………………… 65 五、Hive Shell的其他用法………………………………………………………………… 65 思考与练习…………………………………………………………………………………… 66 项目四 深入HiveQL …………………………………………………………………………… 70 任务一 HiveQL实现复杂查询……………………………………………………………… 70 一、聚合函数……………………………………………………………………………… 70 二、分组………………………………………………………………………………… 73 三、排序………………………………………………………………………………… 75 四、连接………………………………………………………………………………… 78 五、分桶策略及抽样查询………………………………………………………………… 83 任务二 使用内置函数……………………………………………………………………… 86 一、系统内置函数………………………………………………………………………… 86 二、常用内置函数………………………………………………………………………… 87 任务三 创建、使用自定义函数……………………………………………………………… 100 一、自定义函数简介…………………………………………………………………… 100 二、自定义UDF 函数的实现…………………………………………………………… 100 任务四 优化HiveQL性能………………………………………………………………… 103 一、Fetch 抓取…………………………………………………………………………… 104 二、本地模式…………………………………………………………………………… 105 三、Hive 的压缩存储…………………………………………………………………… 106 四、表的优化…………………………………………………………………………… 107 五、数据倾斜…………………………………………………………………………… 109 思考与练习…………………………………………………………………………………… 114 拓展篇 项目五 深入数据仓库………………………………………………………………………… 118 任务 熟悉数据仓库模型及规范…………………………………………………………… 118 一、数据模型的概念…………………………………………………………………… 118 二、三种重要的数据模型……………………………………………………………… 119 三、数据仓库架构……………………………………………………………………… 121 思考与练习…………………………………………………………………………………… 134 项目六 Hive项目实战………………………………………………………………………… 136 任务 视频网站数据的清洗和分析………………………………………………………… 136 一、数据来源…………………………………………………………………………… 136 二、数据清洗…………………………………………………………………………… 137 三、创建表……………………………………………………………………………… 141 四、导入ETL后的数据………………………………………………………………… 142 五、向 ORC表插入数据 ………………………………………………………………… 142 六、业务分析…………………………………………………………………………… 143 思考与练习…………………………………………………………………………………… 149 附录A 思考与练习答案…………………………………………………………………… 151 参考文献………………………………………………………………………………………… 156
黄金土,硕士研究生,现任高校大数据专业系主任,具有十几年大数据开发和数据科学与大数据技术本科专业的教学工作经验,主讲大数据分析与可视化技术、大数据技术导论、Python程序设计、智能推荐系统设计、ETL数据清洗等本科生课程,获得华为ICT大赛2022-2023和2023-2024的优秀指导教师称号。,肖紫珍,大学本科学历,副教授,专业方向为计算机应用,教授课程为Python程序设计、C语言程序设计、网页设计与制作。主持江西省高校教改课题《基于智慧教学平台的师范院校通识课混合教学模式的研究》;主持江西省科技课题《师范生数字素养网络培育平台构建》;主编教材《多媒体课件开发与制作》;在《中国安全科学学报》发表核心论文《网络文化时代的信息安全教育育研究》;发表多篇省级论文。指导学生2022年、2023年参加江西省大学生信息技术大赛获三等奖;主持校级精品课程1项。,李杰,专业研究方向为信息技术。编写教材《C语言程序设计》《电路设计与实践应用》。撰写论文《新形势下的高职教学模式改革创新研究》《创新创业教育在高职计算机类专业课程体系中的建设》等。,俞显茂,华东师大计算机应用研究生,有二十多年信息系统架构,大数据行业,软件开发和项目管理经验;现服务于阳光学院大数据专业,有多年的教学经验,主讲课程有Spark、Hadoop、Hive、Hbase、网络信息抓取、大数据存储、大数据综合实训等;熟悉Java、Python、Scala、JavaScript语言,以及MongoDB、MySQL、Oracle数据库和Spring、SSM、Flask、NodeJS、Vue等框架。
(1)清晰理论阐述与一线实践案例体现校企融合编排特色。(2)不同项目中合理穿插实战任务,学习目标明确,实用性强。(3)丰富的微课视频,涵盖书中重点和难点,助力读者轻松掌握。