高等教育 > 计算机基础教育
大数据导论
书号:9787113322694 套系名称:高等教育新工科信息技术课程系列教材
作者:陶皖 出版日期:2025-07-01
定价:49.80 页码 / 开本:无 /16
策划编辑:翟玉峰 责任编辑:翟玉峰 包宁
适用专业:计算机基础教育 适用层次:高等教育
最新印刷时间:
资源下载
教学课件
教学案例
电子教案
电子教案
内容简介
前言
目录
作者介绍
图书特色
-
本书为高等教育新工科信息技术课程系列教材之一,以应用型人才培养为主要目标。 本书从大数据概念及特点切入,紧紧围绕大数据应用的技术框架这一主线展开,详细论述了大数据采集与预处理、大数据存储与计算处理、大数据分析、大数据可视化、大数据应用、大数据安全与伦理等内容。 本书适合作为高等院校数据科学与大数据技术、软件工程等计算机类或电子信息类专业的大数据课程教材,也可作为其他读者深入了解大数据技术的参考书。 -
在当今数字技术飞速发展的背景下,大数据已成为推动社会进步和经济发展的重要力量,其重要性不言而喻,这也体现了科技发展对于社会变革的巨大推动作用。 中共中央、国务院印发的《数字中国建设整体布局规划》指出,建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。 加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。 大数据的 “大” 在于其数据种类繁多、数据量巨大、数据流动迅速。 相关数据显示,仅2023年全球数据总量就达到了约120ZB,预计到2025年底将增长至180ZB 左右,同时数据中蕴含的价值也越来越受到人们的重视。大数据将成为新一轮产业革命的新动力、新引擎,它不仅推动了传统产业的转型升级,还催生了众多新的业态和商业模式,为经济发展注入了新的活力。相关预测表明,未来 5 年,大数据或者数据工作者的岗位需求将激增,其中大数据分析师的缺口将高达100万人。随着数字化转型的加速推进,企业对于数据分析和应用能力的要求越来越高,对大数据人才的需求不断攀升。需求驱动技术的发展。为了应对大数据及对其应用处理的要求,近年来,各类大数据技术层出不穷,如分布式计算技术、数据挖掘算法、机器学习模型等在大数据领域的广泛应用,为大数据的处理和分析提供了更加强有力的支持。 本书的宗旨是将大数据的思维、大数据的基础知识及基本技术介绍给读者,并帮助读者了解大数据的安全及伦理思想,使读者对大数据领域的知识及技术有初步的了解,起到引导思维、树立理念、明确概念、接触技术的作用,为读者以后深入学习大数据技术奠定基础,为开展大数据应用提供帮助。全书共7章。 第1章介绍了大数据概念的由来、大数据的特点及大数据技术带来的变革,介绍了大数据的应用及其技术框架,并特别介绍了“数据科学” “数据要素” “大语言模型”与大数据的联系。 第2章至第5章从构建大数据应用技术框架出发,分别介绍大数据采集与预处理、大数据存储与计算处理、大数据分析、大数据可视化等不同阶段中的基础知识、基本技术,以使读者对实现一个大数据应用的完整过程有比较深入的认识。 第6章介绍了互联网大数据、政务大数据、交通大数据、旅游大数据等不同领域的大数据应用及涉及的技术,帮助读者开启大数据应用的思路。 第7章介绍了大数据安全及伦理问题,帮助读者在接触、应用大数据技术时树立大数据安全及伦理观念。 本书图文并茂,尽量避免枯燥的概念陈述,每章后都设计了习题,以帮助读者更好地掌握知识内容。 本书是安徽工程大学质量工程“一流教材建设项目” (项目编号:2024yljc05)的建设成果。由大数据专业一线教师组织编写,第3章由冯富霞编写,第4章、第7章由杨磊编写,第5章由杨丹编写,其余章由陶皖编写,全书由陶皖统稿。 此外,第6章中政务大数据、交通大数据案例来源于上海德拓信息技术股份有限公司开发的实际应用项目。将项目转化为教学案例是与南京秉蔚信息科技有限公司和上海德拓信息技术股份有限公司校企合作的成果。全书的编写得到了中国铁道出版社有限公司和安徽工程大学计算机与信息学院的大力帮助和支持,在此表示诚挚的谢意。本书在编写过程中参考了很多优秀的教材、专著和网上资料,在此对所有引用资料的作者表示衷心的感谢。 由于编者水平有限,书中难免存在不妥之处,敬请广大读者批评指正。 编 者 2025年2月 -
第 1 章 绪论 1 1. 1 大数据的定义 1 1. 1. 1 “大数据”的由来 1 1. 1. 2 大数据的概念及特征 4 1. 1. 3 大数据的奥秘 7 1. 2 相关术语 8 1. 2. 1 从数据到智慧 8 1. 2. 2 结构化与非结构化数据 9 1. 3 大数据带来的价值、挑战与变革 11 1. 3. 1 大数据带来的价值 12 1. 3. 2 大数据带来的挑战 12 1. 3. 3 大数据带来的变革 15 1. 4 大数据的相关技术 16 1. 5 数据科学与大数据 20 1. 5. 1 数据科学的内涵 20 1. 5. 2 数据科学与大数据技术 20 1. 6 数据要素与大数据 21 1. 6. 1 数据要素的内涵 21 1. 6. 2 数据要素与大数据的关系 23 1. 7 大语言模型与大数据 24 1. 7. 1 大语言模型的内涵 24 1. 7. 2 大语言模型与大数据的关系 26 习题 27 第 2 章 大数据采集与预处理 28 2. 1 大数据来源与采集 28 2. 1. 1 大数据来源 28 2. 1. 2 大数据采集技术 29 2. 2 大数据采集的实现 31 2. 2. 1 网络爬虫 31 2. 2. 2 其他数据采集工具 35 2. 3 数据预处理 38 2. 3. 1 数据清洗 39 2. 3. 2 数据集成 42 2. 3. 3 数据转换 43 2. 3. 4 数据规约 45 2. 3. 5 数据预处理的实现 52 习题 55 第 3 章 大数据存储与计算处理 56 3. 1 大数据存储 56 3. 1. 1 大数据如何存储 56 3. 1. 2 大数据存储的问题 59 3. 2 HDFS 文件系统 60 3. 2. 1 相关概念 60 3. 2. 2 HDFS 分布式文件系统的结构 62 3. 2. 3 HDFS 存储原理 62 3. 3 NoSQL 数据库 64 3. 3. 1 NoSQL 的产生 65 3. 3. 2 NoSQL 与 RDBMS 66 3. 3. 3 NoSQL 的分类 67 3. 3. 4 NoSQL 与 NewSQL 70 3. 4 HBase 数据库 71 3. 4. 1 HBase 简介 71 3. 4. 2 HBase 体系结构 73 3. 4. 3 HBase 数据模型 75 3. 5 大数据处理 76 3. 5. 1 多处理器技术 76 3. 5. 2 并行计算 80 3. 6 分布式计算 86 3. 6. 1 分布式计算简介 86 3. 6. 2 分布式计算理论基础 89 3. 7 MapReduce 模型 91 3. 7. 1 MapReduce 的由来 91 3. 7. 2 MapReduce 编程模型 93 3. 7. 3 YARN/ MapReduce v2 98 3. 7. 4 MapReduce 性能调优 101 3. 8 Spark 通用计算框架 103 3. 8. 1 Spark 简介 103 3. 8. 2 Spark 生态系统 104 3. 8. 3 Spark 框架及计算 104 3. 8. 4 Spark 的部署模式 107 习题 108 第 4 章 大数据分析 109 4. 1 大数据分析概述 109 4. 1. 1 数据分析的原则 109 4. 1. 2 大数据分析的特点 110 4. 1. 3 大数据分析路线及流程 111 4. 1. 4 大数据分析技术 113 4. 1. 5 大数据分析的难点 115 4. 2 大数据分析模型 116 4. 2. 1 大数据分析模型建立方法 116 4. 2. 2 分类分析模型 118 4. 2. 3 关联分析模型 119 4. 2. 4 聚类分析模型 120 4. 3 大数据分析算法 123 4. 3. 1 大数据算法概述 123 4. 3. 2 决策树算法简介 125 4. 3. 3 Apriori 算法简介 130 4. 3. 4 k-means 算法简介 133 4. 4 大数据分析应用 135 4. 4. 1 文本分析 135 4. 4. 2 情感分析 137 4. 4. 3 推荐系统 138 4. 5 大数据分析常用工具 140 习题 142 第 5 章 大数据可视化 143 5. 1 大数据可视化技术概述 143 5. 1. 1 数据可视化简史 143 5. 1. 2 数据可视化的功能 144 5. 1. 3 大数据可视化简介 146 5. 2 大数据可视化技术基础 149 5. 2. 1 数据可视化流程 149 5. 2. 2 数据可视化编码 151 5. 2. 3 数据可视化设计 155 5. 3 大数据可视化应用 157 5. 3. 1 文本可视化 157 5. 3. 2 日志数据可视化 160 5. 3. 3 社交网络可视化 160 5. 3. 4 地理信息可视化 162 5. 3. 5 数据可视化交互 163 5. 4 大数据可视化软件和工具 165 5. 4. 1 大数据可视化软件分类 165 5. 4. 2 科学可视化软件和工具 165 5. 4. 3 信息可视化软件和工具 166 5. 4. 4 可视化分析软件和工具 167 5. 5 数据可视化示例 168 5. 5. 1 Excel 绘制柱形图 168 5. 5. 2 Echarts 绘制圆环图 169 5. 5. 3 Echarts 绘制矩形树图 171 5. 5. 4 Python 绘制雷达图 175 5. 5. 5 Python 绘制风杆 176 5. 5. 6 Python 使用散点图分析数据 179 习题 181 第 6 章 大数据应用 182 6. 1 互联网行业大数据 182 6. 1. 1 电商领域 182 6. 1. 2 内容服务领域 184 6. 2 政务大数据 187 6. 2. 1 政务大数据简介 188 6. 2. 2 政务服务热线大数据分析项目 188 6. 3 交通大数据 192 6. 3. 1 交通大数据简介 193 6. 3. 2 交通大数据智慧平台项目 194 6. 4 旅游大数据 199 习题 202 第 7 章 大数据安全与伦理 203 7. 1 大数据安全 203 7. 1. 1 大数据安全挑战 203 7. 1. 2 大数据安全问题及对策 207 7. 1. 3 大数据安全技术 210 7. 1. 4 隐私保护 211 7. 2 大数据伦理 214 7. 2. 1 伦理的定义 214 7. 2. 2 大数据伦理问题 215 7. 2. 3 农业大数据技术的伦理问题 217 7. 2. 4 大数据伦理治理路径 219 习题 222 参考文献 223
-
陶皖,安徽工程大学教授。
-
(1)本书是高等学校省级质量工程项目成果教材。 (2)本书从大数据概念及特点切入,紧紧围绕大数据应用的技术框架这一主线展开,详细论述了大数据采集与预处理、大数据存储与计算处理、大数据分析、大数据可视化、大数据应用、大数据安全与伦理等内容。
