高职教育 > 计算机类

数据科学通识导论

书号:9787113318543 套系名称:普通高等院校新工科数据科学与大数据专业系列教材

作者:臧劲松 刘丽霞 出版日期:2025-03-01

定价:48.00 页码 / 开本:无 /16

策划编辑:曹莉群 责任编辑:贾星 王占清

适用专业:计算机类 适用层次:高职教育

最新印刷时间:2025-03-01

资源下载
教学课件(暂无) 教学素材(暂无)
习题答案(暂无) 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  • 本书根据高等院校数据科学通识课程的教学需求编写,着重培养学生的数据意识、数据思维和数据能力,深入阐述了数据科学的核心理论与实践应用。全书共分9章,包括数据科学概论、Python与数据科学、数组的统计分析、数据清洗与统计、可视化数据挖掘、Web应用框架、文本数据处理、机器学习以及大数据技术。
    
    为确保读者能够轻松掌握数据分析技能,本书采用当前流行的Python语言,通过实际案例演示各个数据分析过程,力求内容深入浅出,既方便读者快速上手,还能帮助他们在实践中不断巩固和加深所学知识。
    
    本书适合作为高等院校理工科各专业平台课教材,也可作为各专业的数据科学通识课程教材,对于对数据科学有浓厚兴趣的读者,也是一本不可多得的参考书。
  • 党的二十大报告强调要加快建设数字中国,明确提出要促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数据科学在这一过程中扮演着关键角色,通过数据分析、机器学习等技术推动经济的数字化转型。
    随着信息技术的快速发展,特别是大数据时代的到来,社会对数据科学人才的需求急剧增长。教育部已将“大数据”确立为高等学校教学改革和教学建设的重点。数据科学,作为一门新兴的交叉学科,融合了计算机科学、统计学、数学等多个学科的知识,在有效处理和应用日益庞大的数据量方面具有举足轻重的地位。
    在此背景下,多所高校积极响应,陆续开设了数据科学相关专业和课程,以满足社会对数据科学人才的迫切需求。而《数据科学通识导论》的编写,正是为了给学生提供一个系统、全面的入门和导论性质的学习资源。本教材旨在帮助高校学生构建完整的知识体系,掌握数据科学的基本原理,学会初级的实践技能,并了解前沿的技术动态,从而为他们的未来发展奠定的基础。值得一提的是,本教材已获批成为上海理工大学一流本科教材建设项目,进一步体现了其在教学中的重要性和价值。
    本书内容主要包括以下几个方面:
    (1)数据科学概论:包括数据科学的定位、工具软件和数据处理流程。
    (2)Python与数据科学:包括Python的基础语法、内置数据类型和函数。
    (3)数据分析工具的应用:包括统计分析中数组对象的创建和函数应用、数据清洗与统计,可视化数据挖掘、Web应用框架和文本数据处理。
    (4)机器学习:包括scikit-learn库的基本使用、回归、分类、聚类和强化学习等模型。
    (5)大数据技术:包括大数据概述、Hadoop生态系统和Spark生态系统的介绍及应用。
    本书主要特色如下:
    (1)兼顾理论与实践:本书不仅论述数据科学的基本概念、原则和方法,还介绍了具体的平台和工具,以及数据科学的丰富案例和具体领域的实践。这种设计使得学习者不仅易于理解理论,还有助于将理论应用于实践。
    (2)案例式、形象化论述:为避免陷入数学公式的复杂推导过程,本书采用直观的案例、形象化的图形等手段,通过浅显易懂的语言,深入浅出地进行论述,使得内容不枯燥,以方便学习者迅速掌握概念和技术的要领。
    (3)实践与案例驱动:通过大量案例和项目,使学习者能够采用数据科学的方法解决实际问题,强调动手实践的重要性。
    本书由臧劲松、刘丽霞任主编,黄小瑜任副主编,黄义萍、黄春梅参与编写。各章编写分工如下:第1、3、6章由刘丽霞编写,第2章由黄义萍编写,第4、7章由黄小瑜编写,第5章由黄春梅编写,第8章由臧劲松和刘丽霞共同编写,第9章由
    臧劲松编写,臧劲松和刘丽霞负责本书的架构设计及统稿。
    由于时间仓促,加之学识所限,书中难免存在不妥和疏漏之处,恳请各位读者批评指正。
    
    
    编 者
    2024年10月
  • 第1章 数据科学概论 1
    1.1 数据科学的定位 2
    1.1.1 数据和大数据 2
    1.1.2 数据科学理论基础 5
    1.1.3 数据科学家 10
    1.2 工具软件 11
    1.2.1 常用Python软件简介 11
    1.2.2 Jupyter Notebook软件 14
    1.3 数据处理流程 17
    1.3.1 传统的数据处理流程 17
    1.3.2 数据科学的数据处理流程 19
    拓展与练习 21
    第2章 Python与数据科学 22
    2.1 Python基础语法 23
    2.1.1 标识符与变量 23
    2.1.2 运算符和表达式 25
    2.1.3 程序流程控制 29
    2.2 Python内置数据类型 32
    2.2.1 数值类型 32
    2.2.2 组合类型 33
    2.3 函数 37
    2.3.1 函数的定义与调用 37
    2.3.2 参数传递 38
    2.3.3 匿名函数 38
    2.4 模块 39
    2.4.1 模块的导入和使用 39
    2.4.2 常用内置模块 40
    2.5 综合案例 42
    拓展与练习 44
    第3章 数组的统计分析 45
    3.1 创建数组对象 46
    3.1.1 创建一维数组 46
    3.1.2 创建二维数组 54
    3.2 属性和切片 58
    3.2.1 常用属性 58
    3.2.2 切片 60
    3.3 常用函数 66
    3.3.1 数学函数 66
    3.3.2 统计函数 67
    3.4 综合案例 70
    拓展与练习 71
    第4章 数据清洗与统计 73
    4.1 数据采集 74
    4.1.1 数据来源概述 75
    4.1.2 简单爬虫示例 76
    4.2 Pandas数据结构 77
    4.2.1 Series对象 78
    4.2.2 DataFrame数据 81
    4.3 数据导入——基于Pandas库 88
    4.3.1 读写CSV文件和TXT文件 88
    4.3.2 读写Excel文件 90
    4.3.3 读写JSON文件 90
    4.4 数据的清洗与预处理 91
    4.4.1 缺失值处理 91
    4.4.2 异常值检测与处理 93
    4.4.3 检测与处理重复数据 94
    4.4.4 数据转换 95
    4.5 数据的规整化 96
    4.5.1 数据排序与索引 97
    4.5.2 数据合并与连接 98
    4.6 数据的统计分析 100
    4.6.1 通用函数与运算 100
    4.6.2 统计函数 103
    4.6.3 相关性分析 107
    4.7 综合案例 108
    拓展与练习 111
    第5章 可视化数据挖掘 113
    5.1 数据可视化基础 113
    5.1.1 Pandas数据可视化 114
    5.1.2 Matplotlib绘图基础 116
    5.2 绘制常用图形 119
    5.2.1 认识基本图表类型 119
    5.2.2 常用图形绘制 119
    5.3 动态交互式图表 130
    5.4 综合案例 138
    拓展与练习 140
    第6章 Web应用框架 141
    6.1 Python的Web开发 142
    6.1.1 Web开发原理 143
    6.1.2 框架和步骤 143
    6.2 Flask框架 145
    6.2.1 基础应用 145
    6.2.2 项目配置文件 147
    6.3 Django框架 149
    6.3.1 环境准备 151
    6.3.2 基础应用 151
    6.4 综合案例 153
    拓展与练习 156
    第7章 文本数据处理 157
    7.1 文本处理概述 158
    7.1.1 文本处理的常见任务 158
    7.1.2 文本处理的基本步骤 159
    7.2 中文文本处理 161
    7.2.1 中文分词 161
    7.2.2 中文分词库Jieba 161
    7.3 综合案例 163
    拓展与练习 167
    第8章 机器学习 168
    8.1 机器学习概述 169
    8.1.1 机器学习与人工智能 169
    8.1.2 机器学习的分类 170
    8.2 回归模型 172
    8.2.1 原理与实现 172
    8.2.2 应用案例 174
    8.3 分类模型 178
    8.3.1 原理与实现 179
    8.3.2 应用案例 181
    8.4 聚类分析 183
    8.4.1 原理与实现 183
    8.4.2 应用案例 185
    8.5 强化学习 186
    8.5.1 原理与实现 186
    8.5.2 应用案例 187
    拓展与练习 189
    第9章 大数据技术 190
    9.1 大数据技术概述 191
    9.1.1 大数据的概念 191
    9.1.2 大数据的相关技术 192
    9.1.3 大数据服务平台 193
    9.1.4 大数据的计算模式 194
    9.2 Hadoop及其生态系统 195
    9.2.1 Hadoop概述 195
    9.2.2 Hadoop的核心组件 196
    9.2.3 Hadoop生态系统 197
    9.3 Spark及其生态系统 198
    9.3.1 Spark概述 198
    9.3.2 Spark生态系统 199
    9.3.3 Spark的部署和应用 200
    9.3.4 综合案例 203
    拓展与练习 203
  • 臧劲松,副教授。上海理工大学教师,主要研究方向为计算机应用,主要讲授大学计算机基础、C语言程序设计、Python程序设计、程序设计及实践等课程,共发表学术论文 5 篇;出版教材 4 种。
    
    刘丽霞,上海理工大学讲师,主要教授大学本科程序设计及实践(C)、数据科学通识导论和Python程序设计等课程。参与多部教材的编写,有丰富的教材编写经验。2015年、2016年获得上海理工大学教学质量二等奖,2022年、2023年分别获得上海理工大学创新创业团队二等奖和一等奖,指导学生近50人参与上海市计算机应用能力大赛、中国计算机设计大赛和“蓝桥杯”全国软件大赛获得国家级和省赛奖项。
  • (1)兼顾理论与实践:本书不仅论述数据科学的基本概念、原则和方法,还介绍了具体的平台和工具,以及数据科学的丰富案例和具体领域的实践。这种设计使得学习者不仅易于理解理论,还有助于将理论应用于实践。
    (2)案例式、形象化论述:为避免陷入数学公式的复杂推导过程,本书采用直观的案例、形象化的图形等手段,通过浅显易懂的语言,深入浅出地进行论述,使得内容不枯燥,以方便学习者迅速掌握概念和技术的要领。
    (3)实践与案例驱动:通过大量案例和项目,使学习者能够采用数据科学的方法解决实际问题,强调动手实践的重要性。
    
    (4)配有微视频,扫描书中的二维码即可观看,方便读者自学。