计算机类教材 > 数据库技术与应用

Python数据分析

书号:9787113304270 套系名称:“十四五”高等学校新工科计算机类专业系列教材

作者:刘秋菊 王国政 黄继海 出版日期:2023-08-01

定价:69.80 页码 / 开本: /16

策划编辑:韩从付 责任编辑:陆慧萍 包宁

适用专业:计算机类 适用层次:高等教育

最新印刷时间:2023-08-01

资源下载
教学课件 教学素材
习题答案(暂无) 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  •  本书按照“‘十四五’高等学校新工科计算机类专业系列教材”总体编写规划的要求而编写,从Python数据分析的基础知识入手,系统地论述数据分析的流程和方法,结合大量的数据分析案例,内容循序渐进,通过完整的实例系统、全面地阐释了 Python 数据分析的相关知识。
           本书共 9 章,主要包括数据分析与 Python 基础、NumPy 数值计算、Pandas 统计分析、数据载入与预处理、数据分析可视化、数据分析方法、时间序列数据分析、文本数据分析、图像数据分析等内容,并且按照数据分析的流程对大量实例进行分析。
           本书适合作为高等院校智能科学与技术、数据科学与大数据、物联网工程、软件工程和计算机科学与技术等专业的教材,也可作为 Python 数据分析爱好者的参考书,还可作为各类人工智能技术培训用书。
    
    
    
    
  • 数据分析是当今社会中越来越重要的领域之一,而 Python 则成为数据分析领域中最受欢迎的编程语言之一。Python 语言的简单易学和强大功能,使其成为数据科学家和数据分析师的首选工具。
    
    本书是“‘十四五’高等学校新工科计算机类专业系列教材”之一,适合作为高等学校本科生、研究生数据分析等课程的教材,旨在为读者提供 Python 数据分析的基础知识和技能,使读者能够在实际应用中轻松地使用 Python 进行数据分析和数据科学工作,不仅适应新工科背景下教学模式改革的需要,也满足了产业发展对跨学科、高层次、创新型人才培养的需求。本书共分 9 章。第 1 章数据分析与 Python 基础,包括语言基础、控制结构、函数和模块,为后续章节的学习提供了必要的基础。第 2 章 NumPy 数值计算,包括数组的创建、索引和切片、数组的数学运算和数组的广播等,帮助读者更好地理解和处理数值数据。第 3 章和第 4 章论述 Pandas 统计分析和数据载入与预处理,包括数据结构、数据的合并和分组、缺失数据的处理等,让读者能够更好地了解和处理数据。第 5 章数据分析可视化,包括 Matplotlib、Seaborn 和 Pyecharts 的使用,帮助读者更好地展示和理解数据。第 6 章数据分析方法,包括聚类、分类和回归等方法,让读者能够更好地分析数据。第 7 章时间序列数据分析,包括时间序列数据的处理和分析,帮助读者更好地分析时间序列数据。第 8 章文本数据分析,帮助读者初步掌握自然语言处理。第 9 章图像数据分析,引领读者更加深入地理解图像数据处理的本质。书中所有代码全部在 Anaconda 3 提供的 Jupyter Notebook 环境下运行通过,并提供所有程序源代码及相关文档。
    
    本书知识点设置系统性强,按照数据分析的流程,对大量的实例进行分析,帮助读者更好地理解相关的概念和技术;通过讲解数据分析实际应用中的经典技术及其基本思想与方法,培养学生分析问题和初步应用能力;精选贴近实际应用的案例,每章都设置了案例分析与实训,以便于巩固知识点,培养学生的自主学习能力和创新能力。总体来说,本书以学生发展为中心,立足教学适用性,注重教材实践性,并提供大量的视频及代码资源等,为跨学科、复合型人才的培养提供了广泛的支持和指导。
    
    本书由一线教学经验丰富的高校教师共同编写,由刘秋菊、王国政、黄继海任主编,王仲英、于江德、郑富娥、刘为超任副主编,王喜凤、王鸿飞参与编写。全书由刘秋菊统稿。
    
    本书编写得到了中国铁道出版社有限公司各位编辑的大力支持和帮助,提出了诸多建议,在此致以诚挚的谢意。
    
    限于编者的水平,加之技术的不断发展更新,书中难免存在不足之处,敬请同行、读者提出宝贵意见并批评指正。
    
     编者
    
                                                                                                                     2023 年 3 月
    
    
    
  • 第一部分Python 数据分析基础
    第 1 章数据分析与 Python 基础 .2
    1.1 数据分析基础 2
    1.1.1 什么是数据分析 .2
    1.1.2 数据分析流程 .5
    1.1.3 数据分析的发展 .6
    1.2 常用 Python 数据分析环境搭建 .6
    1.2.1 在 Windows 下安装 Anaconda .6
    1.2.2 Jupyter Notebook 的安装与启动 12
    1.2.3 Jupyter Notebook 的基本使用 12
    1.3 Python 编程基础 14
    1.3.1 数据类型及其转换 .14
    1.3.2 函数 .21
    1.4 案例分析与实训 22
    1.4.1 Python 做数学问题 .22
    1.4.2 Python 做文字处理 .24
    1.4.3 Python 做逻辑流程控制 .25
    1.4.4 Python 做基本数据统计 .26
    习题 .28
    
    第 2 章NumPy 数值计算 31
    
    2.1 NumPy 多维数组 .31
    2.1.1 NumPy 数组创建 32
    2.1.2 Numpy 数组对象属性和数据转换 .34
    2.1.3 生成随机数 .36
    2.2 数组的索引和切片 37
    2.2.1 一维数组的索引和切片 .37
    2.2.2 多维数组的索引和切片 .38
    2.2.3 花式索引 .40
    2.3 数组的重构 41
    2.3.1 数组的变形 .41
    2.3.2 数组的拼接 .44
    2.3.3 数组的分裂 .46
    2.4 数组的运算 46
    2.4.1 数组和标量间的运算 .46
    2.4.2 通用函数 .47
    2.4.3 条件逻辑运算 .49
    2.4.4 广播机制 .50
    2.4.5 数组的比较和布尔数组 .52
    2.5 数组读 / 写 .54
    2.5.1 读 / 写二进制文件 54
    2.5.2 读 / 写文本文件 55
    2.5.3 读 / 写 CSV 文件 55
    2.6 NumPy 中的数据统计与分析 .56
    2.6.1 排序 .56
    2.6.2 重复数据与去重 .57
    2.6.3 常用统计函数 .58
    2.7 案例分析与实训 .59
    习题 .63
    
    第 3 章Pandas 统计分析 .65
    
    3.1 Pandas 中的数据结构 .65
    3.1.1 Series 65
    3.1.2 DataFrame .69
    3.1.3 索引对象 .73
    3.2 Pandas 索引操作 .74
    3.2.1 重建索引 .74
    3.2.2 更换索引 .76
    3.3 DataFrame 数据的查询与编辑 .76
    3.3.1 DataFrame 数据的查询 .76
    3.3.2 DataFrame 数据的编辑 .79
    3.4 Pandas 数据运算 .81
    3.4.1 算术运算 .81
    3.4.2 函数应用和映射 .82
    3.4.3 排序 .83
    3.4.4 汇总与统计 .85
    3.5 层次化索引 .87
    3.5.1 基本创建 .87
    3.5.2 重排分级排序 .88
    3.5.3 根据级别汇总统计 .89
    3.5.4 DataFrame 数据列的使用 .90
    3.6 数据分组与聚合 91
    3.6.1 数据分组 .91
    3.6.2 数据聚合 .96
    3.6.3 分组运算 .97
    3.7 数据透视表 98
    3.7.1 透视表 .98
    3.7.2 交叉表 .99
    3.8 案例分析与实训.100
    习题 .105
    
    第二部分数据分析流程及相关技术
    
    第 4 章数据载入与预处理.110
    4.1 数据载入 110
    4.1.1 文本类文件 .110
    4.1.2 Excel 文件 .112
    4.1.3 网络数据获取 .113
    4.2 数据合并与重塑.120
    4.2.1 merge 数据合并.120
    4.2.2 concat 数据连接 .123
    4.2.3 combine_first 合并数据.125
    4.2.4 数据重塑 .125
    4.3 数据清洗.131
    4.3.1 空值与缺失值的处理 .131
    4.3.2 检测与处理重复值 .135
    4.3.3 检测与处理异常值 .137
    4.3.4 更改数据类型 .138
    4.4 数据标准化 140
    4.4.1 离差标准化数据 .140
    4.4.2 标准差标准化数据 .141
    4.4.3 小数定标标准化 .142
    4.5 数据转换 142
    4.5.1 类别型数据的哑变量处理 .143
    4.5.2 连续型变量的离散化 .143
    4.6 特征工程与特征降维 145
    4.6.1 特征工程 .145
    4.6.2 特征降维 .145
    4.7 案例分析与实训 150
    习题 .156
    
    第 5 章数据分析可视化 159
    
    5.1 Matplotlib 可视化基础 159
    5.1.1 Matplotlib 三层次接口 .160
    5.1.2 创建画布与子图 .160
    5.1.3 添加画布内容 .163
    5.1.4 绘图的保存与显示 .165
    5.1.5 设置 Pyplot 的动态 rc 参数 165
    5.2 常见图表类型 172
    5.2.1 折线图 .172
    5.2.2 条形图 .173
    5.2.3 直方图 .173
    5.2.4 散点图 .174
    5.2.5 箱线图 .175
    5.2.6 饼图 .176
    5.2.7 概率图 .177
    5.3 Seaborn 可视化 177
    5.3.1 关系类图的绘制 .178
    5.3.2 分布图的绘制 .179
    5.3.3 分类图的绘制 .184
    5.3.4 回归图的绘制 .186
    5.3.5 热力图的绘制 .188
    5.4 Pyecharts 可视化 189
    5.4.1 基本配置 .189
    5.4.2 常见图表绘制 .189
    5.5 案例分析与实训 194
    习题 .205
    
    第 6 章数据分析方法 .206
    
    6.1 描述性统计分析 207
    6.1.1 集中趋势分析 .207
    6.1.2 离散程度分析 .208
    6.1.3 数据分布形态 .211
    6.2 回归分析法 212
    6.2.1 线性回归 .212
    6.2.2 多项式回归 .216
    6.3 分类分析法 219
    6.3.1 K 近邻算法 .219
    6.3.2 逻辑回归 .224
    6.3.3 决策树与随机森林 .228
    6.3.4 朴素贝叶斯分类 .234
    6.4 聚类分析法 237
    6.4.1 K 均值聚类算法 .239
    6.4.2 DBSCAN 聚类 244
    6.5 人工神经网络与深度学习 248
    6.5.1 人工神经网络 .248
    6.5.2 深度学习 .250
    6.6 案例分析与实训 253
    习题 .259
    
    第 7 章时间序列数据分析 260
    
    7.1 时间对象——Timestamp 261
    7.1.1 创建时间戳 .261
    7.1.2 最大时间 / 最小时间 262
    7.1.3 常用属性 .262
    7.2 时期对象——Period 263
    7.2.1 创建 Period 对象 .263
    7.2.2 Period 对象的属性 264
    7.2.3 Period 对象的方法 264
    7.3 时间间隔对象——Timedelta 266
    7.3.1 创建 Timedelta 对象 .266
    7.3.2 Timedelta 的属性操作 267
    7.3.3 Timedelta 的基本方法 267
    7.3.4 时间间隔的基本运算 .268
    7.4 时间索引 269
    7.4.1 时间序列 .269
    7.4.2 有规律的时间序列 .270
    7.5 重采样及频率转换 271
    7.5.1 重采样方法 .272
    7.5.2 降采样 .273
    7.5.3 升采样 .273
    7.6 时序模型——ARIMA .274
    7.7 案例分析与实训——股票价格预测分析 .275
    习题 .282
    
    第 8 章文本数据分析 .283
    
    8.1 文本数据分析概述 283
    8.1.1 文本处理工具——NLTK 与Jieba .283
    8.1.2 文本预处理的流程 .284
    8.2 使用 Jieba 处理文本 285
    8.2.1 Jieba 的安装 285
    8.2.2 Jieba 的应用 286
    8.3 使用 NLTK 处理文本 290
    8.3.1 NLTK 的安装 290
    8.3.2 NLTK 的应用 291
    8.4 文本相似度 294
    8.4.1 相似度分析 .294
    8.4.2 基于 NLTK 的文本相似度分析 295
    8.4.3 基于 Gensim 的文本相似度分析 .296
    8.5 文本情感分析 299
    8.5.1 文本情感分析概述 .299
    8.5.2 基于朴素贝叶斯的分析 .300
    8.5.3 基于情感词典的分析 .301
    8.6 文本分类 302
    8.7 案例分析与实训——新闻栏目分类 .304
    习题 .312
    
    第 9 章图像数据分析 .314
    
    9.1 图像的本质 315
    9.1.1 图像常用库和工具 .315
    9.1.2 图像的基本分类 .316
    9.1.3 图像载入与显示 .320
    9.2 常见图像处理方法 323
    9.2.1 直方图均衡 .323
    9.2.2 图像空间滤波处理 .328
    9.2.3 仿射变换 .331
    9.3 案例分析与实训 334
    习题 .338
    参考文献
    
    
  • 刘秋菊,女,硕士,郑州工程技术学院信息工程学院教授,中国计算机学会会员,郑州市教育局学术技术带头人,研究方向为智能控制、智能信息处理。发表论文40余篇;主编/副主编省级以上规划教材5部;主持参与省科技厅、市科技局项目5项;荣获市科技进步奖二等奖、河南省高等教育教学成果一等奖、二等奖等科研奖励5项;主持省级教学质量工程项目3项,主持省级精品资源共享课程1门。
    
    王国政,男,硕士,郑州工程技术学院信息工程学院讲师,研究方向为数字图像处理;主授课程包括数字图像处理、模式识别、计算机视觉、边缘智能等。荣获郑州市教育局优秀教师称号。
    
    黄继海,男,硕士,郑州工程技术学院信息工程学院教授、系主任,河南省教育厅学术技术带头人。研究方向为智能计算;主授课程包括C语言程序设计、Linux操作系统、Python数据分析等。
    
    
  • 本书适合作为高等院校智能科学与技术、数据科学与大数据、物联网工程、软件工程和计算机科学与技术等专业的教材,也可作为 Python 数据分析爱好者的参考书,还可作为各类人工智能技术培训用书。