计算机类专业教育 > 数据结构与算法类

数据挖掘及其应用

书号:9787113256500 套系名称:无

作者:李燕 出版日期:2019-04-01

定价:35.00 页码 / 开本:192 /16

策划编辑:潘晨曦 孙晨光 责任编辑:秦绪好 包宁

适用专业:无 适用层次:高等院校

最新印刷时间:

资源下载
教学课件(暂无) 教学素材(暂无)
习题答案(暂无) 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  •         随着互联网、云计算和人工智能等高科技信息技术的飞速发展,人类已迈入大数据时代,但很多时候我们会感到被数据淹没,却缺乏知识的困境,并没有“得数据者得天下”的能力,我们迫切需要从海量数据中,找到值得参考的样型或规则,转换成有价值的信息或知识,创造更多新价值,因此,数据挖掘成了我们提取数据信息的必要窗口。

            本书共8章,主要介绍了数据挖掘的理论方法与实践应用,内容涵盖了关联规则挖掘、决策树分析、聚类分析、支持向量机、KNN算法、贝叶斯分类算法以及随机森林分类算法等内容。
  • 第1章  数据挖掘概述 1
    1.1  数据挖掘技术的产生与发展 1
    1.1.1  数据挖掘技术的商业需求分析 1
    1.1.2  数据挖掘产生的技术背景分析 2
    1.2  数据挖掘的定义 3
    1.2.1  技术上的定义及含义 4
    1.2.2  商业角度的定义 4
    1.2.3  数据挖掘研究的理论基础 5
    1.3  数据挖掘的特点 6
    1.4  数据挖掘的主要任务 7
    1.5  数据挖掘的一般过程 7
    第2章  关联规则挖掘 9
    2.1  基本概念 9
    2.2  关联规则挖掘算法——Apriori算法原理 11
    2.2.1  Apriori算法原理解析 11
    2.2.2  Apriori算法应用举例 11
    2.3  Apriori算法的特点及应用 13
    2.3.1  Apriori算法的特点 13
    2.3.2  Apriori算法的应用 14
    2.4  Apriori算法源代码 15
    2.5  Apriori算法在Web日志挖掘中的应用研究 21
    2.5.1  Web日志挖掘的预处理 21
    2.5.2  关联规则Apriori算法的应用 26
    2.5.3  Apriori算法的改进 28
    2.5.4  挖掘模型查看的实现 30
    2.5.5  挖掘模型分析与评价模块的实现 32
    第3章  决策树分析 33
    3.1  决策树算法简介 33
    3.2  决策树算法的基本概念 34
    3.3  决策树算法研究现状 35
    3.4  决策树算法简介 36
    3.4.1  CLS算法 36
    3.4.2  ID3算法 37
    3.4.3  C4.5算法 40
    3.5  决策树算法比较分析 41
    3.6  建立用户流失的决策树模型 42
    3.6.1  案例背景 42
    3.6.2  样本数据的清洗与转换 42
    3.6.3  样本数据的特征选择 43
    3.6.4  实施聚类分析 43
    3.6.5  用户流失预警决策树的构建 45
    3.6.6  决策树算法的实施 46
    3.6.7  模型的评估与调整优化 48
    3.7  C4.5源程序 49
    第4章  聚类分析 58
    4.1  聚类分析简介 58
    4.1.1  聚类分析的阶段 58
    4.1.2  相似度衡量 59
    4.1.3  聚类分析方法 61
    4.2  聚类分析中的数据类型 63
    4.2.1  数据的表示 63
    4.2.2  数据的类型 63
    4.3  层次聚类方法概述 65
    4.3.1  两种基本的层次聚类方法 65
    4.3.2  基于距离度量的方法 67
    4.3.3  层次聚类方法存在的不足 67
    4.4  划分聚类分析法 68
    4.4.1  k均值聚类算法 68
    4.4.2  k中心点 72
    4.5  k均值聚类算法源程序 73
    4.6  k-中心点算法源代码 79
    4.7  聚类分析的应用 86
    4.7.1  案例背景 86
    4.7.2  成熟草莓图像分割算法 86
    第5章  支持向量机 90
    5.1  支持向量机原理 90
    5.2  支持向量机的特点 94
    5.3  支持向量机的应用研究现状 95
    5.4  支持向量机的应用 97
    5.4.1  案例背景 97
    5.4.2  目标特征模型 98
    5.4.3  学习训练 99
    5.4.4  目标检测框的确定 100
    5.4.5  数据库和评估参数 100
    第6章  KNN算法 101
    6.1  KNN算法简介 101
    6.1.1  算法引入 101
    6.1.2  算法指导思想 102
    6.1.3  算法计算步骤 102
    6.1.4  相似性度量 102
    6.1.5  类别的判定 103
    6.1.6  优缺点 103
    6.1.7  常见问题 103
    6.2  算法流程 104
    6.3  KNN算法的Java实现代码 105
    6.4  算法改进 107
    6.5  类相关度差异优化距离的KNN改进算法 108
    6.5.1  特征参数类相关度差异优化距离机制 109
    6.5.2  特征参数类相关度优化距离的k最近邻改进算法 109
    6.6  基于聚类的KNN算法改进 110
    6.6.1  对训练集进行聚类 110
    6.6.2  用KNN算法分类 111
    6.7  KNN算法分类多标签数据 111
    6.7.1  最近邻选择的相似度的求解步骤 112
    6.7.2  最近邻选择的相似度的定义 112
    6.7.3  算法的时间复杂度分析 112
    6.8  KNN算法的应用 113
    6.9  用KNN算法处理文本分类问题 113
    6.9.1  文本分类介绍 113
    6.9.2  文本分类过程 114
    6.9.3  用KNN算法实现文本分类 114
    第7章  贝叶斯分类算法 116
    7.1  概述 116
    7.2  概率论基础 116
    7.2.1  条件概率和乘法定理 116
    7.2.2  贝叶斯定理 117
    7.2.3  极大后验假设与极大似然假设 117
    7.2.4  事件的独立性 118
    7.3  贝叶斯分类模型 118
    7.3.1  朴素贝叶斯分类模型 119
    7.3.2  贝叶斯网络分类模型 120
    7.3.3  半朴素贝叶斯分类模型 121
    7.4  贝叶斯算法在处理垃圾邮件中的应用 121
    7.4.1  案例背景 121
    7.4.2  垃圾邮件的定义及其危害 122
    7.4.3  垃圾邮件分类向量与特征向量 124
    7.4.4  分类方法介绍 129
    7.4.5  基于垃圾邮件特征向量判断垃圾邮件的算法设计 129
    7.4.6  基于标准邮件集的垃圾邮件分类向量 129
    7.4.7  基于贝叶斯原理的过滤系统的实现 133
    7.4.8  算法的实现 134
    7.4.9  实验结果及评价指标 136
    7.4.10  阈值的确定及对过滤精度的影响 137
    7.4.11  实验数据 137
    第8章  随机森林分类算法 140
    8.1  随机森林算法简介 140
    8.1.1  Boosting和Bagging 141
    8.1.2  Bagging与随机森林 141
    8.2  随机森林的构建 142
    8.2.1  为每棵决策树抽样产生训练集 143
    8.2.2  构建每棵决策树 145
    8.2.3  森林的形成及算法的执行 146
    8.3  用代码实现随机森林 146
    8.4  随机森林的随机性分析 148
    8.4.1  训练集的随机选取 149
    8.4.2  随机特征变量的随机性 149
    8.4.3  随机森林的随机性在实证分析中的表现及解决办法 149
    8.5  随机森林的性能指标 150
    8.5.1  分类效果系列指标 150
    8.5.2  泛化误差与OOB估计 151
    8.5.3  随机森林算法运行效率指标 152
    8.6  随机森林算法存在的问题 154
    8.6.1  不能很好地处理非平衡数据 154
    8.6.2  对连续性变量的处理还需要进行离散化 154
    8.6.3  随机森林算法的分类精度还需要进一步提升 155
    8.7  随机森林处理非平衡数据集的优化研究 156
    8.7.1  非平衡数据集分类困难的原因分析 156
    8.7.2  非平衡数据集分类问题的解决办法 158
    8.8  随机森林算法的应用 160
    8.9  随机森林算法源程序 161

  •         总结介绍了数据挖掘常用算法