计算机类专业教育 > 人工智能类
机器学习技术与应用
书号:9787113301507 套系名称:“十四五”高等职业教育新形态一体化教材
作者:杜辉 葛鹏 赵瑞丰 出版日期:2023-12-01
定价:46.00 页码 / 开本: /16
策划编辑:徐海英 责任编辑:王春霞 包宁
适用专业:计算机类 适用层次:高职教育
最新印刷时间:2023-12-01
资源下载
教学课件
教学素材
习题答案(暂无)
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
本书为“十四五”高等职业教育新形态一体化教材之一,通过贴近生活的“挑橘子”一例引出机器学习的概念,并展开介绍了机器学习的完整流程、算法分类以及常用工具等。 本书以项目—任务的组织方式,以通俗的情境作为项目导入,制定明确的项目目标,以算法的基本原理为知识导入,然后开始项目实施环节,以多个实训任务分别练习算法在解决回归、分类或聚类问题时的一般流程,最后以习题的形式巩固所学知识和技能。 本书的实训项目主要包含机器学习中基础的算法应用,即线性回归算法、k-近邻算法、逻辑回归算法、决策树算法、聚类算法、朴素贝叶斯算法。 通读本书,你会了解机器学习解决的是什么问题,目前它应用在我们生活中的哪些场景;跟着本书动手实践,你会清楚数据怎么来、怎么加工,以及模型是什么,怎么训练与调用;另外,面对一个实际问题,你能够有依据地选择合适的算法。 本书适合作为高等职业院校人工智能技术应用专业的教材,也适用于有编程基础的学生以及对机器学习感兴趣且亟需入门的社会工作者。
机器学习领域的著名学者汤姆·米切尔(Tom Mitchell)将机器学习定义为:对于计算机 程序有经验 E、学习任务 T 和性能度量 P,如果计算机程序针对任务 T 的性能 P 随着经验 E 不 断增长,就称这个计算机程序从经验 E 学习。 这一概念对于大多数人而言确实过于抽象简洁。 如果其定义为“用计算机通过算法来学习数据中包含的内在规律和信息,从而获得新的经验和 知识,以提高计算机的智能性,使计算机面对问题时能够做出与人类相似的决策”,则更加符合 大家对机器学习的认知。 近年来,随着机器学习向各行各业的渗透,机器学习算法在普罗大众中也得到了一定的认 可。 从事相关领域工作的人员提到机器学习,想必都会了解甚至十分熟悉监督学习、无监督学 习和强化学习这三个分类,对于朴素贝叶斯算法、k-均值算法、回归算法都耳熟能详。 然而如 何利用机器学习解决自身领域的问题却又有些不知如何下手。 面对如依据天气、时间等因素推 荐一种合适的通勤工具,或者预测自身体重的变化,抑或分析员工离职情况这类数据结构相对 简单、数据来源相对单一的问题时,很多人很难将机器学习的理论和技术应用其中,更不要提 构建符合行业要求的机器学习算法。 当想进一步深入了解时,发现需要面对“汗牛充栋”的理论、公式和编程技术,令人望而 却步。 如果你也面临类似的问题,那么本书适合你;本书也适合机器学习零基础的读者学习。 本书编者在机器学习高等教育领域辛勤耕耘十余年,此次将自身丰富的教学经验以及较深 厚的理论知识进行融合,并配以生动且贴近生活的应用实例,将机器学习算法的知识体系、应 用场景、实施方式与步骤进行了细致的说明。 本书的绪论向读者介绍了机器学习的概念、机器学习的应用与分类等基础知识,同时对本 书代码实现的核心开源库 sklearn 进行了说明。 此后各项目分别对应了线性回归算法、k-近邻 算法、逻辑回归算法、决策树、聚类算法以及朴素贝叶斯算法,在每种算法介绍前通过知识导 入,对背景知识、学习前需要掌握的技术能力进行详细说明,以方便读者学习;在正文中通过 生动形象的实例深入浅出地讲解不同项目的目标、主要知识点以及编程实现步骤;最后通过习 题的形式巩固本项目学习成果。 本书注意贯彻落实立德树人根本任务,坚定文化自信,践行二十大报告精神,充分体现党 的二十大报告提出的“实施科教兴国战略,强化现代人才建设支撑”的精神,落实“加强教材 建设和管理”新要求。 本书由杜辉、葛鹏、赵瑞丰任主编,王亚楠、王磊、刘明浩任副主编,丁雷、金光浩、汪胜平 参与编写。 在此,感谢所有在本书的内容制作、代码验证及编排校对工作中付出辛苦劳动和支 持的同志。 本书配套的相关资源可通过“派 Lab”人工智能教学实训平台(平台网址:lab. 314ai.com)查看和动手实践,还可与本书编者联系(E-mail:1318475816@ qq.com)。 机器学习技术是一门前景广阔的新兴技术,本书力图从实用性角度为高职同学打开一条通 往未来世界的通道。 由于编者水平有限,书中难免有不足之处,欢迎广大读者予以指正。 编 者 2023 年 6 月
绪论 机器学习概要 …………………………………………………………………………… 1 0. 1 引例———从挑橘子说起………………………………………………………………… 1 0. 2 机器学习应用 …………………………………………………………………………… 2 0. 3 机器学习与人工智能的关系 ………………………………………………………… 4 0. 4 机器学习算法的分类…………………………………………………………………… 4 0. 5 sklearn 库 ……………………………………………………………………………… 5 0. 6 数据集 …………………………………………………………………………………… 6 0. 6. 1 数据集划分………………………………………………………………………… 7 0. 6. 2 开源数据集………………………………………………………………………… 8 0. 6. 3 sklearn 库中数据划分方法 ……………………………………………………… 8 0. 7 总结 …………………………………………………………………………………… 11 项目 1 运用线性回归算法实现趋势预测 ……………………………………………… 12 1. 1 项目导入 ……………………………………………………………………………… 12 1. 2 项目目标 ……………………………………………………………………………… 12 1. 3 知识导入 ……………………………………………………………………………… 13 1. 3. 1 线性回归概念 …………………………………………………………………… 13 1. 3. 2 线性回归模型 …………………………………………………………………… 14 1. 3. 3 求解线性回归 …………………………………………………………………… 15 1. 3. 4 过拟合与欠拟合 ………………………………………………………………… 17 1. 4 项目实施 ……………………………………………………………………………… 19 任务 1-1 动手训练线性回归模型 ……………………………………………………… 19 任务 1-2 线性回归预测鲍鱼年龄 ……………………………………………………… 23 任务 1-3 线性回归预测牛肉价格 ……………………………………………………… 28 任务 1-4 线性回归预测收益 …………………………………………………………… 30 任务 1-5 线性回归预测乐高价格 ……………………………………………………… 35 项目 2 运用 k-近邻算法实现分类预测 ………………………………………………… 42 2. 1 项目导入 ……………………………………………………………………………… 42 2. 2 项目目标 ……………………………………………………………………………… 42 2. 3 知识导入 ……………………………………………………………………………… 42 2. 3. 1 k-近邻概念 ……………………………………………………………………… 42 2. 3. 2 k-近邻分类算法 ………………………………………………………………… 43 2. 3. 3 交叉验证 ………………………………………………………………………… 45 2. 3. 4 k-近邻回归 ……………………………………………………………………… 45 2. 4 项目实施 ……………………………………………………………………………… 46 任务 2-1 k-近邻识别数字验证码 ……………………………………………………… 46 任务 2-2 k-近邻算法预测出行方式 …………………………………………………… 49 任务 2-3 k-近邻预测草莓甜不甜 ……………………………………………………… 56 任务 2-4 k-近邻测你有多重 …………………………………………………………… 60 项目 3 运用逻辑回归算法实现概率预测 ……………………………………………… 65 3. 1 项目导入 ……………………………………………………………………………… 65 3. 2 项目目标 ……………………………………………………………………………… 65 3. 3 知识导入 ……………………………………………………………………………… 65 3. 3. 1 逻辑回归概念 …………………………………………………………………… 65 3. 3. 2 二分类问题 ……………………………………………………………………… 66 3. 3. 3 求解逻辑回归 …………………………………………………………………… 67 3. 3. 4 分类损失 ………………………………………………………………………… 68 3. 4 项目实施 ……………………………………………………………………………… 70 任务 3-1 逻辑回归针对智能家居的数据预测 ………………………………………… 70 任务 3-2 逻辑回归预测升学概率 ……………………………………………………… 76 任务 3-3 逻辑回归预测红酒质量 ……………………………………………………… 83 任务 3-4 随机梯度下降 ………………………………………………………………… 89 任务 3-5 逻辑回归预测用户是否按期还款 …………………………………………… 96 项目 4 运用决策树算法进行决策分析 ………………………………………………… 102 4. 1 项目导入 ……………………………………………………………………………… 102 4. 2 项目目标 ……………………………………………………………………………… 102 4. 3 知识导入 ……………………………………………………………………………… 103 4. 3. 1 决策树概念……………………………………………………………………… 103 4. 3. 2 相关重要概念…………………………………………………………………… 103 4. 3. 3 决策树算法……………………………………………………………………… 105 4. 3. 4 决策树剪枝……………………………………………………………………… 106 4. 4 项目实施 ……………………………………………………………………………… 107 任务 4-1 决策树预测隐形眼镜类型 ………………………………………………… 107 任务 4-2 决策树分析员工离职情况 ………………………………………………… 111 任务 4-3 决策树带你做导购 ………………………………………………………… 117 任务 4-4 决策树预测泰坦尼克号生还概率 ………………………………………… 122 任务 4-5 决策树与随机森林效果对比 ……………………………………………… 127 项目 5 运用聚类算法进行聚类分析 …………………………………………………… 137 5. 1 项目导入 ……………………………………………………………………………… 137 5. 2 项目目标 ……………………………………………………………………………… 137 5. 3 知识导入 ……………………………………………………………………………… 137 5. 3. 1 聚类概念………………………………………………………………………… 137 5. 3. 2 聚类相关应用…………………………………………………………………… 138 5. 3. 3 k-means 聚类 …………………………………………………………………… 138 5. 3. 4 DBSCAN 算法 …………………………………………………………………… 140 5. 4 项目实施 ……………………………………………………………………………… 142 任务 5-1 小样本实现 k-means 聚类 …………………………………………………… 142 任务 5-2 通过 k-means 聚类实现分类 ………………………………………………… 148 任务 5-3 二分 k-means 应用 …………………………………………………………… 153 任务 5-4 对三星手机数据降维并聚类 ……………………………………………… 162 任务 5-5 实例对比 k-means 和 DBSCAN ……………………………………………… 170 项目 6 运用朴素贝叶斯算法实现文本分类 ………………………………………… 175 6. 1 项目导入 ……………………………………………………………………………… 175 6. 2 项目目标 ……………………………………………………………………………… 175 6. 3 知识导入 ……………………………………………………………………………… 175 6. 3. 1 贝叶斯公式……………………………………………………………………… 175 6. 3. 2 朴素贝叶斯……………………………………………………………………… 176 6. 3. 3 朴素贝叶斯应用场景…………………………………………………………… 177 6. 4 项目实施 ……………………………………………………………………………… 177 任务 6-1 云盘图片自动分类 ………………………………………………………… 177 任务 6-2 豆瓣影评情感分类 ………………………………………………………… 184 任务 6-3 新闻分类 …………………………………………………………………… 188 附录 A …………………………………………………………………………………………… 194 A. 1 特征工程……………………………………………………………………………… 194 A. 2 特征预处理…………………………………………………………………………… 195 A. 2. 1 无量纲化 ……………………………………………………………………… 196 A. 2. 2 特征离散化 …………………………………………………………………… 200 A. 2. 3 分类特征编码 ………………………………………………………………… 201 A. 3 特征选择……………………………………………………………………………… 202 A. 3. 1 过滤式选择(Relief) …………………………………………………………… 203 A. 3. 2 包裹式选择(Wrapper) ………………………………………………………… 205 A. 3. 3 嵌入式选择(Embedded) ……………………………………………………… 205 A. 4 特征降维……………………………………………………………………………… 207 A. 4. 1 PCA …………………………………………………………………………… 207 A. 4. 2 LDA …………………………………………………………………………… 211 参考文献…………………………………………………………………………………………… 214
杜辉,男,副教授、高级工程师,北京电子科技职业学院计算机技术系主任。获得北京市首席职业技能大赛指导教师,多次获得全国职业院校技能大赛优秀指导教师称号,多年来主讲计算机语言、数据结构、人工智能、移动应用开发方向课程获得同行和学生的好评。参加工作以来,一直从事教学一线工作,积极推进教学改革,作为专业带头人针对高职计算机类专业的课程教学内容,将“夯实基础、突出技能、鼓励创新”的培养思路贯穿于人才培养的全过程,创建了“基础、实践、创新螺旋递进”式教学体系,取得了显著成效,教改成果获得北京市教育教学成果二等奖。参与全国高等职业院校示范校重点专业建设、国家《移动应用开发专业教学资源库》等一批重点改革项目,承担《程序设计基础》课程的国家资源库建设工作。所带计算机技术系教学团队,先后在全国及北京职业院校技能大赛、软件设计竞赛、软件测试大赛、大数据技术竞赛、嵌入式设计竞赛等各种比赛获得一等奖20余项,学生获奖等级和数量在北京地区首屈一指。 葛鹏,随机数智能创始人、CEO,全国人工智能职业教育集团常务理事,机器学习专家。曾担任瑞亚集团副总经理,新大陆教育产品总监,具有多年职业教育领域从业经验,曾主持过多个电子信息技术类专业开发设计。2019年,在杭州创办派学院,致力于服务人工智能学习机构与学习者,为人工智能领域提供先进敏捷的学习平台。 赵瑞丰,硕士毕业于澳门科技大学,擅长的领域为计算机视觉方向。本科及研究生期间多次参与机器人、智能车等人工智能相关竞赛,担任过助教讲师并发表多篇CV方向EI和SCI论文。曾就职于中国科学院自动化研究所,担任研究员2年。目前担任随机数(浙江)智能科技有限公司教学总监,组织并规划数十场人工智能职业教育师资培训,并完成高质量人工智能技术授课。
本书适合作为高等职业院校人工智能技术应用专业的教材,也适用于有编程基础的学生以及对机器学习感兴趣且亟需入门的社会工作者。