教育资源数字化平台

高等教育 > 计算机类

人工智能交互技术及应用

书号：9787113319700 套系名称：普通高等教育“十四五”人工智能专业系列教材

作者：王菲菲刘伟出版日期：2025-08-01

定价：49.80 页码 / 开本：0 /16

策划编辑：刘丽丽责任编辑：刘丽丽

适用专业：计算机类适用层次：高等教育

最新印刷时间：2025-09-01

在线阅读

资源下载

教学课件教学素材
习题答案电子教案

内容简介前言目录作者介绍图书特色

       本书是普通高等教育“十四五”人工智能专业系列教材之一，结合科大讯飞公司的人工智能交互技术，讲解智能语音技术和计算机视觉技术的基本原理与应用方法，同时提供实验案例及代码示例。全书共8章，内容包括Python与Anaconda环境配置、语音特征分析技术、语音降噪算法、MFCC 特征提取技术、声纹识别技术、AIUI平台语音技术应用、计算机视觉技术与应用和人工智能交互系统设计案例。
       本书引入企业技术与真实案例，凸显应用性与前沿性。每章附视频讲解及代码资源，助力读者通过实践深化知识的理解与掌握。
       本书适合作为普通高等院校人工智能专业、数据科学与大数据等专业的教材，也可作为人工智能交互技术爱好者的参考书。

       在当今科技飞速发展的时代，人工智能技术已成为推动各行业变革的核心力量。智能语音技术和计算机视觉技术作为人工智能领域的两大重要分支，正深刻地改变着人们的生活和工作方式。随着5G技术的普及和物联网的发展，智能语音技术和计算机视觉技术将为社会创造巨大的价值。因此，“人工智能交互技术”课程的开设对于培养适应未来科技发展需求的专业人才具有重要意义。
       科大讯飞公司作为全球知名的智能语音和人工智能技术提供商，在人工智能交互领域拥有深厚的技术积累和丰富的行业经验，其技术广泛应用于智能教育、智能医疗等众多领域，成为行业的领军企业。本书依托科大讯飞公司的强大技术实力和产业资源，引入企业的前沿技术和真实项目，具有鲜明的产业特色和时代气息，是产教深度融合的成果。
       本书注重知识的系统性和逻辑性，同时结合实际应用需求，强调理论与实践的结合。本书内容围绕智能语音技术和计算机视觉技术的基本原理与应用方法展开，不仅详细讲解了相关技术的理论知识，让读者能够深入理解技术的本质，而且通过大量的实验案例和代码示例，帮助读者将理论知识应用到实际项目中，提高读者的实践能力。
       本书通过引入科大讯飞的人工智能交互技术和真实案例，使内容更加贴近实际应用，具有更强的应用性与前沿性。尤其在各章中，每个案例都配有相应的讲解视频和代码示例，让读者在学习过程中能够及时进行实践，加深对知识的理解和掌握。
       本书共分为8章，内容涵盖了智能语音技术和计算机视觉技术两个方面。第1章详细介绍了Python与Anaconda的环境配置，为后续的学习打下基础。第2章聚焦语音特征分析技术，介绍了语音特征分析的基本方法和常用算法，并通过具体案例展示了其应用过程。第3章介绍了常见的语音降噪算法，并通过案例演示了如何使用这些算法对语音信号进行降噪处理。第4章详细讲解了MFCC特征提取的原理和方法，并通过案例展示了其在语音识别中的应用。第5章探讨了声纹识别的基本原理和算法，并通过案例分析了其在实际应用中的效果。第6章介绍了科大讯飞的开放平台AIUI，并详细讲解了使用AIUI平台进行语音识别和语音合成的实际应用过程。第7章介绍了计算机视觉的基本概念、常用算法和应用场景。第8章引入了人工智能交互系统企业真实案例，从系统构成、模块与流程、基于组件封装的程序构架设计，到系统运行与性能测试、系统可持续性维护，进行了系统化的介绍。读者通过案例实验将前述知识进行整合，可提高综合应用能力。
       本书作为课程教材，知识讲解（即课堂学时）建议21学时，案例讲解（即实验学时）建议27学时。各章主要内容和学时分配建议见下表，教师可根据实际情况进行调整。
章序    章名                                 课堂学时    实验学时
第1章 Python与Anaconda环境配置       1           1
第2章 语音特征分析技术                    2           2
第3章 语音降噪算法                          2           2
第4章 MFCC特征提取技术                  4           4
第5章 声纹识别技术                         4           4
第6章 AIUI平台语音技术应用            2            4
第7章 计算机视觉技术与应用            4            4
第8章 人工智能交互系统设计案例      2             6
       本书由高校一线教师和科大讯飞企业讲师共同编写，王菲菲和刘伟任主编，梁燕、王智岩、王迎祥、王荣丽、高龙、刘杨任副主编。具体编写分工如下：第1章和第2章由梁燕、王菲菲编写；第3章由高龙编写；第4章和第5章由王智岩、刘伟编写；第6章由王荣丽编写；第7章由刘杨编写；第8章由王迎祥编写。
      为便于教与学，本书配有课程教学大纲、教学周历、考核方案、教案、案例讲解视频等资源。读者可从中国铁道出版社教育资源数字化平台（https://www.tdpress.com/51eds）下载相关资源，也可扫描书中二维码观看教学视频。各章后习题以二维码形式呈现，读者可使用微信扫描直接答题并获取答案。
       本书在编写过程中，得到科大讯飞股份有限公司和中国铁道出版社有限公司的大力支持，在此对这些单位的相关人员表示衷心的感谢。限于编者水平，书中难免有不足之处，欢迎读者对本书提出宝贵意见和建议。？

第 1 章 Python 与 Anaconda 环境配置  1
1.1 Python 编程语言  1
1.2 Anaconda 环境介绍 3
1.3 IDE 与 PyCharm 介绍 3
1.3.1 IDE 基础  4
1.3.2 PyCharm 基础  4
1.4 Anaconda 安装与基本配置 5
1.4.1 相关知识  6
1.4.2 环境要求  6
1.4.3 安装与测试步骤  6
小结  12
思考与练习 1  12
第 2 章 语音特征分析技术 13
2.1 语音特征概述  13
2.1.1 语音特征的概念  13
2.1.2 语音特征分析技术的主要应用场景  14
2.1.3 语音特征与其他技术类型特征  15
2.1.4 语音特征的分类及主要特征信息  17
2.1.5 语音信号特征提取的工作原理  17
2.2 语音特征提取开发环境的构建  18
2.2.1 语音处理库 Librosa 的介绍  18
2.2.2 语音处理库 Librosa 的安装与使用  19
2.3 语音特征提取实验  20
2.3.1 语音特征提取实验介绍  21
2.3.2 实验程序框架说明  21
2.3.3 实验数据集说明  22
2.3.4 语音信号时域特征提取实验代码实现  22
2.3.5 语音信号频域特征提取实验代码实现  25
2.3.6 实验最终效果与评价  27
小结  27
思考与练习 2  28
第 3 章 语音降噪算法 29
3.1 噪声抑制技术  29
3.1.1 噪声概述  29
3.1.2 语音降噪及其意义  30
3.1.3 噪声抑制技术  31
3.2 谱减法  33
3.2.1 谱减法降噪的基本原理  33
3.2.2 谱减法降噪的关键步骤  33
3.2.3 谱减法的优缺点  34
3.3 基于谱减法的语音降噪实验  35
3.3.1 术语解释  35
3.3.2 谱减法语音降噪代码实现  36
3.4 基于维纳滤波法的语音降噪实验  38
3.4.1 术语解释  38
3.4.2 维纳滤波法语音降噪代码实现  40
3.5 音频降噪效果对比与分析  43
3.5.1 输入与输出  43
3.5.2 结果分析  44
3.5.3 谱减法的改进与优化  45
3.5.4 维纳滤波法的改进与优化  46
小结  47
思考与练习 3  47
第 4 章 MFCC 特征提取技术 48
4.1 MFCC 特征概述  48
4.1.1 MFCC 特征的概念  48
4.1.2 MFCC 特征应用及重要性  49
4.2 MFCC 特征提取流程介绍  50
4.2.1 MFCC 特征提取流程  50
4.2.2 Librosa 库介绍  50
4.3 基于 Librosa 工具的 MFCC 特征自动化提取实验  51
4.3.1 实验介绍  51
4.3.2 实验程序框架说明  52
4.3.3 实验数据集说明  52
4.3.4 实验代码实现  53
4.3.5 实验最终效果与评价  55
4.4 基于 Librosa 实现 MFCC 特征的计算过程实验  56
4.4.1 实验介绍  56
4.4.2 实验程序框架说明  57
4.4.3 实验数据集说明  57
4.4.4 实验代码实现  57
4.4.5 实验最终效果与评价  62
小结  64
思考与练习 4  64
第 5 章 声纹识别技术 65
5.1 声纹识别概述  65
5.1.1 声纹识别概念  65
5.1.2 声纹识别的任务及应用场景  66
5.1.3 声纹识别与其他生物识别技术的对比  67
5.1.4 声纹识别与语音识别的对比  68
5.1.5 声纹识别技术原理  69
5.1.6 声纹识别流程  70
5.1.7 MFCC-GMM 联合模型算法原理  70
5.2 基于 Scikit-learn 的声纹模型库构建的 API 介绍 72
5.2.1 Librosa 的 API 功能介绍 72
5.2.2 GMM 的调用方法介绍  73
5.3 声纹识别实验  74
5.3.1 实验介绍  74
5.3.2 实验程序框架说明  75
5.3.3 实验数据集说明  75
5.3.4 实验代码实现  77
5.3.5 实验结果与评价  81
小结  82
思考与练习 5  82
第 6 章 AIUI 平台语音技术应用 83
6.1 讯飞开放平台  83
6.1.1 讯飞开放平台介绍  83
6.1.2 讯飞开放平台使用方法  84
6.2 UI 功能调用的通信原理 89
6.2.1 语音识别通信原理  89
6.2.2 语音合成通信原理  90
6.3 基于 WebSocket 和 Flask 的双向通信  90
6.3.1 WebSocket 介绍  91
6.3.2 Flask 介绍 91
6.3.3 Flask+WebSocket 双向通信  92
6.4 信息加密与鉴权  93
6.5 语音识别实验  94
6.5.1 语音识别实验介绍  94
6.5.2 实验程序框架说明  95
6.5.3 语音识别实验代码实现  95
6.5.4 实验效果与评价  103
6.6 语音合成实验  103
6.6.1 语音合成实验介绍  103
6.6.2 实验程序框架说明  104
6.6.3 语音合成实验代码实现  104
6.6.4 实验最终效果与评价  111
小结  111
思考与练习 6  112
第 7 章 计算机视觉技术与应用  113
7.1 计算机视觉与深度学习  113
7.1.1 计算机视觉  113
7.1.2 深度学习  114
7.2 开源深度学习算法库介绍  115
7.2.1 TensorFlow 和 Keras  115
7.2.2 PyTorch 116
7.2.3 OpenCV  116
7.2.4 其他常用深度学习库  117
7.3 CUDA + CUDNN + TensorFlow 计算环境搭建  117
7.3.1 CUDA 与 CUDNN 介绍  118
7.3.2 CUDA 和 CUDNN 的安装与配置  118
7.3.3 TensorFlow 的安装与环境配置  119
7.3.4 安装 CUDA 和 CUDNN 遇到的常见问题 119
7.4 基于 LeNet5 网络模型的手写数字识别实验  119
7.4.1 实验介绍  119
7.4.2 实验程序框架说明  120
7.4.3 实验数据集说明  121
7.4.4 手写数字识别代码实现  125
7.4.5 实验结果  128
7.5 性能分析与算法优化  128
7.5.1 性能分析概述与优化  128
7.5.2 性能优化工具  129
小结  129
思考与练习 7  130
第 8 章 人工智能交互系统设计案例  131
8.1 系统构成  131
8.1.1 系统概述  131
8.1.2 需求分析  131
8.1.3 设计原则  132
8.1.4 系统组成  133
8.2 模块与流程  135
8.2.1 综合管控  135
8.2.2 视频智能监控  142
8.2.3 智慧园区  147
8.2.4 AR 实景地图  148
8.2.5 园区智能通  150
8.2.6 车辆智能管控  161
8.2.7 智能报警检测  173
8.2.8 智能运维与系统管理  178
8.3 基于组件封装的程序构架  181
8.3.1 业务架构  181
8.3.2 逻辑架构  182
8.3.3 部署架构  183
8.3.4 部分核心功能的程序代码实现  183
8.4 系统运行与性能测试  197
8.4.1 系统运行环境  197
8.4.2 性能测试  198
8.5 软件工程原理实践——系统的可持续性维护  200
小结  202
思考与练习 8  202？

       王菲菲，吉林外国语大学人工智能学院副院长，美国新泽西城市大学博士，讲授大学计算机、办公自动化、大数据技术导论、现代教育技术、人工智能等相关课程，主持省级及以上教科研项目12项，公开发表省级及以上论文33篇（EI论文2篇）。

       刘伟，科大讯飞人才培养业务部教学运营部院校教学负责人，高级工程师，多年IT从业经验，曾服务于吉林省人社厅、长春市政府、吉林银行等政府与大型企业的信息研发部门，参与社保、医保、企业管理、移动互联网等多个行业的智能软件研发、设计、管理工作。

①依托国内人工智能领域发展前沿的科大讯飞公司相关产品的核心技术，校企共同编写，既可满足学校的课程需求，又能保证教材内容的专业性、前沿性。
③系统架构设计：系统化地人工智能交互系统的设计与实现，包括数据采集及预处理、特征分析、模型选择及训练、性能测试以及集成部署等。
③实战案例：提供企业实战案例，如语音降噪控制程序、声纹识别高斯混合模型、基于AIUI的语音识别&语音合成算法、校园车辆目标识别系统等，通过案例将理论知识传授给学生，帮助学生深刻掌握知识内涵。
④代码示例：教材提供丰富的代码示例，以多种形式展示使用Python语言和相关库构建项目，帮助学生快速上手，提高学生编程实战能力。
⑤同步建设课程教学指导方面的配套资源，如课程设计、教学大纲、教学方案，以及微课教学视频、教学PPT、案例素材等资源，供科大讯飞公司合作院校以及全国高等院校使用。