教育资源数字化平台

计算机类教材 > 智能科学与技术

自然语言处理技术与应用

书号：9787113301026 套系名称：“十四五”高等职业教育人工智能技术应用系列教材

作者：武桂梅林野川徐明出版日期：2023-04-01

定价：39.80 页码 / 开本： /16

策划编辑：祁云责任编辑：祁云徐盼欣

适用专业：计算机类适用层次：高职教育

最新印刷时间：

在线阅读

资源下载

教学课件教学素材(暂无)

习题答案(暂无) 教学案例(暂无)

教学设计(暂无) 教学视频(暂无)

内容简介前言目录作者介绍图书特色

     本书是介绍自然语言处理基础理论知识和典型应用案例的实战类书籍。本书在整体知识结构上，由浅入深地阐述了自然语言处理的完整知识体系；在案例应用上，采用目前主流的编程方式及开发工具，详细介绍了自然语言相关基础理论、分词和字典的应用、典型数据预处理方式、经典自然语言处理模型及算法流程、感知机模型、条件随机场模型、命名实体方法、信息抽取方法、文本聚类方法、文本分类方法、依存语法（句法）分析方法、自然语言处理中深度学习的应用等内容。

    本书适合高等职业院校、应用型本科院校作为自然语言处理课程的教学与实训教材，也可供人工智能从业者作为理论与实践结合的参考书。

党的二十大报告提出 ：“推动战略性新兴产业融合集群发展，构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎。”从党的二十大报告可以看出，人工智能已经处于国家战略性地位，这令人工智能领域的工作者倍感振奋。在人工智能领域，自然语言理解处在认知智能核心的地位，它的进步会引导知识图谱的进步，会引导用户理解能力的增强，也会进一步推动整个推理能力的发展。自然语言处理的技术会推动人工智能整体的进展，从而使得人工智能技术可以落地实用化。随着移动互联网的飞速发展，特别是物联网的发展，人与设备的语言交互场景越来越多，并且逐渐成为核心。这种语言的交互不仅包括语音类的，也包括纯文字的。自然语言处理（Natural Language Processing）是指以计算机和编程语言为工具，对人类特有的书面和口头形式的各种类型的自然语言信息进行加工和处理的技术。当然，随着技术的不断发展，其处理领域也出现了跨形态的组合。比如，通过与图像识别技术的结合，可以实现看图说话、在线问答等应用。因此，自然语言处理是一门交叉性的科学，也常被称为计算语言处理（ComputingLanguage）。没有语言，人类的思维就无从谈起，所以自然语言处理体现了智能化的高级别任务和境界。自然语言处理从涉及的内容上看，既有语法分析，也有语义分析。从应用的角度来看，自然语言处理的应用前景是十分广阔的。特别是在信息化时代，自然语言处理的应用包罗万象，如机器翻译、印刷体文字识别、语音识别、信息检索、信息提取和过滤、文本分类、文本聚类、舆情分析和观点挖掘等，涉及的领域包括数据挖掘、机器学习、知识获取、知识进程、语言计算相关的人工智能研究和语言学研究等。作为一门交叉程度很高的学科，自然语言处理的发展可谓突飞猛进，无论是对自然语言本质的探究，还是落实到实际应用中，在未来必然会有令人期待的惊喜。
本书主要特色包括 ：本书采用基于具体案例的实战学习方法，在各种自然语言处理任务中引入经典模型作为解决方案，以实战应用为主、理论和公式推导为辅的形式对自然语言处理中的关键技术进行介绍。同时，为了让学生紧跟学术前沿，本书不仅介绍了自然语言处理模型的基本构建模块，还引入了部分学术界的前沿方法。在整体知识结构上，本书由浅入深地讲解了自然语言处理的知识体系，适合没有接触过自然语言处理领域的学生全面了解相关基础知识 ；在文字讲述和内容展示上 , 本书由点及面、图文并茂、深入浅出地阐述自然语言处理领域的基本知识 , 力求帮助学生迅速掌握基础概念。
    本书共分 12 个单元。单元 1 是绪论部分，重点介绍自然语言处理领域中的基本概念和术语 ；单元 2 是分词和字典，从分词、字典树、切分算法、评测指标四个方面对分词和字典的相关理论进行介绍，本单元内容也是后续自然语言处理任务的基础 ；单元 3 是数据预处理，从数据清洗、分词处理、特征工程三个方面对数据预处理知识进行了介绍，并重点介绍了如何在文本上执行预处理任务 ；单元 4 是语言模型和算法流程，对隐马尔可夫模型的基础知识及应用方法进行了介绍；单元 5 是感知机，从分类问题出发，引出感知模型，并对感知机的应用方式进行介绍 ；单元 6 是条件随机场，围绕条件随机场的基本概念及应用方法进行介绍 ；单元 7 ～单元 11 涵盖了自然语言处理的典型子任务，分别介绍了命名实体识别、信息抽取、文本聚类、文本分类、依存语法分析五个自然语言处理领域的典型子任务，这部分内容是自然语言处理高级任务的基础与核心 ；单元 12 以深度学习和自然语言处理为主题，围绕如何在自然语言处理中应用深度学习方法展开，并通过机器翻译这一较为复杂的任务介绍学术界的前沿方法。
     本书的读者对象包括 ：第一，打算学习并入门自然语言处理技术的高等职业院校、应用型本科院校在校生 ；第二，在金融、医疗、新媒体等行业工作且希望应用人工智能解决本行业问题的工程技术人员 ；第三，已经对人工智能有一定的了解，想要更深入地学习自然语言处理技术的相关人员 ；第四，信息和计算机科学爱好者。
     本书由武桂梅、林野川、徐明任主编，由王丽媛、张国峰、赵天、么冰玉、张淼、叶昭晖任副主编，和中育数据研发团队共同编写完成。由于编者水平有限 , 加之时间仓促，书中难免存在疏漏和不足之处，恳请广大读者批评指正。
编 者
2023 年 1 月

单元1 绪论 1

1.1 自然语言和编程语言 2

1.1.1 自然语言简介 2

1.1.2 编程语言简介 2

1.1.3 自然语言和编程语言的相通性 3

1.2 自然语言处理和信息抽取 3

1.3 自然语言处理和机器学习 4

1.4 语料库 5

1.4.1 通用单语语料库 5

1.4.2 汉英双语平行语料库 6

1.4.3 任务专门语料库 6

实战应用一：信贷违约预测 6

实战应用二：电子病例解析 14

单元小结 23

习题23

单元2 分词和字典 24

2.1 分词 25

2.1.1 中文分词的原理和难点 25

2.1.2 基于字典的中文分词方法 26

2.1.3 主流的中文分词工具 26

2.2 字典树 27

2.2.1 字典树概述 27

2.2.2 字典树的作用 28

2.2.3 字典树的简易实现 28

2.3 切分算法 29

2.3.1 切分算法概述 29

2.3.2 完全切分算法 29

2.3.3 最长匹配算法 30

2.4 评测指标 31

2.4.1 机器学习中的准确率 31

2.4.2 机器学习中的精确率、召回率与F-score 31

2.4.3 NLP中的精确率、召回率和F-score 32

实战应用：使用HanLP词典实现中文分词 33

单元小结 34

习题34

单元3 数据预处理 35

3.1 数据清洗 35

3.2 分词处理 36

3.3 特征工程 36

3.3.1 处理流程 36

3.3.2 常用的中文文本处理函数 36

实战应用一：英文新闻资讯数据清洗 41

实战应用二：中文新闻资讯数据清洗 43

单元小结 47

习题48

单元4 语言模型和算法流程  49

4.1 隐马尔可夫链和二元语法 49

4.1.1 隐马尔可夫链背景引入 50

4.1.2 隐马尔可夫链定义 50

4.1.3 二元语法 50

4.2 中文分词语料库 50

4.3 隐马尔可夫模型和序列标注 51

4.3.1 序列标注 51

4.3.2 隐马尔可夫模型 51

4.3.3 统计n元语法 51

4.3.4 加载模型和构建词网 52

4.3.5 误差分析 52

实战应用：基于马尔可夫模型的文本生成器 60

单元小结 63

习题63

单元5 感知机  64

5.1 分类问题 64

5.2 基于分类的感知机分类 65

5.3 结构化预测问题 69

5.4 基于结构化感知机的中文分词 69

实战应用：使用感知机根据人名实现性别分类 72

单元小结 76

习题76

单元6 条件随机场 77

6.1 条件随机场描述 77

6.2 CRF++工具 78

6.3 CRF++特征模板 79

6.4 CRF++命令行预测81

实战应用：基于条件随机场的词性标注 88

单元小结 90

习题90

单元7命名实体识别 91

7.1命名实体和命名实体识别 92

7.1.1命名实体 92

7.1.2命名实体识别 .92

7.2基于规则的命名实体识别 92

7.3基于层叠隐马尔可夫模型的角色标注框架 92

7.4基于序列标注的命名实体识别 93

实战应用：热点问题命名实体识别 100

单元小结 109

习题.109

单元8信息抽取  110

8.1词性标注 111

8.2关系抽取 111

8.3信息熵 111

8.3.1信息熵的概念  111

8.3.2信息熵的计算  111

8.4新词提取  112

8.4.1新词发现 112

8.4.2短语提取 112

8.4.3新词提取 112

8.5关键词提取和词频统计  113

8.5.1关键词提取 113

8.5.2词频统计 114

实战应用一：文本关键词提取  116

实战应用二：手机评论标签提取  119

单元小结 123

习题.123

单元9文本聚类  124

9.1文本聚类概述124

9.2文本聚类特征提取 125

9.2.1词袋模型 125

9.2.2词袋模型中的统计指标 126

9.3 k均值算法 127

9.3.1基本原理 127

9.3.2 k均值算法的简易实现 128

9.4重复二分聚类算法 129

9.4.1基本原理 129

9.4.2算法实现 130

实战应用一：食品安全评论聚类 131

实战应用二：汽车竞品分析 133

单元小结 140

习题.140

单元10文本分类  141

10.1文本分类概述142

10.2文本分类特征提取 142

10.2.1文档向量化 142

10.2.2文档特征筛选 143

10.3朴素贝叶斯分类算法 143

10.4支持向量机分类算法 144

10.5常用文本分类方法 145

10.6情感分析 153

实战应用：新闻标题分类155

单元小结 161

习题.161

单元11依存语法分析 162

11.1短语结构树 163

11.2依存语法树 163

11.3基于转移的依存语法分析 164

11.3.1基于转移的思想 164

11.3.2 arc-eager方法164

11.3.3基于深度学习的方法 165

实战应用：基于依存语法树的意见抽取 175

单元小结 176

习题.177

单元12深度学习与自然语言处理 178

12.1传统方法与深度学习方法 179

12.1.1传统方法 179

12.1.2深度学习方法 179

12.2 word2vec（词向量） 180

12.2.1 word2vec算法流程 180

12.2.2目标函数 180

12.2.3预测函数 181

12.2.4模型优化 181

12.2.5梯度导数 182

12.3机器翻译和BERT模型 182

实战应用：使用神经网络实现英文-中文翻译 186

单元小结 192

习题192

参考文献 193

武桂梅，江阿城市人，民盟盟员，副教授，1992年毕业于北京农业大学，现就职于辽宁生态工程职业学院（1992-2020年就职于辽宁职业学院）。先后获国家优秀教育工作者，省优秀教师、省骨干教师、铁岭市名师、铁岭市师德标兵、学院优秀教师和优秀班主任荣誉称号。在省级及以上期刊发表论文10余篇；主编教材4部；主持省级科研课题2项；参与完成省级教学成果奖一等奖1项、二等奖1项、三等奖1项。主要承担“计算机应用基础”“市场营销”等课程的授课任务。
林野川，男，1983年3月生，辽宁丹东人，中共党员，讲师，辽宁省教育信息化专家组成员，2007年毕业于沈阳师范大学，现任辽东学院网络与信息化中心副主任。先后获省就业工作先进个人、校优秀共产党员等荣誉称号，在省级及以上期刊发表论文5篇；主持教育部科研项目1项，市级科研项目1项；参与完成辽宁省职业技术教育学会优秀科研成果1项。主要研究方向大数据和系统集成。
徐明，现任职于福建水利电力职业技术学院，计算机系移动互联技术专业。担任湖北省级重点专业“应用电子技术专业”负责人期间，主动深入服务区域、行业发展需求，基于岗位需求变化改革发展专业。主持并参与人培方案制定、课程体系构建、课程资源建设、实训项目开发。优化并形成了与“专业与产业、企业、岗位对接，专业课程内容与职业标准对接，教学过程与生产过程对接，学历证书与职业资格证书对接”（四个对接）相适应的高职应用电子技术专业课程体系与课程标准。教科研方面，针对专业建设过程中的重难点问题、热点问题开展研究。职业技能竞赛是检验高职教育人才培养成果的一种方式，为了让更多的专业学生受益，申报省级课题《电子设计竞赛引领下的单片机与C语言课程整合研究》，通过课题研究与实施，将多年参加比赛的成果转化到日常教学，提高学生的实践能力和技术水平，提升学生的就业竞争力。

本书采用基于具体案例的实战学习方法，在各种自然语言处理任务中引入经典模型作为解决方案，以实战应用为主、理论和公式推导为辅的形式对自然语言处理中的关键技术进行介绍。