高等职业教育 > ---大类---
物体检索与定位
书号:9787113286552 套系名称:无
作者:姜文晖 出版日期:2021-12-01
定价:45.00 页码 / 开本:无 /16
策划编辑:曹莉群 责任编辑:贾星 包宁 许璐
适用专业:专著 适用层次:职教本科
最新印刷时间:
资源下载
教学课件(暂无)
教学素材(暂无)
习题答案(暂无)
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
物体检索与定位是计算机视觉技术最核心的技术之一。本书主要阐述了物体检索与定位中的关键问题和相关技术,包括大数据时代的目标检索及应用、视觉词组的贝叶斯池化模型、位置对齐的深度示例检索模型、多示例在线学习模型、基于显著性的深度特征表示、人工智能时代的信息检索技术展望。 本书内容新颖、条理清晰,适合作为计算机与人工智能相关行业从业人员的专业技术类参考用书。
随着移动互联网和物联网的发展,海量数据正在发生爆发式增长,从大规模数据中检索与定位最重要的目标信息具有广泛且重要的应用价值,因而受到学术界和工业界的大量关注。物体检索与定位,是指给定查询目标在某种模态下的信息,在大规模图像视频数据中集中定位该目标的技术。物体检索与定位是计算机视觉技术最核心的课题之一。然而,由于光照、视角、遮挡等外部因素和物体本身的形变、类别多样性等内部因素的共同影响,图像在不同层次上存在复杂的表象变化。除此之外,示例、图像和标签之间的层次关联繁杂多样,这些都给物体检索与定位带来了很大的困难。 本书从实际应用的角度出发,针对示例检索、标签检索和物体定位三个相关问题进行深入研究。以视觉词袋模型和深度卷积网络模型为基础,从模型表示、模型学习和关联匹配几个方面进行扩展和完善。 (1)针对基于视觉词组的示例检索模型进行了研究。首先,优化了视觉词组的定义方式,提高了视觉词组的区分性。其次,分析了一类容易被忽视的现象,即视觉词组的突爆匹配。最后,基于概率模型,提出了一种新颖的贝叶斯池化模型用于消除突爆匹配,从而优化了图像之间的相似性度量,提高了示例检索的准确性。 (2)针对基于深度卷积网络的示例检索模型进行了研究。针对示例检索的查询敏感的空间位置关联性问题,提出了一种空间位置对齐的模型框架。更进一步,提出了一种基于排序的深度卷积网络,用于建模物体的类内和类间差异性。为了训练这个网络,设计了一种半监督的训练样本收集策略。该策略不需要任何对查询物体的先验知识,并且极大地减少了人工收集训练样本所需的成本。实验结果表明,这一方法显著地提高了深度模型下示例检索的准确性。 (3)针对前背景的模糊性,从特征学习的角度,介绍了一种多示例在线学习模型解决弱监督条件下的图像标注和物体定位问题。首先,在现有的多示例学习模型的基础上,改进了训练样本的选择和更新策略。改进后的策略能够收集准确多样的正样本以及有区分性的负样本,从而提高前背景的区分性。其次,设计了一个端到端的模型,同时进行训练样本的选择和物体检测器的训练。最后,通过对示例标注和图像标注进行关联,从而通过一个模型联合学习图像标注和物体检测算法。实验结果表明,这一模型有效地提高了图像标注和物体定位的性能。 (4)从特征表示的角度对标签检索和物体定位问题进行了研究。具体地,本书介绍了一种基于显著性的深度特征模型,改善基于矩形框的物体特征表示。显著性模型使得矩形框内背景区域的特征响应被抑制,而前景中重要的视觉区域的特征激活得到增强。这样的特征表示模型使得前景区域和背景区域的类内差异变小,类间差异变大,从而减少了前背景的模糊性。这一显著性特征模型可以与当前最好的弱监督物体检测模型融合,从而进行端到端的联合训练。这一方法的可靠性在多个数据集上得到了验证。 图1展示了本书各章之间的关系。具体结构安排如下: 第1章介绍了物体检索与定位的研究意义、关键技术、相关工作进展,并介绍全书的创新点和组织结构。 第2章和第3章针对示例检索任务提出了两种解决方案。其中第2章对基于局部特征的检索模型展开研究,介绍了一种基于视觉词组的贝叶斯池化的图像检索模型;第3章提出了一种位置对齐的深度示例检索模型。 第4章和第5章针对图像标注和物体定位展开研究。其中第4章从特征学习的角度提出了一种多示例在线学习模型;第5章则从特征表示的角度提出了一种特征模型。 第6章对全书进行总结,并对今后的研究工作进行展望。 由于著者的学术水平和研究深度所限,书中纰漏和不妥之处在所难免,欢迎广大读者批评指正。 姜文晖 2021年9月
第1章大数据时代的目标检索及应用 1.1大数据时代的大搜索趋势1 1.2物体搜索:问题与挑战2 1.2.1示例检索3 1.2.2标签检索与定位4 1.2.3关键技术难题5 1.3针对物体检索与定位的研究历史与现状6 1.3.1基于示例的检索模型7 1.3.2图像标注9 1.3.3物体检测10 1.4技术测评11 1.4.1数据集介绍11 1.4.2性能评价指标12 参考文献13 第2章视觉词组的贝叶斯池化模型 2.1词袋模型21 2.2词袋模型相关工作24 2.2.1视觉单词的上下文建模24 2.2.2视觉突爆现象25 2.2.3贝叶斯决策理论26 2.3基于视觉词组的示例检索模型26 2.3.1视觉词组的挖掘26 2.3.2相似性度量28 2.3.3相关工作在框架下的解释29 2.4贝叶斯池化模型30 2.4.1突爆匹配与池化30 2.4.2模型的建立32 2.4.3参数估计33 2.5实验结果与分析35 2.5.1实现细节35 2.5.2参数影响37 2.5.3性能对比40 2.5.4可视化分析41 小结42 参考文献43 第3章位置对齐的深度示例检索模型 3.1示例检索的研究现状45 3.2示例检索有关的技术发展46 3.2.1深度卷积网络46 3.2.2基于深度卷积网络的示例检索47 3.3模型整体结构48 3.4似物性采样49 3.5基于排序学习的深度特征学习模型50 3.5.1模型结构50 3.5.2模型训练52 3.5.3特征提取53 3.6半监督的训练数据收集策略53 3.7搜索与排序55 3.7.1级联量化编码55 3.7.2索引结构56 3.7.3在线查询57 3.8实验结果与分析57 3.8.1实现细节57 3.8.2性能对比57 3.8.3效率分析60 3.8.4可视化分析61 小结62 参考文献62 第4章多示例在线学习模型 4.1监督信息65 4.2物体检测的工作68 4.2.1多示例学习68 4.2.2多标签学习70 4.2.3基于CNN的弱监督物体检测70 4.3多示例在线学习71 4.3.1概述71 4.3.2特征表示模块72 4.3.3示例分类模块73 4.3.4示例采样模块73 4.3.5迭代精化74 4.4实验结果与分析75 4.4.1实现细节75 4.4.2关键区域选择的重要性76 4.4.3与弱监督深度检测网络WSDDN的变种进行性能对比79 4.4.4与其他模型的性能对比79 小结81 参考文献81 第5章基于显著性的深度特征表示 5.1视觉注意机制84 5.2视觉注意机制相关工作85 5.3模型结构86 5.3.1物体的显著性模型87 5.3.2显著性池化88 5.4实验结果与分析89 5.4.1实现细节89 5.4.2模型分析90 5.4.3与其他方法的性能对比91 5.4.4可视化分析92 小结94 参考文献95 第6章人工智能时代的信息检索技术展望 6.1物体检索与定位技术总结98 6.2物体检索与定位研究展望99
姜文晖,男,博士,2017 年博士毕业于北京邮电大学,美国加州大学圣巴巴分校访问博士生。博士毕业后在阿里巴巴达摩院从事计算机视觉方面的研究。现为江西财经大学信息管理学院讲师,硕士生导师。长期从事可视媒体内容理解、多媒体内容检索、智能监控安防等方面的研究和产业落地。在国际高水平学术期刊和会议发表论文十余篇,主持国家自然科学基金项目1项,省部级课题2项,在学术界和工业化场景中积累了丰富经验。
在这个网络图像资源呈指数级增长的时代,如何高效地从图像中检索定位最重要的目标信息具有广泛且重要的应用价值。本书从实际应用的角度出发,针对示例检索、标签检索和物体定位三个相关问题进行深入研究。