视觉场景描述及其效果评价被引量：5

Visual Scene Description and Its Performance Evaluation

下载PDF

导出

摘要作为计算机视觉?多媒体?人工智能和自然语言处理等领域的交叉性研究课题,视觉场景描述的研究内容是自动生成一个或多个语句用于描述图像或视频中呈现的视觉场景信息.视觉场景中内容的丰富性和自然语言表达的多样性使得视觉场景描述成为一项充满挑战的任务,综述了现有视觉场景描述方法及其效果评价.首先,论述了视觉场景描述的定义?研究任务及方法分类,简要分析了视觉场景描述与多模态检索、跨模态学习、场景分类、视觉关系检测等相关技术的关系;然后分类讨论视觉场景描述的主要方法?模型及研究进展,归纳日渐增多的基准数据集;接下来,梳理客观评价视觉场景描述效果的主要指标和视觉场景描述技术面临的问题与挑战,最后讨论未来的应用前景. As a cross-domain research topic related to Computer Vision, Multimedia, Artificial Intelligence and Natural Language Processing, the task of visual scene description is to produce automatically one or more sentences to describe the content of visual scene from an image or a video snippet. The richness of the content in the visual scene and the diversity of the expression of natural language make visual scene description a challenging task. This paper gives a review about the generation methods and performance evaluation on the recently developed visual scene description methods. Specifically, the research object and main tasks of visual scene description are firstly defined;the relationships between visual scene description and multi-modal retrieval, cross-modal learning, scene classification, visual relationship detection and other related technologies are discussed sequentially. And then, main methods and research progress of visual scene description are summarized in three categories, while the increasing benchmark datasets are discussed. Besides, some widely-used evaluation metrics and the corresponding challenges on the visual scene description are discussed. Finally, some potential applications in future are suggested.

作者马苗王伯龙吴琦武杰郭敏 MA Miao;WANG Bo-Long;WU Qi;WU Jie;GUO Min(Key Laboratory of Modern Teaching Technology of Ministry of Education (Shaanxi Normal University), Xi’an 710062, China;School of Computer Science, Shaanxi Normal University, Xi’an 710119, China)

机构地区现代教学技术教育部重点实验室(陕西师范大学) 陕西师范大学计算机科学学院 School of Computer Science

出处《软件学报》 EI CSCD 北大核心 2019年第4期867-883,共17页 Journal of Software

基金国家自然科学基金(61877038 61801282 61601274) 陕西省自然科学基金(2018JM6068) 中央高校基本科研业务经费(GK201703054 GK201703058)~~

关键词深度学习图像描述视频描述基准数据集性能评价 deep learning image captioning video captioning benchmark dataset performance evaluation

分类号 TP37 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1李学龙,史建华,董永生,陶大程.场景图像分类技术综述[J].中国科学：信息科学,2015,45(7):827-848. 被引量：30

二级参考文献7

1WANG Yu, JI XiangYang & DAI QiongHai Broadband Networks & Digital Media Lab of Automation Department, Tsinghua University, Beijing 100084, China.Key technologies of light field capture for 3D reconstruction in microscopic scene[J].Science China(Information Sciences),2010,53(10):1917-1930. 被引量：2
2吴伟仁,王大轶,邢琰,龚小谨,刘济林.月球车巡视探测的双目视觉里程算法与实验研究[J].中国科学：信息科学,2011,41(12):1415-1422. 被引量：16
3陈新亮,胡程,曾涛.一种基于前向散射雷达的车辆目标自动识别方法[J].中国科学：信息科学,2012,42(11):1471-1480. 被引量：8
4XING GuanYu,ZHOU XueHong,LIU YanLi,QIN XueYing,PENG QunSheng.Online illumination estimation of outdoor scenes based on videos containing no shadow area[J].Science China(Information Sciences),2013,56(3):1-11. 被引量：3
5ZHOU Li,HU DeWen,ZHOU ZongTan.Scene recognition combining structural and textural features[J].Science China(Information Sciences),2013,56(7):221-234. 被引量：7
6王保丰,周建亮,唐歌实,邸凯昌,万文辉,刘传凯,王镓.嫦娥三号巡视器视觉定位方法[J].中国科学：信息科学,2014,44(4):452-460. 被引量：27
7王伟,高伟,胡占义.基于语义约束与Graph Cuts的稠密三维场景重建[J].中国科学：信息科学,2014,44(6):774-792. 被引量：6

共引文献29

1刘中涛,胡凡,王淦,李钊,王磊,葛平高,王建娟.基于特征融合的深度学习场景识别与应用[J].计算机应用研究,2020,37(S01):418-420. 被引量：1
2史殿习,童哲航,杨绍武,张拥军,易晓东.面向场景变化的动态自适应同时定位与地图构建[J].中国科学：技术科学,2018,48(12):1373-1391. 被引量：4
3何刚,霍宏,方涛.兼顾特征级和决策级融合的场景分类[J].计算机应用,2016,36(5):1262-1266. 被引量：4
4刘越岩,汪林宇,张斌,门计林.基于多特征软概率级联的场景级土地利用分类方法[J].农业工程学报,2016,32(22):266-272. 被引量：2
5曹建芳,史昊,赵青杉.并行Adaboost-BP算法及其在海量图像分类中的应用[J].新疆大学学报（自然科学版）,2017,34(1):70-77. 被引量：5
6陈梦婷,陈思喜.基于GBVS改进的Object Bank场景分类方法[J].计算机与现代化,2017(1):61-64. 被引量：2
7张斌,刘越岩,汪林宇.基于多特征软概率级联的土地利用/土地覆盖分类[J].资源科学,2017,39(3):557-565. 被引量：1
8朱博,高翔,赵燕喃.机器人室内语义建图中的场所感知方法综述[J].自动化学报,2017,43(4):493-508. 被引量：16
9金小菲,胡胜,朱蓉.室内外图像混合特征提取及分类[J].嘉兴学院学报,2017,29(6):62-71.
10范敏,韩琪,王芬,宿晓岚,徐浩,吴松麟.基于多层次特征表示的场景图像分类算法[J].吉林大学学报（工学版）,2017,47(6):1909-1917. 被引量：8

同被引文献29

1崔霞,欧阳德来,冷文丽,陈庆军,何文.基于Authorware的“材料分析测试技术”多媒体课件设计制作研究[J].南昌航空大学学报（自然科学版）,2020,34(1):102-105. 被引量：4
2王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：27
3刘安国,王觉,阚丽丽,赵耀东.3D Body软件在经络腧穴学课程教学中的应用效果评价[J].甘肃中医药大学学报,2020,0(1):119-122. 被引量：5
4任越美,程显毅,李小燕,谢玉宇.基于概念级语义的图像描述与识别[J].计算机科学,2008,35(7):206-212. 被引量：2
5赵琪涵,王永红,高新亚,孙方圆,闫佩正,杨连祥.基于平滑样条拟合的相位图像滤波评价方法[J].光学学报,2018,38(8):196-202. 被引量：12
6吴飞,韩亚洪,廖彬兵,于俊清.多媒体技术研究:2017——记忆驱动的媒体学习与创意[J].中国图象图形学报,2018,23(11):1617-1634. 被引量：3
7邹良涛,蒋刚毅,郁梅,彭宗举,陈芬.基于张量域感知特征的无参考高动态范围图像质量评价[J].计算机辅助设计与图形学学报,2018,30(10):1850-1858. 被引量：3
8陈龙杰,张钰,张玉梅,吴晓军.基于多注意力多尺度特征融合的图像描述生成算法[J].计算机应用,2019,39(2):354-359. 被引量：15
9邓珍荣,张宝军,蒋周琴,黄文明.融合word2vec和注意力机制的图像描述模型[J].计算机科学,2019,46(4):268-273. 被引量：7
10孙菲,孙焕志,张妍妍,何晶.高职高专“多媒体课件制作”微课程开发设计与实践[J].黑龙江生态工程职业学院学报,2019,32(3):126-128. 被引量：4

引证文献5

1魏强.债转股运作过程中应当注意的问题[J].金融理论与实践,2000(3):30-32. 被引量：3
2高逸凡,王勇.一种基于目标检测与词性分析的图像描述算法[J].计算机与现代化,2021(3):108-114.
3王志强.多媒体课件的视觉传播效果评价系统设计[J].济源职业技术学院学报,2022,21(1):51-57. 被引量：1
4马苗,陈小秋,田卓钰.基于多模态特征的视频密集描述生成方法[J].中文信息学报,2022,36(11):156-168. 被引量：1
5朱晨豪,叶霞,陆琪多.多模态图像描述任务综述[J].计算机仿真,2023,40(6):1-8.

二级引证文献5

1陈燕红,郭斌.多模态教学课件制作技术与应用研究[J].创新创业理论研究与实践,2023(1):25-27.
2曹翠珍.防范债转股风险的对策[J].山西财经大学学报,2000,22(S2):86-87.
3李笗,胡紫枫.债转股——现代银行与企业“双赢”模式的新实践[J].郑州工业大学学报（社会科学版）,2000,18(2):43-45.
4孙金峰.对“债转股”有关问题的思考[J].统计与信息论坛,2002,17(5):67-72.
5陈劭武,胡慧君,刘茂福.基于事件最大边界的密集视频描述方法[J].中国科技论文,2024,19(2):169-177.

1成玉明.岩土工程中深基坑检测技术的应用探究[J].建材与装饰,2018,14(52):39-40. 被引量：2
2牛斌,李金泽,房超,马利,徐和然,纪兴海.一种基于注意力机制与多模态的图像描述方法[J].辽宁大学学报（自然科学版）,2019,46(1):38-45.
3熊昊哲,谢良.面向Web图像检索的语义关联多模态哈希方法[J].武汉理工大学学报,2016,38(8):71-75. 被引量：3
4马书磊,张国宾,焦阳,石光明.一种改进的全局注意机制图像描述方法[J].西安电子科技大学学报,2019,46(2):17-22. 被引量：6
5张凯,李军辉,周国栋.基于枢轴语言的图像描述生成研究[J].中文信息学报,2019,33(3):110-117. 被引量：3
6杨雪,陈永清,郭建亮,程晓民,陈廉清.基于形态学的双螺孔自动检测技术[J].轻工机械,2019,37(1):74-77.
7孙健航,胡伟东,刘阳,邢柏阁,赵云璋.一种基于Hankel方法的多收多发RCS近远场变换算法[J].微波学报,2018,34(A01):18-21. 被引量：1
8段瑞,郭铖.基于L_0梯度最小化滤波和对比度受限直方图均衡的色调映射算法[J].中国传媒大学学报（自然科学版）,2019,26(1):45-51.

软件学报

2019年第4期

浏览历史

内容加载中请稍等...

视觉场景描述及其效果评价被引量：5

参考文献1

二级参考文献7

共引文献29

同被引文献29

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

视觉场景描述及其效果评价 被引量：5

参考文献1

二级参考文献7

共引文献29

同被引文献29

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

视觉场景描述及其效果评价被引量：5