期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
视觉学习视角下的语言可视化表征与教学应用 被引量:30
1
作者 严晓蓉 何高大 《远程教育杂志》 CSSCI 2015年第2期46-54,共9页
视觉学习是一种新型的、符合现代数字一代成长的学习范式,也是图像化生存时代知识呈现可视化的必然趋势。它正在改变着课堂教学,特别是外语学习者获取知识的方式。语言知识的可视化是语言知识类型呈现、传递和习得的智能化,是一种新的... 视觉学习是一种新型的、符合现代数字一代成长的学习范式,也是图像化生存时代知识呈现可视化的必然趋势。它正在改变着课堂教学,特别是外语学习者获取知识的方式。语言知识的可视化是语言知识类型呈现、传递和习得的智能化,是一种新的教学理念和实践。在外语教学中,借助可视化手段,可以有效增强显性知识和隐性知识的表征效果及促进二者之间的相互转化,从而实现知识传递,培养创新思维,促进语言知识的学得与习得。 展开更多
关键词 视觉学习 知识可视化 可视化表征 图像化生存 数字化一代 外语教学 微课 MOOC
下载PDF
基于主运动分析的野外视觉侦察系统——运动目标检测、跟踪及全景图的生成 被引量:11
2
作者 刘亚 艾海舟 徐光佑 《机器人》 EI CSCD 北大核心 2001年第3期250-255,205,共7页
本文介绍了一个针对野外自然环境设计的视觉侦察系统 ,其主要功能包括运动目标的检测、跟踪及环境全景图的生成 .摄像机安装在 36 0°水平旋转可控的车载云台上 ,视频信号及云台方位数据通过无线通讯传送给基地端的计算机 .计算机... 本文介绍了一个针对野外自然环境设计的视觉侦察系统 ,其主要功能包括运动目标的检测、跟踪及环境全景图的生成 .摄像机安装在 36 0°水平旋转可控的车载云台上 ,视频信号及云台方位数据通过无线通讯传送给基地端的计算机 .计算机自动地检测其中的运动目标 ,实时地拼接出镶嵌有运动目标的全景图 ,当用户指定某个运动目标后计算机将自动地控制云台跟踪该目标 .我们根据二维仿射运动模型和鲁棒参数估计方法分析帧间主运动 ,对各帧图像进行运动补偿后求得差值图像 ,聚类分割变化点得到运动目标 ,再根据目标运动的连续性约束进行可靠的跟踪 .为了满足实时处理的要求 ,程序进行了优化 ,该系统在 PC机上 ,在 384× 2 88图像分辨率下达到 12 .5帧 /秒的处理速度 . 展开更多
关键词 计算机视觉 野外高觉侦察系统 主运动分析 运动目标检测 全景图 运动目标跟踪
下载PDF
浅谈计算机视觉技术进展及其新兴应用 被引量:18
3
作者 余京蕾 《北京联合大学学报》 CAS 2020年第1期63-69,共7页
针对人工智能领域的计算机视觉方向,分别从视觉感知和视觉生成两个维度分析计算机视觉技术的最新进展,包含但不限于表示学习、识别分类、目标检测、图像分割、像素级别的图像与视频生成以及视觉与语言等技术。在计算机视觉技术的新兴应... 针对人工智能领域的计算机视觉方向,分别从视觉感知和视觉生成两个维度分析计算机视觉技术的最新进展,包含但不限于表示学习、识别分类、目标检测、图像分割、像素级别的图像与视频生成以及视觉与语言等技术。在计算机视觉技术的新兴应用方面,分别论述了内容审核、拍照购物及搭配购物等方面的产品在电商领域的成功落地应用。 展开更多
关键词 人工智能 计算机视觉 视觉理解 视觉生成 电商
下载PDF
Transformers in computational visual media:A survey 被引量:12
4
作者 Yifan Xu Huapeng Wei +7 位作者 Minxuan Lin Yingying Deng Kekai Sheng Mengdan Zhang Fan Tang Weiming Dong Feiyue Huang Changsheng Xu 《Computational Visual Media》 SCIE EI CSCD 2022年第1期33-62,共30页
Transformers,the dominant architecture for natural language processing,have also recently attracted much attention from computational visual media researchers due to their capacity for long-range representation and hi... Transformers,the dominant architecture for natural language processing,have also recently attracted much attention from computational visual media researchers due to their capacity for long-range representation and high performance.Transformers are sequence-to-sequence models,which use a selfattention mechanism rather than the RNN sequential structure.Thus,such models can be trained in parallel and can represent global information.This study comprehensively surveys recent visual transformer works.We categorize them according to task scenario:backbone design,high-level vision,low-level vision and generation,and multimodal learning.Their key ideas are also analyzed.Differing from previous surveys,we mainly focus on visual transformer methods in low-level vision and generation.The latest works on backbone design are also reviewed in detail.For ease of understanding,we precisely describe the main contributions of the latest works in the form of tables.As well as giving quantitative comparisons,we also present image results for low-level vision and generation tasks.Computational costs and source code links for various important works are also given in this survey to assist further development. 展开更多
关键词 visual transformer computational visual media(CVM) high-level vision low-level vision image generation multi-modal learning
原文传递
程序流程图到代码的自动生成算法 被引量:13
5
作者 王黎明 王帼钕 +3 位作者 周明媛 褚艳利 陈科 陈平 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2012年第6期70-77,共8页
提出了一种从标准程序流程图到结构化代码生成的新算法.该算法通过对程序流程图结构的分析与识别、循环结构的线性化以及对分支结构域的确定等过程,能够生成符合程序流程图语义的结构化C代码(包括continue/break/return);同时,能够识别... 提出了一种从标准程序流程图到结构化代码生成的新算法.该算法通过对程序流程图结构的分析与识别、循环结构的线性化以及对分支结构域的确定等过程,能够生成符合程序流程图语义的结构化C代码(包括continue/break/return);同时,能够识别出非结构化的程序流程图. 展开更多
关键词 可视化编程 程序流程图 模型驱动 代码生成
下载PDF
一种根据等高线生成三维地形的方法 被引量:9
6
作者 唐凯 康凤举 +1 位作者 宋志明 褚彦军 《系统仿真学报》 CAS CSCD 2004年第2期268-269,273,共3页
提出了一种通过读取单色BMP格式的等高线图产生三维地形的方法。该方法对应每一个高程生成一个或多个多边形,再把代表不同高度的多边形放置到对应的高度上,并从最低端的多边形开始,逐层向上一层多边形采用沿各顶点法线放样的方法生成地... 提出了一种通过读取单色BMP格式的等高线图产生三维地形的方法。该方法对应每一个高程生成一个或多个多边形,再把代表不同高度的多边形放置到对应的高度上,并从最低端的多边形开始,逐层向上一层多边形采用沿各顶点法线放样的方法生成地形三角形。这种方法适用于生成锥形山、丘陵等小面积地区的地形模型。 展开更多
关键词 视景仿真 地形生成 等高线 BMP
下载PDF
深度对抗视觉生成综述 被引量:9
7
作者 谭明奎 许守恺 +1 位作者 张书海 陈奇 《中国图象图形学报》 CSCD 北大核心 2021年第12期2751-2766,共16页
深度视觉生成是计算机视觉领域的热门方向,旨在使计算机能够根据输入数据自动生成预期的视觉内容。深度视觉生成使用人工智能技术赋能相关产业,推动产业自动化、智能化改革与转型。生成对抗网络(generative adversarial networks,GANs)... 深度视觉生成是计算机视觉领域的热门方向,旨在使计算机能够根据输入数据自动生成预期的视觉内容。深度视觉生成使用人工智能技术赋能相关产业,推动产业自动化、智能化改革与转型。生成对抗网络(generative adversarial networks,GANs)是深度视觉生成的有效工具,近年来受到极大关注,成为快速发展的研究方向。GANs能够接收多种模态的输入数据,包括噪声、图像、文本和视频,以对抗博弈的模式进行图像生成和视频生成,已成功应用于多项视觉生成任务。利用GANs实现真实的、多样化和可控的视觉生成具有重要的研究意义。本文对近年来深度对抗视觉生成的相关工作进行综述。首先介绍深度视觉生成背景及典型生成模型,然后根据深度对抗视觉生成的主流任务概述相关算法,总结深度对抗视觉生成目前面临的痛点问题,在此基础上分析深度对抗视觉生成的未来发展趋势。 展开更多
关键词 深度学习 视觉生成 生成对抗网络(GANs) 图像生成 视频生成 3维深度图像生成 风格迁移 可控生成
原文传递
基于LabVIEW 7 Express的电化学虚拟仪器 被引量:10
8
作者 李将渊 刘赵荣 +1 位作者 王玉春 蔡铎昌 《计算机与应用化学》 CAS CSCD 北大核心 2005年第10期918-920,共3页
介绍了基于LabVIEW的电化学虚拟仪器及其设计原理,研讨了用于电化学测试的信号发生与输出、数据采集与处理等关键问题。编制了电化学测试信号的数字序列,经PCI-6014卡D/A变换后控制电化学研究体系;调用LabVIEW的DAQ模板并应用Occurrenc... 介绍了基于LabVIEW的电化学虚拟仪器及其设计原理,研讨了用于电化学测试的信号发生与输出、数据采集与处理等关键问题。编制了电化学测试信号的数字序列,经PCI-6014卡D/A变换后控制电化学研究体系;调用LabVIEW的DAQ模板并应用Occurrence等技术,实现了双通道高速实时采集、显示与存储。该系统界面友好、操作简便、功能可扩展,能胜任常规电化学测试研究,本文给出了用LabVIEW 7 Express编写的部分程序,并用该系统研究了多壁碳纳米管修饰玻碳电极对抗坏血酸电化学行为,获得了满意的结果。 展开更多
关键词 LABVIEW 电化学 虚拟仪器 波形发生 数据采集 循环伏安
原文传递
基于机器学习的风景园林智能化分析应用研究 被引量:9
9
作者 包瑞清 《风景园林》 2019年第5期29-34,共6页
机器学习使实现数据的智能化处理及充分利用数据中蕴含的知识与价值成为可能。探索基于机器学习在风景园林领域智能化分析应用的途径,开展3个实验。其中2个与数据分析研究相关,提出基于调研图像色彩聚类分析的城市色彩印象和基于图像识... 机器学习使实现数据的智能化处理及充分利用数据中蕴含的知识与价值成为可能。探索基于机器学习在风景园林领域智能化分析应用的途径,开展3个实验。其中2个与数据分析研究相关,提出基于调研图像色彩聚类分析的城市色彩印象和基于图像识别技术的景观视觉质量评估与网络应用平台部署实验。最后1个实验与数字化设计创作相关,提出用于设计方案遴选的地形生成方法,包括2个子项目:应用深度学习生成对抗网络(GAN)的地形生成和建立遮罩、预测未知区域的高程。3个实验应用到机器学习中分类、聚类和回归3个主要方向中的算法以及深度学习的生成对抗网络,对传统的研究问题提出了基于机器学习新的研究方法。因此,在应用机器学习风景园林领域,可以有效地从多源数据中学习相互增强的知识,发现问题,并提出解决问题的新方法。 展开更多
关键词 风景园林 数字景观 机器学习 城市色彩 视觉评价 地形生成
下载PDF
视觉信息跨媒介传达的形态演变及其生成逻辑探究 被引量:8
10
作者 屈云东 朱力 毛寒 《湘潭大学学报(哲学社会科学版)》 CSSCI 北大核心 2018年第6期146-150,共5页
在媒介融合的背景下,视觉信息传达设计呈现出两种典型的发展态势,一方面同绘画、装置、展示、产品、建筑等传统艺术门类的物质媒介互为载体与中介渠道、信息纠缠与跨界传播,带来了视觉信息传达从信息方式到传达形态、从设计观念到设计... 在媒介融合的背景下,视觉信息传达设计呈现出两种典型的发展态势,一方面同绘画、装置、展示、产品、建筑等传统艺术门类的物质媒介互为载体与中介渠道、信息纠缠与跨界传播,带来了视觉信息传达从信息方式到传达形态、从设计观念到设计生产的综合化和多元化表达;另一方面同以移动互联网、数字影像、VR技术等为标志的数字技术媒介跨屏传达和多屏互动,扩大并延伸了信息传达的工具,在信息交互层面生成新的逻辑,带来了视觉信息传达的交互化和拟态化体验。新媒介介入下的视觉信息传达设计需要积极回应这些变化,从视觉信息跨媒介传达的形态演变及其生成逻辑的内、外两个维度入手推进该领域的深入研究。 展开更多
关键词 视觉信息 跨媒介传达 形态演变 生成逻辑
下载PDF
Prompt learning in computer vision: a survey 被引量:1
11
作者 Yiming LEI Jingqi LI +2 位作者 Zilong LI Yuan CAO Hongming SHAN 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2024年第1期42-63,共22页
Prompt learning has attracted broad attention in computer vision since the large pre-trained visionlanguagemodels (VLMs) exploded. Based on the close relationship between vision and language information builtby VLM, p... Prompt learning has attracted broad attention in computer vision since the large pre-trained visionlanguagemodels (VLMs) exploded. Based on the close relationship between vision and language information builtby VLM, prompt learning becomes a crucial technique in many important applications such as artificial intelligencegenerated content (AIGC). In this survey, we provide a progressive and comprehensive review of visual promptlearning as related to AIGC. We begin by introducing VLM, the foundation of visual prompt learning. Then, wereview the vision prompt learning methods and prompt-guided generative models, and discuss how to improve theefficiency of adapting AIGC models to specific downstream tasks. Finally, we provide some promising researchdirections concerning prompt learning. 展开更多
关键词 Prompt learning visual prompt tuning(VPT) Image generation Image classification Artificial intelligence generated content(AIGC)
原文传递
激光雷达和视觉技术的机器人移动位置跟踪系统 被引量:3
12
作者 何小英 王旭 《激光杂志》 CAS 北大核心 2023年第1期232-237,共6页
以提升机器人位置跟踪精度为目的,设计激光雷达和视觉技术的机器人移动位置跟踪系统。该系统利用激光雷达传感器、方向传感器、里程计获取机器人位置距离信息、方向信息和移动里程信息后,利用MC9S12XS128微控芯片连接RS232通讯接口,将... 以提升机器人位置跟踪精度为目的,设计激光雷达和视觉技术的机器人移动位置跟踪系统。该系统利用激光雷达传感器、方向传感器、里程计获取机器人位置距离信息、方向信息和移动里程信息后,利用MC9S12XS128微控芯片连接RS232通讯接口,将该信息传输到ARM嵌入式处理器内;用户通过与Ubuntu/Debian,操作系统环境人机接口相连的LCD显示屏,调用ARM嵌入式处理器内机器人位置距离、方向等信息后,通过启动位置跟踪单元内的基于类圆弧机器人识别的自适应位置跟踪算法程序,实现器人移动位置跟踪,并利用基于视觉技术的地图生成单元,生成机器人运行位置环境地图。实验结果表明:该系统跟踪机器人位置反馈时间最短仅为12 s,具备较好的实时性;在跟踪机器人简单移动位置和复杂移动位置时的跟踪线路与实现线路几乎重合,具备较强的机器人位置跟踪能力。 展开更多
关键词 激光雷达 视觉技术 机器人 移动位置 跟踪系统 地图生成
下载PDF
图像叙事与修辞实践:裕固族传统仪式中视觉符号的意义生成 被引量:5
13
作者 张辉刚 《西北师大学报(社会科学版)》 CSSCI 北大核心 2022年第3期96-105,共10页
作为一种充满象征意义的展演互动,裕固族传统仪式视觉传播的首要任务便是对其意义的有效传达。伴随着传播制度的不断变革,传统仪式经由修辞实践所构筑的媒介时空与现实时空之间的关系在不断变化,对比不同关系之下传统仪式修辞实践的效... 作为一种充满象征意义的展演互动,裕固族传统仪式视觉传播的首要任务便是对其意义的有效传达。伴随着传播制度的不断变革,传统仪式经由修辞实践所构筑的媒介时空与现实时空之间的关系在不断变化,对比不同关系之下传统仪式修辞实践的效果差异不难得出,借由视觉修辞完成对其意义的传递是传统仪式结合自身特性在时代背景之下所做出的一项必然性选择。裕固族传统仪式中各类视觉符号自身意义的生成,完全依赖于符号所处的生成语境,理解和把握互文、情境与文化三种语境各自特定的符号意义生成规则,不仅有助于区分与识别视觉符号在传统仪式中的意义所在,还能进一步厘清催生裕固族传统仪式视觉符号变迁的根源与力量。 展开更多
关键词 裕固族传统仪式 视觉符号 视觉修辞 意义生成
下载PDF
地下水流数值模拟中平面三角网格自动剖分的实现 被引量:5
14
作者 胡立堂 陈崇希 王旭升 《安全与环境工程》 CAS 2005年第2期15-18,22,共5页
针对地下水数值模拟中涉及平面三角网格自动生成问题,提出了一种适合地下水流三角剖分的特定要求的算法,并利用当前流行的面向对象设计语言VisualC++实现了算法,最后结合实例,做了剖分工作,结果能很好满足地下水流数值模拟的要求,为地... 针对地下水数值模拟中涉及平面三角网格自动生成问题,提出了一种适合地下水流三角剖分的特定要求的算法,并利用当前流行的面向对象设计语言VisualC++实现了算法,最后结合实例,做了剖分工作,结果能很好满足地下水流数值模拟的要求,为地下水流数值模拟提供了方便快捷的服务。 展开更多
关键词 地下水流数值模拟 三角网格 自动生成 visual C++
下载PDF
隐喻地图的基本理论问题
15
作者 苏世亮 王令琦 +3 位作者 杜清运 张江玥 亢孟军 翁敏 《地球信息科学学报》 EI CSCD 北大核心 2024年第1期72-84,共13页
学术界关于隐喻地图的相关研究依然处于初级探索阶段。隐喻地图的合理概念范畴、生产机制、话语生产原理、设计框架等基本理论问题尚未得到解决。针对这些局限性,本研究以隐喻地图的生成机制和话语生产原理等基本理论问题为具体突破点,... 学术界关于隐喻地图的相关研究依然处于初级探索阶段。隐喻地图的合理概念范畴、生产机制、话语生产原理、设计框架等基本理论问题尚未得到解决。针对这些局限性,本研究以隐喻地图的生成机制和话语生产原理等基本理论问题为具体突破点,首先定义符号学视角下“地图”的概念,并以此为基础从认知语言学相关理论入手,在阐释地图隐喻功能的基础上,界定了隐喻地图的基本概念及内涵,同时甄别出隐喻地图形象性和多义性两大基本特征;其次,通过厘清视觉隐喻发生的原理,解析了隐喻地图“相似性融合-相似性凸显-符号化”的生成机制;再次,引入语言符号学理论明晰了隐喻地图的话语生产原理,构建了基于“组合关系-聚合关系”的符号组构原理和“刺点生成”的语义传递法则;最后,以生成机制及话语生产原理为基础,提出了“明确主体-构建喻体-营造语境”的隐喻地图设计理论框架,并结合实际案例论证了其合理性和可操作性,以期为隐喻地图理论体系构建与实践应用提供参考。 展开更多
关键词 隐喻地图 视觉隐喻 生成机制 话语生产 符号学 地图学理论 专题地图设计
原文传递
基于电力信息可视化采集的230 MHz射频技术研究 被引量:2
16
作者 梁盈威 杨秋勇 苏华权 《自动化技术与应用》 2023年第6期127-130,共4页
原有的230 MHz射频技术在授权用户受到认知用户干扰时,通信过程误码率较高,为此,提出一种基于电力信息可视化采集的230 MHz射频技术。设计射频技术中接收灵敏度、动态范围、接收带外抑制等接收发射指标,优化基带对有用信号的调节,消除... 原有的230 MHz射频技术在授权用户受到认知用户干扰时,通信过程误码率较高,为此,提出一种基于电力信息可视化采集的230 MHz射频技术。设计射频技术中接收灵敏度、动态范围、接收带外抑制等接收发射指标,优化基带对有用信号的调节,消除认知用户的干扰;引入可视化信息采集技术,由230 MHz无线专网承担通信工作,设计时序逻辑控制,采用过分配方式定义GTS和CFP的分配,保留通信过程中的处理时间,减小干扰。对比实验结果表明在光谱强度相同时,设计的技术误码率较低,具有有效性。 展开更多
关键词 电力信息 可视化采集 信道干扰 信号生成 射频技术
下载PDF
面向工业过程的图像生成及其应用研究综述
17
作者 汤健 郭海涛 +2 位作者 夏恒 王鼎 乔俊飞 《自动化学报》 EI CAS CSCD 北大核心 2024年第2期211-240,共30页
在面向工业过程的计算机视觉研究中,智能感知模型能否实际应用取决于其对复杂工业环境的适应能力.由于可利用的工业图像数据集存在分布不均、多样性不足和干扰严重等问题,如何生成符合多工况分布的期望训练集是提高感知模型性能的关键.... 在面向工业过程的计算机视觉研究中,智能感知模型能否实际应用取决于其对复杂工业环境的适应能力.由于可利用的工业图像数据集存在分布不均、多样性不足和干扰严重等问题,如何生成符合多工况分布的期望训练集是提高感知模型性能的关键.为解决上述问题,以城市固废焚烧(Municipal solid wastes incineration, MSWI)过程为背景,综述目前面向工业过程的图像生成及其应用研究,为进行面向工业图像的感知建模提供支撑.首先,梳理面向工业过程的图像生成定义和流程以及其应用需求;随后,分析在工业领域中具有潜在应用价值的图像生成算法;接着,从工业过程图像生成、生成图像评估和应用等视角进行现状综述;然后,对下一步研究方向进行讨论与分析;最后,对全文进行总结并指出未来挑战. 展开更多
关键词 工业过程 视觉感知 图像生成 生成图像评估与应用 城市固废焚烧
下载PDF
基于合成数据的水下机器人视觉定位方法 被引量:1
18
作者 琚玲 周星群 +3 位作者 胡志强 杨翊 李黎明 白士红 《信息与控制》 CSCD 北大核心 2023年第2期129-141,共13页
针对水下场景水下机器人(AUV)位姿数据集难以获取、现有的基于深度学习的位姿估计方法无法应用的问题,提出了一种基于合成数据的AUV视觉定位方法。首先基于Unity3D仿真搭建虚拟水下场景,通过虚拟相机获取仿真环境下已知的渲染位姿数据... 针对水下场景水下机器人(AUV)位姿数据集难以获取、现有的基于深度学习的位姿估计方法无法应用的问题,提出了一种基于合成数据的AUV视觉定位方法。首先基于Unity3D仿真搭建虚拟水下场景,通过虚拟相机获取仿真环境下已知的渲染位姿数据。其次,通过非配对图像转换工作实现渲染图片到真实水下场景下的风格迁移,结合已知渲染图片的位姿信息得到了合成的水下位姿数据集。最后,提出一种基于局部区域关键点投影的卷积神经网络(CNN)位姿估计方法,并基于合成数据训练网络,预测已知参考角点的2维投影,产生2D-3D点对,基于随机一致性采样的Perspective-n-Point(PnP)算法获得相对位置和姿态。本文在渲染数据集以及合成数据集上进行了定量实验,并在真实水下场景进行了定性实验,论证了所提出方法的有效性。实验结果表明,非配对图像转换能够有效消除渲染图像与真实水下图像之间的差距,所提出的局部区域关键点投影方法可以进行更有效的6D位姿估计。 展开更多
关键词 水下机器人 位姿估计 视觉定位 图像生成 合成数据 深度学习
原文传递
成人接受卡通形式的心理探源 被引量:3
19
作者 刘丽华 《艺术与设计(理论版)》 2008年第9X期14-16,共3页
卡通"全龄化"的状况在国外早已经形成。中国由于长期以来都有"卡通是儿童的专利"的狭隘观念,导致成人卡通创作水平落后且发展缓慢。发展成人卡通是补足现今国产卡通市场定位偏颇的一块基石。要发展中国的成人卡通,... 卡通"全龄化"的状况在国外早已经形成。中国由于长期以来都有"卡通是儿童的专利"的狭隘观念,导致成人卡通创作水平落后且发展缓慢。发展成人卡通是补足现今国产卡通市场定位偏颇的一块基石。要发展中国的成人卡通,必须对卡通成人受众进行研究。本文论述了"为什么成人能够接受卡通形式,以及成人接受卡通形式的主要心理特点",对这个问题的分析,能帮助理解成人为何对某种类型卡通形式的审美接受有较普遍的倾向性。 展开更多
关键词 视觉文化 通俗性 娱乐性 视觉感官 卡通一代
原文传递
基于细粒度视觉特征和知识图谱的视觉故事生成算法 被引量:3
20
作者 李朦朦 江爱文 +3 位作者 龙羽中 宁铭 彭虎 王明文 《中文信息学报》 CSCD 北大核心 2022年第9期139-148,共10页
视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉... 视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。 展开更多
关键词 视觉故事生成 场景图 知识图谱 文本生成 细粒度视觉特征
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部