期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
包装设计中的色彩视觉化语言应用 被引量:15
1
作者 米琪 《包装工程》 CAS CSCD 北大核心 2008年第5期101-103,共3页
文章以包装色彩所展示的人文性特征和视觉质感,为现代人提供了准确快速捕捉和理解的视觉语言信息为出发点,对色彩在包装设计中发挥的至关重要作用,以及包装设计中的色彩设计和应用进行了简要的归纳和探讨。
关键词 包装色彩 视觉语言 应用
下载PDF
手机界面设计的视觉语言分析及其风格化设计艺术研究 被引量:11
2
作者 祝瑜 王毅 黄海燕 《包装工程》 CAS CSCD 北大核心 2007年第12期218-220,共3页
利用视觉元素对手机界面进行风格化设计,成为现代手机界面设计的趋势。文章重点分析了手机界面视觉语言构成要素,并从手机硬件界面和软件界面2个不同的侧面,探讨了如何利用不同的视觉表现语言进行手机界面的风格化设计。
关键词 手机界面 视觉语言 风格化 设计
下载PDF
标志设计的色彩内涵探析 被引量:5
3
作者 刘贲 《包装工程》 CAS CSCD 北大核心 2007年第10期231-232,235,共3页
色彩的实用性原则是标志设计在视觉传达中最基本的要求和首要功能,是认知识别机能设计的中心主题。它能鲜明、准确地表达出企业的内涵与特性,在吸引消引消费注意和开拓市场等方面发挥着重要功效。
关键词 可读性 可观性 标志设计 情感反应 视觉语言
下载PDF
广告视觉语言的形象符号化及其影响 被引量:5
4
作者 陈茹 刘玉 《艺术与设计(理论版)》 2007年第1X期38-40,共3页
随着社会的不断发展,现代商业广告设计中出现了将特定形象转变为符号的现象。本文从符号学的角度出发,通过对这一现象的分析,探求其对平面领域内商业广告设计中视觉语言的影响。
关键词 视觉语言 形象符号化 影响
原文传递
发挥新闻图片在报刊中的作用 被引量:1
5
作者 姜冷 王少云 《辽宁工程技术大学学报(社会科学版)》 2004年第1期91-92,共2页
当代报纸总的业务方针是图文并重,而不是以往的重文字、轻图片。从世界范围来看,新闻图片已成为报纸上的"天之骄子",在报纸版面上占有显赫的地位。从新闻性和广泛性二方面论述了新闻图片的重要意义,从"选好新闻角度,抓... 当代报纸总的业务方针是图文并重,而不是以往的重文字、轻图片。从世界范围来看,新闻图片已成为报纸上的"天之骄子",在报纸版面上占有显赫的地位。从新闻性和广泛性二方面论述了新闻图片的重要意义,从"选好新闻角度,抓住典型"、"要有自由丰富的想象力"和"注意各类资料的收集"三方面探讨了如何发挥新闻图片在报纸中的作用。 展开更多
关键词 新闻图片 报刊 视觉语言 可读性 受众 新闻性 广泛性 新闻角度 想象力
下载PDF
手机界面的风格化设计艺术研究 被引量:1
6
作者 祝瑜 王毅 黄海燕 《艺术与设计(理论版)》 2007年第11X期149-151,共3页
随着消费者审美水平的日益提高,手机界面设计越来越受到关注,利用视觉元素对手机界面进行风格化设计,成为现代手机界面设计的趋势所向。文章从手机硬件界面和软件界面两个不同的侧面,探讨了如何利用不同的视觉表现语言进行手机界面的风... 随着消费者审美水平的日益提高,手机界面设计越来越受到关注,利用视觉元素对手机界面进行风格化设计,成为现代手机界面设计的趋势所向。文章从手机硬件界面和软件界面两个不同的侧面,探讨了如何利用不同的视觉表现语言进行手机界面的风格化设计。 展开更多
关键词 手机界面 视觉语言 风格化 设计
原文传递
“隐喻”在平面设计中的应用 被引量:1
7
作者 殷允超 《山东教育学院学报》 2009年第4期98-100,共3页
设计的表现形式随社会发展和人们认识的的提高不断发展进步,设计风格也随时代变迁而日趋迥异,但对隐喻问题的探索却从未停止过,同时现代设计的发展越来越需要有感情有内涵,这样才更容易让大众接受。
关键词 隐喻 视觉语言 意境
下载PDF
基于大语言模型与视觉语言模型的多模态事实核查
8
作者 张芃芃 彭勃 +1 位作者 董晶 程皓楠 《中国传媒大学学报(自然科学版)》 2024年第4期30-37,54,共9页
多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的... 多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的多模态事实核查自动化方法,并在公开数据集COSMOS上进行了实验。结果表明该方法达到了0.859的正确率,且在每次核查时都能提供清晰的理由,相较于传统的基线方法具有更高的准确性和更强的可解释性。此外,还深入分析了不同的方法变体,以及数据集中各种虚假信息的判别场景,验证了本方法凭借在多模态信息语义理解方面的强大能力,可以灵活应对不同情境下的脱离上下文检测。本文方法为社交网络中多模态媒体内容的事实核查工作提供有力的技术支持和新的思考方向。 展开更多
关键词 深度学习 大语言模型 视觉语言模型 多模态 事实核查
下载PDF
语义增强的零样本甲骨文字符识别
9
作者 刘宗昊 彭文杰 +2 位作者 代港 黄双萍 刘永革 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3347-3358,共12页
甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有... 甲骨文识别对于了解中国历史和传承中华文化都有重要的价值.目前,人工识别甲骨文需要具备丰富的专家经验并耗费大量的时间,而自动识别甲骨文的方法绝大部分受制于闭集假设,在甲骨文这种陆续发现新字符的现实场景下适用范围受限.为此,有研究者提出零样本甲骨文字符识别,其从视觉匹配的角度出发,将字模图像作为字符类别参考,通过拓片图像与字模图像的相似度匹配实现拓片图像的字符识别,然而其忽略了甲骨文拓片图像样本类内方差大的难点,仍存在因字形多变而容易匹配错误的不足.本文提出了一种两阶段的语义增强零样本甲骨文字符识别方法.第一阶段为域无关的字符语义学习阶段,通过提示学习从甲骨文拓片和字模图像中提取字符语义,解决甲骨文字符缺乏语义的问题.为应对拓片与字模之间的域差异,我们分别设置可学习的域提示信息和字符类别提示信息,通过解耦两者的语义实现更准确的特征提取.第二阶段为语义增强的字符图像视觉匹配阶段,模型通过两个分支分别提取类内共享特征和类间差异特征.第一个分支使用对比学习,将同一字符类别的不同字形视觉特征对齐到字符语义,引导模型关注类内共享特征;第二个分支使用损失函数N-Pair,增强模型对不同字符类别间差异特征的学习.在测试阶段,模型无须语义特征,通过训练中学到的类内相似性和类间差异性特征,实现更准确的拓片与字模匹配,提升零样本识别性能.我们在拓片数据集OBC306和字模数据集SOC5519上进行实验验证,实验结果表明,本文提出的方法在零样本甲骨文识别准确率比基准方法性能提升超过25%. 展开更多
关键词 甲骨文字识别 零样本识别 视觉匹配 语义增强 视觉-语言模型 对比学习
下载PDF
基于Google与KL距离的概念相关度算法 被引量:3
10
作者 连宇 彭进业 +1 位作者 谢红梅 冯晓毅 《计算机工程》 CAS CSCD 北大核心 2011年第19期291-292,F0003,共3页
WordNet在计算概念相关度时存在词汇量小、难以及时扩展更新以及同义、近义、一词多义等问题。为此,提出一种结合文本信息和图像视觉信息的概念相关度方法。利用Google距离和KL距离分别计算基于词语同现频率的概念相关度和基于视觉特征... WordNet在计算概念相关度时存在词汇量小、难以及时扩展更新以及同义、近义、一词多义等问题。为此,提出一种结合文本信息和图像视觉信息的概念相关度方法。利用Google距离和KL距离分别计算基于词语同现频率的概念相关度和基于视觉特征的概念相关度,并结合两者得到概念的总体相关度。实验结果验证了该方法的有效性。 展开更多
关键词 概念相关度 WordNet网络 Google距离 KL距离 视觉语言建模
下载PDF
浅析视觉语言与文字语言关系 被引量:3
11
作者 林英博 《作家》 北大核心 2007年第12期109-110,共2页
文字语言和视觉语言都是人类交流思想,表达情感的工具。视觉语言不排斥文字思维,文字语言也取代不了视觉语言。两者之间在内容与形式,符号化,或者是修辞等方面都能找到相类似或者相互对应的成分。两者间千丝万缕的联系,将为文学工作者... 文字语言和视觉语言都是人类交流思想,表达情感的工具。视觉语言不排斥文字思维,文字语言也取代不了视觉语言。两者之间在内容与形式,符号化,或者是修辞等方面都能找到相类似或者相互对应的成分。两者间千丝万缕的联系,将为文学工作者和艺术工作者提供很多的灵感来源。 展开更多
关键词 视觉语言 文字语言 理性的逻辑 感性的体验 内容与形式 能指与所指 符号化 修辞 交互性
原文传递
视觉问答与对话综述 被引量:11
12
作者 牛玉磊 张含望 《计算机科学》 CSCD 北大核心 2021年第3期87-96,共10页
视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知... 视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知能力和推理能力均提出了较高的要求,在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述,对数据集和算法进行了归纳,对研究挑战和问题进行了总结,最后对视觉问答与对话的未来发展趋势进行了讨论。 展开更多
关键词 视觉问答 视觉对话 视觉语言 视觉推理 深度学习
下载PDF
Causal reasoning in typical computer vision tasks 被引量:1
13
作者 ZHANG KeXuan SUN QiYu +1 位作者 ZHAO ChaoQiang TANG Yang 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2024年第1期105-120,共16页
Deep learning has revolutionized the field of artificial intelligence.Based on the statistical correlations uncovered by deep learning-based methods,computer vision tasks,such as autonomous driving and robotics,are gr... Deep learning has revolutionized the field of artificial intelligence.Based on the statistical correlations uncovered by deep learning-based methods,computer vision tasks,such as autonomous driving and robotics,are growing rapidly.Despite being the basis of deep learning,such correlation strongly depends on the distribution of the original data and is susceptible to uncontrolled factors.Without the guidance of prior knowledge,statistical correlations alone cannot correctly reflect the essential causal relations and may even introduce spurious correlations.As a result,researchers are now trying to enhance deep learningbased methods with causal theory.Causal theory can model the intrinsic causal structure unaffected by data bias and effectively avoids spurious correlations.This paper aims to comprehensively review the existing causal methods in typical vision and visionlanguage tasks such as semantic segmentation,object detection,and image captioning.The advantages of causality and the approaches for building causal paradigms will be summarized.Future roadmaps are also proposed,including facilitating the development of causal theory and its application in other complex scenarios and systems. 展开更多
关键词 causal reasoning computer vision tasks vision-language tasks semantic segmentation object detection
原文传递
图像-文本多模态指代表达理解研究综述 被引量:2
14
作者 王丽安 缪佩翰 +3 位作者 苏伟 李玺 吉娜烨 姜燕冰 《中国图象图形学报》 CSCD 北大核心 2023年第5期1308-1325,共18页
指代表达理解(referring expression comprehension,REC)作为视觉—语言相结合的多模态任务,旨在理解输入指代表达式的内容并在图像中定位其所描述的目标对象,受到计算机视觉和自然语言处理两个领域的关注。REC任务建立了人类语言与物... 指代表达理解(referring expression comprehension,REC)作为视觉—语言相结合的多模态任务,旨在理解输入指代表达式的内容并在图像中定位其所描述的目标对象,受到计算机视觉和自然语言处理两个领域的关注。REC任务建立了人类语言与物理世界的视觉内容之间的桥梁,可以广泛应用于视觉理解系统和对话系统等人工智能设备中。解决该任务的关键在于对复杂的指代表达式进行充分的语义理解;然后利用语义信息对包含多个对象的图像进行关系推理以及对象筛选,最终在图像中唯一地定位目标对象。本文从计算机视觉的视角出发对REC任务进行了综述,首先介绍该任务的通用处理流程。然后,重点对REC领域现有方法进行分类总结,根据视觉数据表征粒度的不同,划分为基于区域卷积粒度视觉表征、基于网格卷积粒度视觉表征以及基于图像块粒度视觉表征的方法;并进一步按照视觉—文本特征融合模块的建模方式进行了更细粒度的归类。此外,本文还介绍了该任务的主流数据集和评估指标。最后,从模型的推理速度、模型的可解释性以及模型对表达式的推理能力3个方面揭示了现有方法面临的挑战,并对REC的发展进行了全面展望。本文希望通过对REC任务现有研究以及未来趋势的总结为相关领域研究人员提供一个全面的参考以及探索的方向。 展开更多
关键词 视觉定位(VG) 指代表达理解(REC) 视觉与语言 视觉表征粒度 多模态特征融合
原文传递
一致性协议匹配的跨模态图像文本检索方法 被引量:2
15
作者 宫大汉 陈辉 +2 位作者 陈仕江 包勇军 丁贵广 《智能系统学报》 CSCD 北大核心 2021年第6期1143-1150,共8页
跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题。为... 跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题。为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增强跨模态检索的性能。本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能。在Flickr30K和MS COCO两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性。 展开更多
关键词 人工智能 计算机视觉 视觉和语言 跨模态检索 一致性协议匹配 注意力 卷积神经网络 循环神经网络 门控循环单元
下载PDF
A Computational Model of Concept Generalization in Cross-Modal Reference 被引量:1
16
作者 Patrick McCrae Wolfgang Menzel Maosong SUN 《Tsinghua Science and Technology》 SCIE EI CAS 2011年第2期113-120,共8页
Cross-modal interactions between visual understanding and linguistic processing substantially contribute to the remarkable robustness of human language processing.We argue that the formation of cross-modal referential... Cross-modal interactions between visual understanding and linguistic processing substantially contribute to the remarkable robustness of human language processing.We argue that the formation of cross-modal referential links is a prerequisite for the occurrence of cross-modal interactions between vision and language.In this paper we examine a computational model for a cross-modal reference formation with respect to its robustness against conceptual underspecification in the visual modality.This investigation is motivated by the fact that natural systems are well capable of establishing a cross-modal reference between modalities with different degrees of conceptual specification.In the investigated model,conceptually underspecified context information continues to drive the syntactic disambiguation of verb-centered syntactic ambiguities as long as the visual context contains the situation arity information of the visual scene. 展开更多
关键词 vision-language interaction cross-modal reference syntactic disambiguation
原文传递
VLCA: vision-language aligning model with cross-modal attention for bilingual remote sensing image captioning 被引量:1
17
作者 WEI Tingting YUAN Weilin +2 位作者 LUO Junren ZHANG Wanpeng LU Lina 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第1期9-18,共10页
In the field of satellite imagery, remote sensing image captioning(RSIC) is a hot topic with the challenge of overfitting and difficulty of image and text alignment. To address these issues, this paper proposes a visi... In the field of satellite imagery, remote sensing image captioning(RSIC) is a hot topic with the challenge of overfitting and difficulty of image and text alignment. To address these issues, this paper proposes a vision-language aligning paradigm for RSIC to jointly represent vision and language. First, a new RSIC dataset DIOR-Captions is built for augmenting object detection in optical remote(DIOR) sensing images dataset with manually annotated Chinese and English contents. Second, a Vision-Language aligning model with Cross-modal Attention(VLCA) is presented to generate accurate and abundant bilingual descriptions for remote sensing images. Third, a crossmodal learning network is introduced to address the problem of visual-lingual alignment. Notably, VLCA is also applied to end-toend Chinese captions generation by using the pre-training language model of Chinese. The experiments are carried out with various baselines to validate VLCA on the proposed dataset. The results demonstrate that the proposed algorithm is more descriptive and informative than existing algorithms in producing captions. 展开更多
关键词 remote sensing image captioning(RSIC) vision-language representation remote sensing image caption dataset attention mechanism
下载PDF
Masked Vision-language Transformer in Fashion 被引量:1
18
作者 Ge-Peng Ji Mingchen Zhuge +3 位作者 Dehong Gao Deng-Ping Fan Christos Sakaridis Luc Van Gool 《Machine Intelligence Research》 EI CSCD 2023年第3期421-434,共14页
We present a masked vision-language transformer(MVLT)for fashion-specific multi-modal representation.Technically,we simply utilize the vision transformer architecture for replacing the bidirectional encoder representa... We present a masked vision-language transformer(MVLT)for fashion-specific multi-modal representation.Technically,we simply utilize the vision transformer architecture for replacing the bidirectional encoder representations from Transformers(BERT)in the pre-training model,making MVLT the first end-to-end framework for the fashion domain.Besides,we designed masked image reconstruction(MIR)for a fine-grained understanding of fashion.MVLT is an extensible and convenient architecture that admits raw multimodal inputs without extra pre-processing models(e.g.,ResNet),implicitly modeling the vision-language alignments.More importantly,MVLT can easily generalize to various matching and generative tasks.Experimental results show obvious improvements in retrieval(rank@5:17%)and recognition(accuracy:3%)tasks over the Fashion-Gen 2018 winner,Kaleido-BERT.The code is available at https://github.com/GewelsJI/MVLT. 展开更多
关键词 vision-language masked image reconstruction TRANSFORMER FASHION e-commercial
原文传递
视觉语言预训练综述 被引量:9
19
作者 殷炯 张哲东 +5 位作者 高宇涵 杨智文 李亮 肖芒 孙垚棋 颜成钢 《软件学报》 EI CSCD 北大核心 2023年第5期2000-2023,共24页
近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transfo... 近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能. 展开更多
关键词 多模态学习 预训练模型 TRANSFORMER 视觉语言学习
下载PDF
生成式AI的大模型提示工程:方法、现状与展望 被引量:1
20
作者 黄峻 林飞 +6 位作者 杨静 王兴霞 倪清桦 王雨桐 田永林 李娟娟 王飞跃 《智能科学与技术学报》 CSCD 2024年第2期115-133,共19页
大语言模型和视觉语言模型在各领域的应用中展示出巨大潜力,成为研究热点。然而,幻觉、知识迁移、与人类意图对齐等问题仍然影响着大模型的性能。首先,探讨了提示工程与对齐技术基本原理,提出基于提示优化、专家反馈机制及实时调整机制... 大语言模型和视觉语言模型在各领域的应用中展示出巨大潜力,成为研究热点。然而,幻觉、知识迁移、与人类意图对齐等问题仍然影响着大模型的性能。首先,探讨了提示工程与对齐技术基本原理,提出基于提示优化、专家反馈机制及实时调整机制的引导概念,提升了大语言模型在跨领域应用中的性能;其次,深入分析提示工程的核心技术,如多步推理处理复杂任务的原理;然后,针对各领域的实际应用,讨论提示工程的发展现状;最后,总结提示工程面临的挑战并展望其未来发展方向。提示工程在理论与应用方面的发展,为提升大模型在实际应用中的性能提供了全面的解决方案。 展开更多
关键词 提示工程 对齐技术 生成式AI 大语言模型 视觉语言模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部