期刊文献+
共找到286篇文章
< 1 2 15 >
每页显示 20 50 100
英语多媒体视频阅听过程中的知觉负载与选择性注意——以视频字幕呈现量对阅听理解的影响为例 被引量:18
1
作者 董剑桥 周迓菁 刘桂如 《外语电化教学》 CSSCI 北大核心 2013年第5期57-64,共8页
多媒体视频中字幕方式对外语学习的作用机制得到了越来越多关注。本文在Mayer的多媒体学习理论和Lavie的知觉负载理论的基础上,通过实验进一步探讨了在视频阅听过程中字幕的多寡(无字幕、关键词字幕和全字幕)是否因加工任务差异而影响... 多媒体视频中字幕方式对外语学习的作用机制得到了越来越多关注。本文在Mayer的多媒体学习理论和Lavie的知觉负载理论的基础上,通过实验进一步探讨了在视频阅听过程中字幕的多寡(无字幕、关键词字幕和全字幕)是否因加工任务差异而影响学习者视觉通道中有限的注意力资源的分配,进而影响阅听理解的预期效果。 展开更多
关键词 注意力分配 多媒体 字幕 视频理解
原文传递
基于多模态特征融合的新闻故事单元分割 被引量:8
2
作者 刘嘉琦 封化民 闫建鹏 《计算机工程》 CAS CSCD 2012年第24期161-165,共5页
对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并... 对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并记录主题字幕的起始位置和结束位置,利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕,对新闻视频进行故事单元分割。实验结果表明,该方法的查全率为83.18%,查准率为83.92%。 展开更多
关键词 新闻视频 多模态特征 字幕 音频 故事单元分割
下载PDF
论电视专题片中解说词的创作——兼论电视专题片中文与画的关系 被引量:8
3
作者 周振华 《江苏广播电视大学学报》 2008年第4期27-31,共5页
电视专题是声画结合的艺术,它不仅为视觉提供直观形象,而且也为听觉提供借助于想象、联想、情感等手段所形成的内心视像。在电视专题片创作中,"文"与"画"构成互补、互动的关系,即:以声画对位、相互辉映来强化细节,... 电视专题是声画结合的艺术,它不仅为视觉提供直观形象,而且也为听觉提供借助于想象、联想、情感等手段所形成的内心视像。在电视专题片创作中,"文"与"画"构成互补、互动的关系,即:以声画对位、相互辉映来强化细节,以聚点成线、一线贯穿来完成主体叙述,以文画形神共筑来深化主题。 展开更多
关键词 电视专题 解说词 画面 声画关系
下载PDF
有、无字幕两种版本的不同观看顺序对视频理解效果的实证研究 被引量:7
4
作者 陈毅萍 周密 《现代教育技术》 CSSCI 2010年第10期89-92,共4页
多媒体技术的发展使英文电影赏析成为促进大学英语教学的有效手段,而英文字幕也成为一种有效的用于提高EFL学生的视频理解水平的工具。通过测试和访谈,文章探讨了字幕对EFL学生视频理解的影响以及有、无字幕的两种版本不同的观看顺序对... 多媒体技术的发展使英文电影赏析成为促进大学英语教学的有效手段,而英文字幕也成为一种有效的用于提高EFL学生的视频理解水平的工具。通过测试和访谈,文章探讨了字幕对EFL学生视频理解的影响以及有、无字幕的两种版本不同的观看顺序对学生视频理解的不同效果,并提出教师应根据学生的不同特点,科学合理地把字幕运用于教学的观点。 展开更多
关键词 字幕 视频理解 播放顺序
下载PDF
视频公开课字幕文件的制作技术探索 被引量:5
5
作者 张海兵 刘阁 《工业技术与职业教育》 2013年第3期9-10,26,共3页
介绍了视频公开课拍摄制作技术标准、视频公开课的制作以及SRT格式字幕文件。并依据标准中有关字幕文件的要求,结合VisualSubSync软件的使用,详细介绍了字幕制作的工作流程。
关键词 视频公开课 字幕 制作
下载PDF
科技期刊版式设计略谈 被引量:5
6
作者 陈沙沙 《长沙电力学院学报(自然科学版)》 2004年第1期91-93,共3页
对科技期刊版式设计中的标题、插图与空白的处置进行了分析探讨,认为科技期刊版式设计在总体上应是追求格式一致与节奏变化的统一,整体性与连贯性的统一.布局合理的版式设计带给期刊的是整体的和谐美,别具风格的版式设计标志着期刊的个... 对科技期刊版式设计中的标题、插图与空白的处置进行了分析探讨,认为科技期刊版式设计在总体上应是追求格式一致与节奏变化的统一,整体性与连贯性的统一.布局合理的版式设计带给期刊的是整体的和谐美,别具风格的版式设计标志着期刊的个性特征. 展开更多
关键词 科技期刊 版式设计 标题 插图 空白
下载PDF
基于藏文音节的图像标题自动生成方法研究
7
作者 华却才让 白颖 +2 位作者 周子琦 才让当知 完么措 《高原科学研究》 CSCD 2024年第3期102-109,共8页
图像标题生成在人机交互、多媒体搜索以及图像自动标注等领域具有广泛的应用前景。文章提出基于藏文音节的图像标题生成方法。首先,Encoder将输入的图像数据通过多层残差卷积层提取图像特征;其次,通过Attention机制来准确获取Encoder中... 图像标题生成在人机交互、多媒体搜索以及图像自动标注等领域具有广泛的应用前景。文章提出基于藏文音节的图像标题生成方法。首先,Encoder将输入的图像数据通过多层残差卷积层提取图像特征;其次,通过Attention机制来准确获取Encoder中的特征向量,进行加权求和,增强特征提取;最后,采用LSTM的解码器对藏文音节特征向量进行解码,生成图像标题。该方法在Flickr8K测试集上和Flickr30K测试集上BLEU_4值分别达到了20.6和24.4,比紧缩格的切分方法分别提高了2.3和4.2。生成的标题语言表达流畅,符合语法规则,能较好地描述图像的核心意义。 展开更多
关键词 图像 标题 藏文音节 注意力机制
下载PDF
Image Captioning Using Multimodal Deep Learning Approach
8
作者 Rihem Farkh Ghislain Oudinet Yasser Foued 《Computers, Materials & Continua》 SCIE EI 2024年第12期3951-3968,共18页
The process of generating descriptive captions for images has witnessed significant advancements in last years,owing to the progress in deep learning techniques.Despite significant advancements,the task of thoroughly ... The process of generating descriptive captions for images has witnessed significant advancements in last years,owing to the progress in deep learning techniques.Despite significant advancements,the task of thoroughly grasping image content and producing coherent,contextually relevant captions continues to pose a substantial challenge.In this paper,we introduce a novel multimodal method for image captioning by integrating three powerful deep learning architectures:YOLOv8(You Only Look Once)for robust object detection,EfficientNetB7 for efficient feature extraction,and Transformers for effective sequence modeling.Our proposed model combines the strengths of YOLOv8 in detecting objects,the superior feature representation capabilities of EfficientNetB7,and the contextual understanding and sequential generation abilities of Transformers.We conduct extensive experiments on standard benchmark datasets to evaluate the effectiveness of our approach,demonstrating its ability to generate informative and semantically rich captions for diverse images.The experimental results showcase the synergistic benefits of integrating YOLOv8,EfficientNetB7,and Transformers in advancing the state-of-the-art in image captioning tasks.The proposed multimodal approach has yielded impressive outcomes,generating informative and semantically rich captions for a diverse range of images.By combining the strengths of YOLOv8,EfficientNetB7,and Transformers,the model has achieved state-of-the-art results in image captioning tasks.The significance of this approach lies in its ability to address the challenging task of generating coherent and contextually relevant captions while achieving a comprehensive understanding of image content.The integration of three powerful deep learning architectures demonstrates the synergistic benefits of multimodal fusion in advancing the state-of-the-art in image captioning.Furthermore,this approach has a profound impact on the field,opening up new avenues for research in multimodal deep learning and paving the way for 展开更多
关键词 Image caption multimodelmethods YOLOv8 efficientNetB7 features extration TRANSFORMERS ENCODER DECODER Flickr8k
下载PDF
影视字幕文字识别的研究 被引量:2
9
作者 李朝晖 王秀峰 《计算机工程》 CAS CSCD 北大核心 2002年第3期175-176,共2页
从影视字幕中获取相应的文本,可为影视节目的片段检索提供一种重要手段。该文就影视节目中字幕的文字识别方案进行了探讨,提出了字幕区域的确定、背景的滤除、台词的分割、图像二值化等预处理的一系列算法,并进行了实验和讨论。实验结... 从影视字幕中获取相应的文本,可为影视节目的片段检索提供一种重要手段。该文就影视节目中字幕的文字识别方案进行了探讨,提出了字幕区域的确定、背景的滤除、台词的分割、图像二值化等预处理的一系列算法,并进行了实验和讨论。实验结果表明,提出的算法正确、可行,处理效果良好。 展开更多
关键词 滤除背景 台词分割 影视字幕 文字识别 模式识别 计算机
下载PDF
Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review
10
作者 Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake Abubakar Sulaiman Gezawa Yunqi Lei 《Computers, Materials & Continua》 SCIE EI 2024年第3期2941-2965,共25页
Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It... Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It is also playing an essential role in devolving human-robot interaction.The dense video description is more difficult when compared with simple Video captioning because of the object’s interactions and event overlapping.Deep learning is changing the shape of computer vision(CV)technologies and natural language processing(NLP).There are hundreds of deep learning models,datasets,and evaluations that can improve the gaps in current research.This article filled this gap by evaluating some state-of-the-art approaches,especially focusing on deep learning and machine learning for video caption in a dense environment.In this article,some classic techniques concerning the existing machine learning were reviewed.And provides deep learning models,a detail of benchmark datasets with their respective domains.This paper reviews various evaluation metrics,including Bilingual EvaluationUnderstudy(BLEU),Metric for Evaluation of Translation with Explicit Ordering(METEOR),WordMover’s Distance(WMD),and Recall-Oriented Understudy for Gisting Evaluation(ROUGE)with their pros and cons.Finally,this article listed some future directions and proposed work for context enhancement using key scene extraction with object detection in a particular frame.Especially,how to improve the context of video description by analyzing key frames detection through morphological image analysis.Additionally,the paper discusses a novel approach involving sentence reconstruction and context improvement through key frame object detection,which incorporates the fusion of large languagemodels for refining results.The ultimate results arise fromenhancing the generated text of the proposedmodel by improving the predicted text and isolating objects using various keyframes.These keyframes identify dense events occurring in the video sequence. 展开更多
关键词 Video description video to text video caption sentence reconstruction
下载PDF
字幕在听力理解中的辅助效果与应用 被引量:3
11
作者 杨元 吴璟 《湖北工业大学学报》 2010年第3期117-120,共4页
越来越多的教师在听力教学中利用配有字幕的外语视频材料进行教学,然而听力理解本身就是一个极其复杂的认知过程,涉及听力材料、学习者、使用策略等诸多因素。字幕的加入使得听力理解认知过程更加复杂,其使用效果认识也往往限于教师和... 越来越多的教师在听力教学中利用配有字幕的外语视频材料进行教学,然而听力理解本身就是一个极其复杂的认知过程,涉及听力材料、学习者、使用策略等诸多因素。字幕的加入使得听力理解认知过程更加复杂,其使用效果认识也往往限于教师和学生的感性认识。结合听力理解的相关理论、国内外研究的实证结果,对字幕在听力理解中的使用效果进行分析;并结合其他因素,探讨字幕在使用中需要考虑的问题。 展开更多
关键词 字幕 听力理解 外语习得 视频辅助
下载PDF
基于Prewitt算子的新闻字幕检测 被引量:4
12
作者 邵晨曦 李海波 王李忠 《电子技术(上海)》 2009年第11期24-24,23,共2页
新闻视频的标题字幕中包含有丰富的语义信息,是实现自动化视频检索、分析和理解的重要信息源之一。通过对新闻字幕的特点进行分析,文章提出了一种基于Prewitt算子的新闻字幕检测的方法。算法首先对图像进行灰度变换,然后利用Prewitt算... 新闻视频的标题字幕中包含有丰富的语义信息,是实现自动化视频检索、分析和理解的重要信息源之一。通过对新闻字幕的特点进行分析,文章提出了一种基于Prewitt算子的新闻字幕检测的方法。算法首先对图像进行灰度变换,然后利用Prewitt算子进行边缘检测,最后进行字幕区域的探测与合并,检测出字幕。通过对不同的新闻视频帧进行实验,获得了较高的探测准确率。试验证明,文章提出的方法能够较好的完成新闻字幕检测的任务。 展开更多
关键词 新闻视频 边缘检测 字幕 PREWITT算子
原文传递
基于图像描述和视觉问答的智能盲人辅助系统
13
作者 常波 《信息与电脑》 2023年第3期113-115,共3页
为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽... 为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽取、语音转文字、关键数据抽取获得对应的图片、文本、位置信息;其次,核心服务软件利用上述信息进行功能的切换,并将对应图片-文本数据、图片数据、文本-位置数据送入图片描述(Image Caption)模型和视觉问答(Visual Question Answering,VQA)模型处理,得到对应回答信息;最后,语音播报模块利用文字转语音技术将回答信息转成语音信息并反馈。测试结果表明,提出的系统能针对盲人具体的语音问题进行回答,实现特定场景的问答和描述。 展开更多
关键词 视觉问答(VQA) Image caption 树莓派
下载PDF
An Experimental Analysis of Stability in Human Walking 被引量:1
14
作者 Zhipeng Wang Bin He +3 位作者 Yanmin Zhou Tingting Yuan Shoulin Xu Minzhi Shao 《Journal of Bionic Engineering》 SCIE EI CSCD 2018年第5期827-838,共12页
Biped locomotion has excellent environment adaptability due to natural selection and evolution over hundreds of millions years. However, the biped walking stability mechanism is still not clear. In this paper, an expe... Biped locomotion has excellent environment adaptability due to natural selection and evolution over hundreds of millions years. However, the biped walking stability mechanism is still not clear. In this paper, an experimental analysis of walking stability in human walking is carried out by using a motion capture system. A new stability analysis method is proposed based on Zero Moment Point (ZMP) and Sliding Time Window (STW). The influences of ground friction coefficient, ground slope angle and contact area of support polygon on human walking stability are investigated. The experiment is carried out with 12 healthy subjects, and 53 passive reflective markers are pasted to each subject to obtain moving trajectory and to calculate lower limb joint variation during walking. Experimental results show that ground friction coefficient, ground slope angle and contact area have significant effects on the stride length, step height, gait cycle and lower limb joint angles. When walking with small stability margin, subjects modulate gait to improve the stability, such as shortening stride length, reducing step height, and increasing the gait cycle. These results provide insights into the stability mechanism of human walking, which is beneficial for locomotion control of biped robots. 展开更多
关键词 human locomotion walking stablity walking gait biped robot motion caption system
原文传递
影视字幕对英语口语教学的启示 被引量:3
15
作者 高岩 《辽宁省交通高等专科学校学报》 2007年第1期81-82,共2页
本文通过对问卷调查的数据分析与对比,探讨影视材料中的字幕对英语口语教学的启示。影视字幕可以为学生提供丰富的背景文化知识,可以提高学生的自主学习能力。影视字幕及影视片段画面本身提供给学生真实的画面刺激,使学生体验和感受并... 本文通过对问卷调查的数据分析与对比,探讨影视材料中的字幕对英语口语教学的启示。影视字幕可以为学生提供丰富的背景文化知识,可以提高学生的自主学习能力。影视字幕及影视片段画面本身提供给学生真实的画面刺激,使学生体验和感受并学习一些非语言知识,降低对口语练习的焦虑感。字幕影视可以通过视、听、说的有机结合,提高学生的英语生成能力和产出能力。 展开更多
关键词 影视字幕 口语教学 口语训练
下载PDF
基于内容的电视广告段落检测系统 被引量:3
16
作者 葛菲 史萍 《电视技术》 北大核心 2010年第9期106-109,共4页
提出了一种电视广告段落分割系统。首先分析并提取电视广告的视音频特征,然后基于这些特征和统计分析的方法实现广告段落的自动分割,最后对实验结果进行了分析。实验结果表明,该方法可有效检测电视节目中的广告片段。
关键词 电视广告 分割 字幕 特征
下载PDF
Application of Dual Attention Mechanism in Chinese Image Captioning
17
作者 Yong Zhang Jing Zhang 《Journal of Intelligent Learning Systems and Applications》 2020年第1期14-29,共16页
Objective: The Chinese description of images combines the two directions of computer vision and natural language processing. It is a typical representative of multi-mode and cross-domain problems with artificial intel... Objective: The Chinese description of images combines the two directions of computer vision and natural language processing. It is a typical representative of multi-mode and cross-domain problems with artificial intelligence algorithms. The image Chinese description model needs to output a Chinese description for each given test picture, describe the sentence requirements to conform to the natural language habits, and point out the important information in the image, covering the main characters, scenes, actions and other content. Since the current open source datasets are mostly in English, the research on the direction of image description is mainly in English. Chinese descriptions usually have greater flexibility in syntax and lexicalization, and the challenges of algorithm implementation are also large. Therefore, only a few people have studied image descriptions, especially Chinese descriptions. Methods: This study attempts to derive a model of image description generation from the Flickr8k-cn and Flickr30k-cn datasets. At each time period of the description, the model can decide whether to rely more on images or text information. The model captures more important information from the image to improve the richness and accuracy of the Chinese description of the image. The image description data set of this study is mainly composed of Chinese description sentences. The method consists of an encoder and a decoder. The encoder is based on a convolutional neural network. The decoder is based on a long-short memory network and is composed of a multi-modal summary generation network. Results: Experiments on Flickr8k-cn and Flickr30k-cn Chinese datasets show that the proposed method is superior to the existing Chinese abstract generation model. Conclusion: The method proposed in this paper is effective, and the performance has been greatly improved on the basis of the benchmark model. Compared with the existing Chinese abstract generation model, its performance is also superior. In the next step, more visual prior i 展开更多
关键词 IMAGE caption in Chinese DUAL ATTENTION MECHANISM Richness ACCURACY
下载PDF
中文记录片解说词英译中的适应和选择 被引量:2
18
作者 陈喜华 《海外英语》 2012年第9X期165-166,178,共3页
记录片是一种用非虚构手法反映真实客观事物的影片。中文纪录片解说词的成功英译是影片海外版播映效果的保证。纪录片解说词在影视传媒中是一种特殊的语言形式。结合电视媒体特点等多维生态翻译语境,译者在英译记录片解说词时要充分发... 记录片是一种用非虚构手法反映真实客观事物的影片。中文纪录片解说词的成功英译是影片海外版播映效果的保证。纪录片解说词在影视传媒中是一种特殊的语言形式。结合电视媒体特点等多维生态翻译语境,译者在英译记录片解说词时要充分发挥主导作用,在影片和观众之间成功搭建交流平台,进行动态适应;主要在词汇,句型处理上作出正确的选择,保证较好的观影效果。 展开更多
关键词 生态翻译 记录片 解说词 适应 选择
下载PDF
电视字幕在后期制作中的运用浅析 被引量:2
19
作者 雷燕 《中国有线电视》 2006年第7期685-687,共3页
探讨电视节目后期制作中字幕的色彩布局、色彩基调、字体字型、出字方式及其他相关因素,以求完善电视字幕的功能和作用,进一步提高电视节目的制作水平。
关键词 电视 制作 字幕 色彩
下载PDF
分镜头脚本的编写及在编制教学片中的应用 被引量:2
20
作者 刘蔚民 《中国医学教育技术》 2003年第5期279-280,共2页
介绍了分镜头脚本的基本概念,基本格式,同时指出编导必须掌握分镜头脚本编写的知识和基本要求,以及在编制教学片时如何运用分镜头脚本,使之在拍摄时少走弯路.
关键词 分镜头脚本 教学片 电视教材 教学素材 解说词
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部