期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
电影智能化制作新机遇:CVPR 2024多模态技术发展综述
1
作者
谢志峰
余
盛
叶
《现代电影技术》
2024年第7期12-20,共9页
为了探讨电影智能化制作新机遇,本文深入分析2024年国际计算机视觉与模式识别会议(CVPR)中多模态领域前沿技术成果。具体而言,本文聚焦视觉、文本和音频三个模态的研究与多模态技术在电影制作领域的重要应用:视频生成、视频编辑和预告...
为了探讨电影智能化制作新机遇,本文深入分析2024年国际计算机视觉与模式识别会议(CVPR)中多模态领域前沿技术成果。具体而言,本文聚焦视觉、文本和音频三个模态的研究与多模态技术在电影制作领域的重要应用:视频生成、视频编辑和预告片剪辑技术,视频描述生成和视频内容解读技术,以及声画同步、音效生成和视频配乐技术。研究表明,电影制作过程与多模态技术的融合应用不仅大幅提高制作效率,也将显著增强艺术表现力。最后,本文总结了当前面临的多模态技术挑战,并展望了相关技术在未来电影制作中的发展方向。
展开更多
关键词
人工智能
电影制作
多模态技术
大语言模型
计算机视觉
下载PDF
职称材料
基于LD特征引导NeRF的可操控语音驱动人脸重演
2
作者
郑迦恒
余
盛
叶
谢志峰
《工业控制计算机》
2023年第10期58-60,共3页
语音驱动的人脸重演的目标是通过输入一段任意语音,驱动目标人物重演相应表情。现有方法无法仅以一段自然场景下视频作为训练素材,实现可操控的高保真语音驱动人脸重演,为此,提出了一种基于LD特征的语音驱动人脸重演方法。首先,对输入...
语音驱动的人脸重演的目标是通过输入一段任意语音,驱动目标人物重演相应表情。现有方法无法仅以一段自然场景下视频作为训练素材,实现可操控的高保真语音驱动人脸重演,为此,提出了一种基于LD特征的语音驱动人脸重演方法。首先,对输入视频进行人脸对齐,检测人脸关键点并提取LD特征;然后,通过音频特征提取模块将输入音频映射为一段64维的潜码,构建基于多层感知机的编码器和解码器,由解码器将潜码解码为LD特征后,通过编码器将其还原为潜码表示;接着,将更新后的潜码输入基于网格的NeRF获得采样点密度和颜色,通过体绘制输出头部重演RGB帧;同时,将姿势输入身体变形模块,合成重演帧的身体部分。实验结果证明,方法能够根据输入语音内容生成高保真重演结果,并且在重演过程中能够对目标人物的面部表情进行个性化控制。
展开更多
关键词
语音驱动人脸重演
神经辐射场
人脸关键点
下载PDF
职称材料
题名
电影智能化制作新机遇:CVPR 2024多模态技术发展综述
1
作者
谢志峰
余
盛
叶
机构
上海大学上海电影学院
上海电影特效工程技术研究中心
出处
《现代电影技术》
2024年第7期12-20,共9页
文摘
为了探讨电影智能化制作新机遇,本文深入分析2024年国际计算机视觉与模式识别会议(CVPR)中多模态领域前沿技术成果。具体而言,本文聚焦视觉、文本和音频三个模态的研究与多模态技术在电影制作领域的重要应用:视频生成、视频编辑和预告片剪辑技术,视频描述生成和视频内容解读技术,以及声画同步、音效生成和视频配乐技术。研究表明,电影制作过程与多模态技术的融合应用不仅大幅提高制作效率,也将显著增强艺术表现力。最后,本文总结了当前面临的多模态技术挑战,并展望了相关技术在未来电影制作中的发展方向。
关键词
人工智能
电影制作
多模态技术
大语言模型
计算机视觉
Keywords
Artificial Intelligence
Film Production
Multimodal Technology
Large Language Model
Computer Vision
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于LD特征引导NeRF的可操控语音驱动人脸重演
2
作者
郑迦恒
余
盛
叶
谢志峰
机构
上海大学影视工程系
上海电影特效工程技术研究中心
出处
《工业控制计算机》
2023年第10期58-60,共3页
文摘
语音驱动的人脸重演的目标是通过输入一段任意语音,驱动目标人物重演相应表情。现有方法无法仅以一段自然场景下视频作为训练素材,实现可操控的高保真语音驱动人脸重演,为此,提出了一种基于LD特征的语音驱动人脸重演方法。首先,对输入视频进行人脸对齐,检测人脸关键点并提取LD特征;然后,通过音频特征提取模块将输入音频映射为一段64维的潜码,构建基于多层感知机的编码器和解码器,由解码器将潜码解码为LD特征后,通过编码器将其还原为潜码表示;接着,将更新后的潜码输入基于网格的NeRF获得采样点密度和颜色,通过体绘制输出头部重演RGB帧;同时,将姿势输入身体变形模块,合成重演帧的身体部分。实验结果证明,方法能够根据输入语音内容生成高保真重演结果,并且在重演过程中能够对目标人物的面部表情进行个性化控制。
关键词
语音驱动人脸重演
神经辐射场
人脸关键点
Keywords
audio-driven facial reenactment
NeRF
face landmark
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TN912.3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
电影智能化制作新机遇:CVPR 2024多模态技术发展综述
谢志峰
余
盛
叶
《现代电影技术》
2024
0
下载PDF
职称材料
2
基于LD特征引导NeRF的可操控语音驱动人脸重演
郑迦恒
余
盛
叶
谢志峰
《工业控制计算机》
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部