-
题名一种数据高效的第三人称模仿学习方法
被引量:1
- 1
-
-
作者
姜冲
章宗长
陈子璇
朱佳成
蒋俊鹏
-
机构
苏州大学计算机科学与技术学院
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2021年第2期238-244,共7页
-
基金
国家自然科学基金面上项目(61876119)
江苏省自然科学基金面上项目(BK20181432)
中央高校基本科研业务费专项资金(14380005)。
-
文摘
模仿学习提供了一种能够使智能体从专家示范中学习如何决策的框架。在学习过程中,智能体无需与专家进行交互,也不依赖于环境的奖励信号,而只需要大量的专家示范。经典的模仿学习方法需要使用第一人称的专家示范,该示范由一个状态序列以及对应的专家动作序列组成。但是,在现实生活中,专家示范通常以第三人称视频的形式存在。相比第一人称专家示范,第三人称示范的观察视角与智能体的存在差异,导致两者之间缺乏一一对应关系,因此第三人称示范无法被直接用于模仿学习中。针对此问题,文中提出了一种数据高效的第三人称模仿学习方法。首先,该方法在生成对抗模仿学习的基础上引入了图像差分方法,利用马尔可夫决策过程的马尔可夫性质以及其状态的时间连续性,去除环境背景、颜色等领域特征,以得到观察图像中与行为策略最相关的部分,并将其用于模仿学习;其次,该方法引入了一个变分判别器瓶颈,以对判别器进行限制,进一步削弱了领域特征对策略学习的影响。为了验证所提算法的性能,通过MuJoCo平台中的3个实验环境对其进行了测试,并与已有算法进行了比较。实验结果表明,与已有的模仿学习方法相比,该方法在第三人称模仿学习任务中具有更好的性能表现,并且不需要额外增加对样本的需求。
-
关键词
模仿学习
第三人称
领域特征
数据高效
图像差分
变分判别器瓶颈
-
Keywords
Imitation learning
Third-person
Domain feature
Data efficient
Image difference
variational discriminator bottleneck
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于条件流的人脸正面化生成对抗模型
- 2
-
-
作者
张鹏升
解易
刘钊
-
机构
中国人民公安大学信息技术与网络安全学院
北京燧原智能科技有限公司
中国人民公安大学网络空间安全与法治协同创新中心
-
出处
《计算机应用与软件》
北大核心
2019年第12期156-161,183,共7页
-
基金
国家重点研发项目课题(2018YFC0809800)
公安部公安理论软科学项目(2018LLYJGADX014)
-
文摘
根据侧面人脸合成正面人脸一直是计算机视觉领域中的一个难题。对此设计基于条件流的人脸正面化生成对抗网络模型。采用Glow模型作为生成网络实现高效的推理和合成;采用条件实例归一化层(CIN)来控制正面人脸的生成;采用变分判别器瓶颈(VDB),以潜在变量对身份进行判别,生成身份一致的正面人脸。在Multi PIE数据集上进行实验,实验分析表明,该网络模型可以生成更具真实性和多样性的正面人脸图片。
-
关键词
人脸正面化
流模型
生产对抗网络
条件实例归一化层
变分判别器瓶颈
-
Keywords
Face frontalization
Flow model
Generative adversarial network
Conditional instance normalization layer
variational discriminator bottleneck
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-