基于示范主动采样的行为克隆方法被引量：1

Behavioral Cloning with Active Sampling of Demonstration

下载PDF

导出

摘要深度强化学习在学习过程中需要与环境进行大量的交互,训练效率低下。模仿学习通过从专家示范中学习,可以有效地应对这一挑战,但是需要收集大量的专家示范轨迹,在复杂任务中往往导致高昂的示范代价。本文提出一种基于主动学习的行为克隆算法,通过主动挑选示范起始状态来减小示范代价。该方法基于不确定性采样和不相似性采样两种策略,从状态候选集中挑选最有价值的状态作为起始状态,然后向专家查询固定长度的示范轨迹,希望从尽可能少的示范中学习出有效策略。在多个不同任务上的实验表明,本文方法可以用更少的示范轨迹进行行为克隆,降低了强化学习中的专家示范代价。 Deep reinforcement learning has achieved great success in many applications.However,it usually needs large amount of interactions with the environment to learn the policy,which leads to inefficient training.Imitation learning is an important approach to tackle this challenge by learning from demonstrations,but it instead requires a large set of demonstrations provided by experts,which could be rather costly in many complex tasks.In this paper,we propose an active learning method to reduce the demonstration cost by actively selecting starting state for demonstration.The method is based on uncertainty sampling and dissimilarity sampling.It selects the best state from the candidate set and then queries expert for fixed length of trajectory,in order to train effective policy with fewer demonstrations.Experimental results in multiple environments demonstrate that the proposed method can achieve effective performance with significant lower demonstration cost.

作者黄文宇黄圣君 HUANG Wenyu;HUANG Shengjun(College of Computer Science and Technology/College of Artificial Intelligence,Nanjing University of Aeronautics&Astronautics,Nanjing 211106,China)

机构地区南京航空航天大学计算机科学与技术学院/人工智能学院

出处《南京航空航天大学学报》 CAS CSCD 北大核心 2021年第5期766-771,共6页 Journal of Nanjing University of Aeronautics & Astronautics

基金航空动力基金(6141B09050342)资助项目。

关键词强化学习模仿学习行为克隆逆强化学习主动学习 reinforcement learning imitation learning behavioral cloning inverse reinforcement learning active learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献13

1何柯文,张佳辰,刘晓光,王刚.新型存储设备上重复数据删除指纹查找优化[J].计算机研究与发展,2020,57(2):269-280. 被引量：8
2贺秦禄,边根庆,邵必林,张维琪.移动闪存的重复数据删除技术[J].西安电子科技大学学报,2020,47(1):128-134. 被引量：8
3唐鑫,周琳娜,单伟杰,刘丹.基于阈值重加密的抗边信道攻击云数据安全去重方法[J].通信学报,2020,41(6):98-111. 被引量：24
4张雷,崔荣一.基于编辑距离的词序敏感相似度度量方法[J].延边大学学报（自然科学版）,2020,46(2):140-144. 被引量：5
5李生虎,张浩.风电系统振荡模式对DFIG-PSS传递函数的灵敏度分析[J].电力系统保护与控制,2020,48(16):11-17. 被引量：9
6李晖,刘栋,姚丹阳.面向碳达峰碳中和目标的我国电力系统发展研判[J].中国电机工程学报,2021,41(18):6245-6258. 被引量：362
7陈广,宋志伟,陈少兵,贺绍鹏,毛烨华,李泽坤.数据感知技术在电力物资供应链数据质量管理中的应用[J].科技管理研究,2021,41(18):182-191. 被引量：22
8高文静,咸鹤群,程润辉.基于双层加密和密钥共享的云数据去重方法[J].计算机学报,2021,44(11):2203-2215. 被引量：22
9俞加平,陈华辉,钱江波,董一鸿.LSM树中基于热度预测的异构布隆过滤器方案[J].电子学报,2021,49(11):2090-2095. 被引量：6
10卢梦煜,姜雪松,刘爽,林青.基于系统动力学的电力物资供应链区块化数据库研究[J].西安理工大学学报,2021,37(4):580-587. 被引量：8

引证文献1

1王艳艳,金义,钱诚,许晓艺.基于特征迭代的电力物资供应链数据去重研究[J].微型电脑应用,2024,40(4):144-148. 被引量：1

二级引证文献1

1栾丽萍.供应链管理导向下电力企业物资供应问题的研究[J].电力系统装备,2024(6):157-159.

1陈珊珊.立体几何审题——从表征到理解[J].中小学数学（高中版）,2021(9):57-59.
2韩亚文,王婧.任务复杂度对英语学习者议论文写作表现的影响研究[J].浙江外国语学院学报,2021(3):56-64.
3李娟莉,李梦辉,谢嘉成,王学文,张鑫.分布式实时运行数据驱动的液压支架群虚拟监测关键技术[J].北京理工大学学报,2021,41(10):1023-1033. 被引量：5

南京航空航天大学学报

2021年第5期

浏览历史

内容加载中请稍等...

基于示范主动采样的行为克隆方法被引量：1

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于示范主动采样的行为克隆方法 被引量：1

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于示范主动采样的行为克隆方法被引量：1