基于相对熵的元逆强化学习方法被引量：3

Meta-inverse Reinforcement Learning Method Based on Relative Entropy

下载PDF

导出

摘要针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提算法与REIRL算法应用于经典的Gridworld和Object World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数。 Aiming at the problem that traditional inverse reinforcement learning algorithms are slow,imprecise,or even unsolvable when solving the reward function owing to insufficient expert demonstration samples and unknown state transition probabilitie,a meta-reinforcement learning method based on relative entropy is proposed.Using meta-learning methods,the target task learning prior is constructed by integrating a set of meta-training sets that meet the same distribution as the target task.In the model-free reinforcement learning problem,the relative entropy probability model is used to model the reward function and combined with the prior to achieve the goal of quickly solving the reward function of the target task using a small number of samples of the target task.The proposed algorithm and the RE IRL algorithm are applied to the classic Gridworld and Object World pro-blems.Experiments show that the proposed algorithm can still solve the reward function better when the target task lacks a sufficient number of expert demonstration samples and state transition probabilities information.

作者吴少波傅启明陈建平吴宏杰陆悠 WU Shao-bo;FU Qi-ming;CHEN Jian-ping;WU Hong-jie;LU You(School of Electronics and Information Engineering,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China;Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China;Suzhou Key Laboratory of Mobile Network Technology and Application,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China)

机构地区苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室

出处《计算机科学》 CSCD 北大核心 2021年第9期257-263,共7页 Computer Science

基金国家自然科学基金项目(61876217,61876121,61772357,61750110519,61772355,61702055,61672371) 江苏省重点研发计划项目(BE2017663)。

关键词逆强化学习元学习奖赏函数相对熵梯度下降 Inverse reinforcement learning Meta-learning Reward function Relative entropy Gradient decent

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献16

1金卓军,钱徽,陈沈轶,朱淼良.基于回报函数逼近的学徒学习综述[J].华中科技大学学报（自然科学版）,2008,36(S1):288-290. 被引量：2
2赵萌,邱菀华.基于相对熵的三参数区间值模糊集多属性决策方法[J].统计与决策,2012,28(6):58-61. 被引量：5
3赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
4张红梅,朱海,张目,陈志强.基于相对熵的县域新型城镇化发展水平评价[J].统计与决策,2017,33(18):66-68. 被引量：11
5朱成莲.两个广义伽玛分布之间的相对熵及其性质[J].统计与决策,2017,33(24):30-34. 被引量：3
6陈建平,陈其强,傅启明,高振,吴宏杰,陆悠.基于生成对抗网络的最大熵逆强化学习[J].计算机工程与应用,2019,55(22):119-126. 被引量：3
7柴天佑.工业人工智能发展方向[J].自动化学报,2020,46(10):2005-2012. 被引量：56
8凌连新,阳国亮.粤港澳大湾区经济高质量发展评价[J].统计与决策,2020(24):94-97. 被引量：20
9李凡长,刘洋,吴鹏翔,董方,蔡奇,王哲.元学习研究综述[J].计算机学报,2021,44(2):422-446. 被引量：68
10聂凯,孟庆海.基于层次情节性元强化学习的对抗行为评估[J].指挥控制与仿真,2021,43(2):65-71. 被引量：2

引证文献3

1苑慧芳,赵学超,吕长青.广义误差分布熵系数与最小相对熵的研究[J].枣庄学院学报,2023,40(2):36-42.
2陈奕宇,霍静,丁天雨,高阳.元强化学习研究综述[J].软件学报,2024,35(4):1618-1650.
3宋莉,李大字,徐昕.逆强化学习算法、理论与应用研究综述[J].自动化学报,2024,50(9):1704-1723.

1钱绕芳.运用“双直角三角形”模型快速求解测距问题[J].课程教材教学研究（中教研究）,2021(5):67-70.
2梁晨,王卫红,赖超.带攻击角度约束的深度强化元学习制导律[J].宇航学报,2021,42(5):611-620. 被引量：16
3彭逸铭,揭佳豪.多状态Markov模型在长护险精算中的运用——基于CHARLS数据[J].保险职业学院学报,2021,35(4):66-73.
4王万金,张志国.动态规划在多源遥测参数优选中的应用[J].电子技术与软件工程,2021(16):162-166.
5周宸宇,冯成,王毅.基于移动用户接入控制的5G通信基站需求响应[J].中国电机工程学报,2021,41(16):5452-5461. 被引量：41
6胡国清,陈辽林,刘谦波,戈明亮,JAHANGIR Alam SM.结合特征置信度的背景感知相关滤波跟踪算法[J].现代电子技术,2021,44(17):72-79. 被引量：2

计算机科学

2021年第9期

浏览历史

内容加载中请稍等...

基于相对熵的元逆强化学习方法被引量：3

同被引文献16

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于相对熵的元逆强化学习方法 被引量：3

同被引文献16

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于相对熵的元逆强化学习方法被引量：3