基于延迟策略的最大熵优势演员评论家算法被引量：1

Maximum Entropy Superior Actor-critic Algorithm Based on Delay Strategy

下载PDF

导出

摘要在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致计算最优策略的过程产生较大的波动,算法难以收敛.针对上述问题,提出了一种基于延迟策略的最大熵优势演员评论家强化学习算法(DAAC).DAAC算法基于传统的策略梯度演员评论家算法框架,使用了两个评论家网络,分别计算状态值函数和动作的优势估计值函数并最大化目标策略的预期熵,在评论家网络中使用延迟策略更新的技巧.该算法在基于Linux平台的OpenAI Gym的物理仿真模拟器Mu JoCo进行了实验,并与传统的强化学习算法DQN,TRPO,DDPG在不同的机器人模拟器中作对比,实验结果表明,DAAC算法有效地降低了计算过程的波动性,使策略更快收敛到最优解并获得了更高的奖励值. In reinforcement learning,the agent obtains the reward value by interacting with the environment,and the higher reward value requires a better strategy,but in the high-dimensional complex environment,the traditional reinforcement learning algorithm has a higher sample complexity and will have higher complexity.The estimation problem has been generated,which leads to large fluctuations in the process of calculating the optimal strategy,and the algorithm is difficult to converge.Aiming at the above problems,a maximum entropy dominant actor critic reinforcement learning algorithm(DAAC)based on delay strategy is proposed.Based on the traditional strategy gradient actor critic algorithm framework,the DAAC algorithm uses two critics networks to calculate the state value function and the action’s advantage estimate function and maximize the expected entropy of the target strategy.The delay strategy is used in the critic network.Updated tips.The algorithm is tested on the virtual simulation simulator Mu JoCo of OpenAI Gym based on Linux platform,and compared with the traditional reinforcement learning algorithms DQN,TRPO,DDPG in different robot simulators.The experimental results show that the DAAC algorithm effectively reduces The volatility of the calculation process allow s the strategy to converge to the optimal solution more quickly and obtain higher reward values.

作者祁文凯桑国明 QI Wen-kai;SANG Guo-ming(College of Information Science and Technology,Dalian Maritime University,Dalian 116026,China)

机构地区大连海事大学信息科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2020年第8期1656-1664,共9页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61672122)资助中央高校基本科研业务费“十三五”重点科研项目(3132016348)资助中央高校基本科研业务费项目(3132019207)资助。

关键词强化学习策略梯度延迟更新最大熵演员评论家网络 reinforcement learning strategy gradient delayed update maximum entropy actor-critic network

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1徐西建,王子磊,奚宏生.基于深度强化学习的流媒体边缘云会话调度策略[J].计算机工程,2019,45(5):237-242. 被引量：8
2朱斐,朱海军,刘全,陈冬火,伏玉琛.一种解决连续空间问题的真实在线自然梯度AC算法[J].软件学报,2018,29(2):267-282. 被引量：5
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：484
4张泽苗,霍欢,赵逢禹.深层卷积神经网络的目标检测算法综述[J].小型微型计算机系统,2019,40(9):1825-1831. 被引量：62

二级参考文献13

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：628
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：614
6朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
7傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
8黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
9杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：29
10李军,倪宏,王玲芳,陈君.流媒体系统中基于请求迁移的任务调度算法[J].吉林大学学报（工学版）,2015,45(3):938-945. 被引量：2

共引文献553

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：46
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：8
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9杨栩.基于卷积神经网络的数字图像特征降维算法[J].信息通信,2019,0(11):42-44.
10刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2

同被引文献9

1陈丽丽,牟龙华,许旭锋,刘爽.储能装置运行策略及运行特性对微电网可靠性的影响[J].电力自动化设备,2017,37(7):70-76. 被引量：21
2杨健,唐飞,廖清芬,朱学栋,闫秉科.考虑可再生能源随机性的微电网经济性与稳定性协调优化策略[J].电力自动化设备,2017,37(8):179-184. 被引量：14
3陈希亮,曹雷,李晨溪,徐志雄,何明.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606. 被引量：24
4王皓,艾芊,吴俊宏,谢胤喆,周晓倩.基于交替方向乘子法的微电网群双层分布式调度方法[J].电网技术,2018,42(6):1718-1725. 被引量：73
5刘一欣,郭力,王成山.微电网两阶段鲁棒优化经济调度方法[J].中国电机工程学报,2018,38(14):4013-4022. 被引量：214
6李彬,彭曙蓉,彭君哲,黄士峻,郑国栋.基于深度学习分位数回归模型的风电功率概率密度预测[J].电力自动化设备,2018,38(9):15-20. 被引量：42
7骆钊,卢涛,马瑞,刘兴琳,朱东歌,王浩.可再生能源配额制下多园区综合能源系统优化调度[J].电力自动化设备,2021,41(4):8-14. 被引量：36
8黄张浩,张亚超,郑峰,林佳壕,安学利,史晗.基于不同利益主体协调优化的主动配电网日前–实时能量管理方法[J].电网技术,2021,45(6):2299-2307. 被引量：25
9夏超英,苗海丽.基于二次型最优控制的微电网实时能量管理策略[J].中国电机工程学报,2019,39(3):721-730. 被引量：9

引证文献1

1刘林鹏,朱建全,陈嘉俊,叶汉芳.基于柔性策略-评价网络的微电网源储协同优化调度策略[J].电力自动化设备,2022,42(1):79-85. 被引量：15

二级引证文献15

1朱永明.基于动态规划方法的微电网实时能量调度优化[J].机电信息,2022(7):14-16. 被引量：2
2刘俊峰,王晓生,卢俊菠,曾君.基于多主体博弈和强化学习的多微网系统协同优化研究[J].电网技术,2022,46(7):2722-2732. 被引量：13
3雷何,方仍存,杨东俊,黄志强,黄萌.基于改进二阶粒子群算法的微电网群优化调度[J].武汉大学学报（工学版）,2022,55(9):894-900. 被引量：6
4谭志广,杨栩,黄洪达,谢国喜,吴玉生.基于深度神经网络的分布式智能微电网群间能量优化调度仿真模型[J].电工技术,2023(6):104-106. 被引量：1
5马恺珧,王国庆,于雷.不确定性环境下微电网优化调度综述[J].工程研究（跨学科视野中的工程）,2023,15(2):93-103. 被引量：1
6盛夏.智能微电网的能源优化策略与智能控制[J].电力系统装备,2023(8):79-80.
7尹昕,赖锦木,尹项根,王要强,尹越,胡家玄.微电网混合型联网变压器及其故障阻隔协调控制[J].电力自动化设备,2023,43(10):145-151. 被引量：2
8冯斌,胡轶婕,黄刚,姜威,徐华廷,郭创新.基于深度强化学习的新型电力系统调度优化方法综述[J].电力系统自动化,2023,47(17):187-199. 被引量：16
9黄蔓云,费有蝶,卫志农,郑玉平,孙国强,臧海祥.高比例新能源下的交直流配电网预测辅助区间状态估计[J].电力系统自动化,2023,47(16):34-43. 被引量：4
10王笑雪,高超,刘一欣,梁栋,侯世昌.计及多元不确定性的氢电耦合微电网多阶段动态规划方法[J].电力自动化设备,2023,43(12):77-83. 被引量：1

1吴波,柳毅.基于RCE的云存储动态所有权管理数据去重方案[J].计算机工程与应用,2020,56(5):101-108. 被引量：8
2高远宁,叶金标,杨念祖,高晓沨,陈贵海.基于中间层的可扩展学习索引技术[J].软件学报,2020,31(3):620-633. 被引量：14
3康朝海,孙超,荣垂霆,刘鹏云.基于动态延迟策略更新的TD3算法[J].吉林大学学报（信息科学版）,2020,38(4):474-481. 被引量：3
4李伟,郑澜波.基于约束规划的煤炭出港作业调度算法[J].物流技术,2020,39(8):40-45.
5董宏伟,王希.人工智能国际标准精彩纷呈[J].中国电信业,2020(7):58-62. 被引量：1
6姜志滨.含油浮渣絮凝脱水组合工艺的应用[J].中国金属通报,2020(6):252-252.

小型微型计算机系统

2020年第8期

浏览历史

内容加载中请稍等...

基于延迟策略的最大熵优势演员评论家算法被引量：1

参考文献4

二级参考文献13

共引文献553

同被引文献9

引证文献1

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于延迟策略的最大熵优势演员评论家算法 被引量：1

参考文献4

二级参考文献13

共引文献553

同被引文献9

引证文献1

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于延迟策略的最大熵优势演员评论家算法被引量：1