安全强化学习综述被引量：5

Safe Reinforcement Learning:A Survey

下载PDF

导出

摘要强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策略.但考虑到安全因素,很多现实世界的应用则要求限制智能体的随机探索行为.因此,安全问题成为强化学习从模拟到现实的一个重要挑战.近年来,许多研究致力于开发安全强化学习(Safe reinforcement learning,SRL)算法,在确保系统性能的同时满足安全约束.本文对现有的安全强化学习算法进行全面综述,将其归为三类:修改学习过程、修改学习目标、离线强化学习,并介绍了5大基准测试平台:Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL.最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用,并给出结论与展望. Reinforcement learning(RL)has proved a prominent success in the game of Go,video games,navigation,recommendation systems and other fields.However,a large number of reinforcement learning algorithms cannot be directly transplanted to real physical environment.This is because in the simulation scenario,the agent is able to interact with the environment in a trial-and-error manner to learn the optimal policy.Considering the safety of systems,many real-world applications require the limitation of random exploration behavior of agents.Hence,safety has become an essential factor for reinforcement learning from simulation to reality.In recent years,many researches have been devoted to develope safe reinforcement learning(SRL)algorithms that satisfy safety constraints while ensuring system performance.This paper presents a comprehensive survey of existing SRL algorithms,which are divided into three categories:Modification of learning process,modification of learning objective,and offline reinforcement learning.Furthermore,five experimental platforms are introduced,including Safety Gym,safe-controlgym,SafeRL-Kit,D4RL,and NeoRL.Lastly,the applications of SRL in the fields of autonomous driving,robot control,industrial process control,power system optimization,and healthcare are summarized,and the conclusion and perspective are briefly drawn.

作者王雪松王荣荣程玉虎 WANG Xue-Song;WANG Rong-Rong;CHENG Yu-Hu(School of Information and Control Engineering,China University of Mining and Technology,Xuzhou 221116)

机构地区中国矿业大学信息与控制工程学院

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第9期1813-1835,共23页 Acta Automatica Sinica

基金国家自然科学基金(62176259,61976215) 江苏省重点研发计划项目(BE2022095)资助。

关键词安全强化学习约束马尔科夫决策过程学习过程学习目标离线强化学习 Safe reinforcement learning(SRL) constrained Markov decision process(CMDP) learning process learning objective offline reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1朱斐,吴文,伏玉琛,刘全.基于双深度网络的安全深度强化学习方法[J].计算机学报,2019,42(8):1812-1826. 被引量：26
2代珊珊,刘全.基于动作约束深度强化学习的安全自动驾驶方法[J].计算机科学,2021,48(9):235-243. 被引量：13
3季颖,王建辉.基于深度强化学习的微电网在线优化调度[J].控制与决策,2022,37(7):1675-1684. 被引量：16
4赵恒军,李权忠,曾霞,刘志明.安全强化学习算法及其在CPS智能控制中的应用[J].软件学报,2022,33(7):2538-2561. 被引量：4
5刘健,顾扬,程玉虎,王雪松.基于多智能体强化学习的乳腺癌致病基因预测[J].自动化学报,2022,48(5):1246-1258. 被引量：6
6黄艳龙,徐德,谭民.机器人运动轨迹的模仿学习综述[J].自动化学报,2022,48(2):315-334. 被引量：11
7文载道,王佳蕊,王小旭,潘泉.解耦表征学习综述[J].自动化学报,2022,48(2):351-374. 被引量：6

二级参考文献18

1刘金华,柯钟鸣,周文辉.基于强化学习的微电网能源调度策略及优化[J].北京邮电大学学报,2020,43(1):28-34. 被引量：12
2傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
3段艳杰,吕宜生,张杰,赵学亮,王飞跃.深度学习在控制领域的研究现状与展望[J].自动化学报,2016,42(5):643-654. 被引量：147
4肖浩,裴玮,孔力.基于模型预测控制的微电网多时间尺度协调优化调度[J].电力系统自动化,2016,40(18):7-14. 被引量：136
5张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305. 被引量：243
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：456
7林懿伦,戴星原,李力,王晓,王飞跃.人工智能研究的新前线：生成式对抗网络[J].自动化学报,2018,44(5):775-792. 被引量：82
8翟正利,梁振明,周炜,孙霞.变分自编码器模型综述[J].计算机工程与应用,2019,55(3):1-9. 被引量：56
9秦方博,徐德.机器人操作技能模型综述[J].自动化学报,2019,45(8):1401-1418. 被引量：25
10王晓峰,杨亚东.基于生态演化的通用智能系统结构模型研究[J].自动化学报,2020,46(5):1017-1030. 被引量：4

共引文献74

1姜明宇,张翠平,金子潇.自动驾驶环境下的网络安全预警系统设计[J].智能计算机与应用,2022,12(5):129-131. 被引量：2
2曾运强.大数据时代医院网络安全防御架构研究与设计[J].现代信息科技,2020,4(6):161-162. 被引量：5
3景栋盛,薛劲松,冯仁君.基于深度Q网络的垃圾邮件文本分类方法[J].计算机与现代化,2020,0(6):89-94. 被引量：1
4张登.基于K-means方法的广播电视网络安全框架研究[J].中国新技术新产品,2020(5):15-17. 被引量：1
5张俊杰,张聪,赵涵捷.重复利用状态值的竞争深度Q网络算法[J].计算机工程与应用,2021,57(4):134-140. 被引量：5
6PENG Pai,ZHU Fei,LIU Quan,ZHAO Peiyao,WU Wen.Achieving Safe Deep Reinforcement Learning via Environment Comprehension Mechanism[J].Chinese Journal of Electronics,2021,30(6):1049-1058. 被引量：2
7李秀峰,王崇霞.基于多信息融合的光纤网络威胁智能感知方法[J].激光杂志,2021,42(10):138-142. 被引量：5
8齐蓬勃,李凡,高雯.基于多智能体强化学习的分布式停电检修管控系统设计[J].电子设计工程,2021,29(23):41-45. 被引量：3
9刘跃鸿.一种基于人工智能的多层次网络安全体系研究与设计[J].网络安全技术与应用,2021(12):30-31.
10张思松.基于深度强化学习算法的高能效数据负载均衡方法[J].安阳工学院学报,2022,21(2):43-46. 被引量：1

同被引文献20

1刘春华,项海帆,顾明.大跨度桥梁抖振响应的空间非线性时程分析法[J].同济大学学报（自然科学版）,1996,24(4):380-385. 被引量：19
2陈学华,贺振华,黄德济.广义S变换及其时频滤波[J].信号处理,2008,24(1):28-31. 被引量：66
3陈学华,贺振华,黄德济,文晓涛.时频域油气储层低频阴影检测[J].地球物理学报,2009,52(1):215-221. 被引量：114
4马麟,刘健新,韩万水,吉伯海.基于Hilbert-Huang变换的大跨桥梁非线性抖振响应时频分析[J].振动与冲击,2010,29(11):237-241. 被引量：6
5吴文超,黄长强,宋磊,唐上钦,白壬潮.不确定环境下的多无人机协同搜索航路规划[J].兵工学报,2011,32(11):1337-1342. 被引量：23
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：456
7张伟,王乃新,魏世琳,杜雪,严浙平.水下无人潜航器集群发展现状及关键技术综述[J].哈尔滨工程大学学报,2020,41(2):289-297. 被引量：48
8罗志远,丰硕,刘小峰,陈俊风,王瑞.一种基于分步遗传算法的多无人清洁车区域覆盖路径规划方法[J].电子测量与仪器学报,2020,32(8):43-50. 被引量：18
9李波,杨志鹏,贾卓然,马浩.一种无监督学习型神经网络的无人机全区域侦察路径规划[J].西北工业大学学报,2021,39(1):77-84. 被引量：8
10Majid Mazouchi,Subramanya Nageshrao,Hamidreza Modares.Conflict-Aware Safe Reinforcement Learning:A Meta-Cognitive Learning Framework[J].IEEE/CAA Journal of Automatica Sinica,2022,9(3):466-481. 被引量：2

引证文献5

1李松,麻壮壮,张蕴霖,邵晋梁.基于安全强化学习的多智能体覆盖路径规划[J].兵工学报,2023,44(S02):101-113.
2张昌昕,张兴龙,徐昕,陆阳.安全强化学习及其在机器人系统中的应用综述[J].控制理论与应用,2023,40(12):2090-2103. 被引量：1
3王雪松,王荣荣,程玉虎.基于表征学习的离线强化学习方法研究综述[J].自动化学报,2024,50(6):1104-1128.
4曹黎媛,张震雨,李春祥.基于深度强化学习调控的非平稳风速模拟[J].上海大学学报（自然科学版）,2024,30(3):451-465.
5周毅,高华,田永谌.基于裁剪优化和策略指导的近端策略优化算法[J].计算机应用,2024,44(8):2334-2341.

二级引证文献1

1焦亮.机器人故障预测与维修中机器学习算法的应用[J].设备管理与维修,2024(12):158-160.

1姚帅.一种新的源网荷储协调电力系统扩容规划模型[J].中文科技期刊数据库（全文版）工程技术,2023(9):29-33.
2靳皎,杨会民,权亚文,王维,吴升潇.基于物理吸附的炭基储氢材料研究进展[J].煤炭加工与综合利用,2023(8):74-78. 被引量：1
3王琦焕.基于云边协同的分布式电源运行控制方法[J].通信电源技术,2023,40(12):100-102.
4罗瑞成.试论电力现货市场前瞻优化的周期选择[J].中国科技期刊数据库工业A,2023(9):45-48.
5《中国医院管理》杂志理事会常务理事单位选登[J].中国医院管理,2023,43(9).
6徐威.基于Amesim的液压伺服阀参数辨识方法的研究[J].甘肃科技,2023,39(7):29-32.
7晋继勇,吴谨轩.拜登政府的生物安全政策及其对中国的生物安全“竞赢”战略[J].国际安全研究,2023,41(4):130-155. 被引量：1
8宋铁城.配电网中基于DSP的动态无功补偿装置研究[J].电气时代,2023(9):62-63. 被引量：1
9赵越桃,胡雅慧,郭宏丽,章媛媛,王洁,陈峰.治疗药物监测在西罗莫司用于儿童期脉管异常中的研究进展[J].南京医科大学学报（自然科学版）,2023,43(9):1319-1323. 被引量：1
10幸林泉,肖应民,杨志斌,韦正旻,周勇,高赛军.基于安全强化学习的航天器交会制导方法[J].计算机科学,2023,50(8):271-279. 被引量：1

自动化学报

2023年第9期

浏览历史

内容加载中请稍等...

安全强化学习综述被引量：5

参考文献7

二级参考文献18

共引文献74

同被引文献20

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

安全强化学习综述 被引量：5

参考文献7

二级参考文献18

共引文献74

同被引文献20

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

安全强化学习综述被引量：5