基于因果建模的强化学习控制:现状及展望被引量：3

Causality in Reinforcement Learning Control:The State of the Art and Prospects

下载PDF

导出

摘要基于因果建模的强化学习技术在智能控制领域越来越受欢迎.因果技术可以挖掘控制系统中的结构性因果知识,并提供了一个可解释的框架,允许人为对系统进行干预并对反馈进行分析.量化干预的效果使智能体能够在复杂的情况下(例如存在混杂因子或非平稳环境)评估策略的性能,提升算法的泛化性.本文旨在探讨基于因果建模的强化学习控制技术(以下简称因果强化学习)的最新进展,阐明其与控制系统各个模块的联系.首先介绍了强化学习的基本概念和经典算法,并讨论强化学习算法在变量因果关系解释和迁移场景下策略泛化性方面存在的缺陷.其次,回顾了因果理论的研究方向,主要包括因果效应估计和因果关系发现,这些内容为解决强化学习的缺陷提供了可行方案.接下来,阐释了如何利用因果理论改善强化学习系统的控制与决策,总结了因果强化学习的四类研究方向及进展,并整理了实际应用场景.最后,对全文进行总结,指出了因果强化学习的缺点和待解决问题,并展望了未来的研究方向. Causality research has shown its potential and advantages in the reinforcement learning community.Beyond the inherent capability of inferring causal structure from data,causality provides an explainable toolset for investigating how a system would react to an intervention.Quantifying the effects of interventions allows actionable decisions to be made while maintaining robustness in the complex system(e.g.,in the presence of confounders or under nonstationary environments).This paper explores how causality can be incorporated into different aspects of control systems and introduces recent advances in causal reinforcement learning.First,the concept and algorithms of reinforcement learning are introduced,and two main challenges,e.g.,lack of causal explanation of observation variables and hard to transfer in transferable environments,are discussed.Second,the lines of research within causality are reviewed,including causal effect estimation and causal discovery,which provide potential solutions to address the aforementioned challenges.After that,how to embed causality in reinforcement learning systems is introduced.Four kinds of research advances in causal reinforcement learning are summarized and analyzed,followed by real-world applications.Finally,this paper summarizes and presents opening problems and future work prospects.

作者孙悦雯柳文章孙长银 SUN Yue-Wen;LIU Wen-Zhang;SUN Chang-Yin(School of Automation,Southeast University,Nanjing 210096;School of Artificial Intelligence,Anhui University,Hefei 230601;Engineering Research Center of Autonomous Unmanned System Technology,Ministry of Education,Hefei 230601;Anhui Unmanned System and Intelligent Technology Engineering Research Center,Hefei 230601)

机构地区东南大学自动化学院安徽大学人工智能学院自主无人系统技术教育部工程研究中心安徽省无人系统与智能技术工程研究中心

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第3期661-677,共17页 Acta Automatica Sinica

基金国家自然科学基金(62236002,61921004)资助。

关键词强化学习控制因果发现因果推理迁移学习表示学习 Reinforcement learning control causal discovery causal inference transfer learning representation learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP13 [自动化与计算机技术—控制科学与工程]

引文网络
相关文献

参考文献4

1孙长银,吴国政,王志衡,丛杨,穆朝絮,贺威.自动化学科面临的挑战[J].自动化学报,2021,47(2):464-474. 被引量：14
2李鸿一,王琰,姚得银,周琪,鲁仁全.基于事件触发机制的多四旋翼无人机鲁棒自适应滑模姿态控制[J].中国科学：信息科学,2023,53(1):66-80. 被引量：11
3李家宁,熊睿彬,兰艳艳,庞亮,郭嘉丰,程学旗.因果机器学习的前沿进展综述[J].计算机研究与发展,2023,60(1):59-84. 被引量：17

二级参考文献17

1王成红,宋苏,刘允刚.国家自然科学基金与我国控制理论与控制工程学科的发展[J].中国基础科学,2010,12(6):38-42. 被引量：7
2吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
3苗旺,刘春辰,耿直.因果推断的统计方法[J].中国科学：数学,2018,48(12):1753-1778. 被引量：38
4杨浩,姜斌,周东华.互联系统容错控制的研究回顾与展望[J].自动化学报,2017,43(1):9-19. 被引量：19
5Nan-ning ZHENG,Zi-yi LIU,Peng-ju REN,Yong-qiang MA,Shi-tao CHEN,Si-yu YU,Jian-ru XUE,Ba-dong CHEN,Fei-yue WANG.Hybrid-augmented intelligence： collaboration and cognition[J].Frontiers of Information Technology & Electronic Engineering,2017,18(2):153-179. 被引量：68
6钱锋,杜文莉,钟伟民,唐漾.石油和化工行业智能优化制造若干问题及挑战[J].自动化学报,2017,43(6):893-901. 被引量：71
7邓方,宋苏,刘克,吴国政,付俊.国家自然科学基金自动化领域数据分析与研究热点变化[J].自动化学报,2018,44(2):377-384. 被引量：10
8王飞跃,张军,张俊,王晓.工业智联网:基本概念、关键技术与核心应用[J].自动化学报,2018,44(9):1606-1617. 被引量：61
9柴天佑.自动化科学与技术发展方向[J].自动化学报,2018,44(11):1923-1930. 被引量：47
10吴国政.从F03项目资助情况分析我国自动化学科的发展现状与趋势[J].自动化学报,2019,45(9):1611-1619. 被引量：9

共引文献39

1王瑞华.自动化全流程智能控制技术的研究与应用[J].自动化博览,2021,38(9):76-79.
2郭建国,杨胜江,鲁宁波,王国庆.基于Lyapunov方程的高超声速飞行器变结构控制[J].现代防御技术,2021,49(6):1-8. 被引量：2
3钱辰,旷怡,章兢.基于前门调整法的“项目式学习”过程考核设计与课程质量评价[J].电气技术,2022,23(10):74-79. 被引量：2
4孙利杰.职业教育中的信息化与智能化教学实践[J].集成电路应用,2022,39(9):296-297. 被引量：2
5田启岩,李硕,杨丽英,邵士亮,张弼,高岳,帅梅.北京2022年冬奥会和冬残奥会火炬传递机器人[J].机器人,2022,44(5):513-521. 被引量：1
6张威.一流学科背景下自动化学科师资队伍建设路径研究——以东北大学信息科学与工程学院为例[J].控制工程,2022,29(12):2383-2387. 被引量：1
7王睿,孙秋野,张化光.信息能源系统的信-物融合稳定性分析[J].自动化学报,2023,49(2):307-316. 被引量：4
8于跃飞,林国怀,郭子杰,李鸿一.基于固定时间的多无人机系统自适应姿态控制[J].聊城大学学报（自然科学版）,2023,36(1):11-23.
9李天梅,司小胜,张建勋.多源传感监测线性退化设备数模联动的剩余寿命预测方法[J].航空学报,2023,44(8):89-107. 被引量：5
10柯昌元.基于改进遗传算法的四旋翼无人机飞行姿态测量方法[J].信息记录材料,2023,24(5):163-165.

同被引文献19

1孟兆新,曹甲甲,朱莉,马婧尧,石晋菘.木材曲线锯送料平台动力学解析及补偿控制策略研究[J].北京林业大学学报,2020,42(2):159-166. 被引量：2
2NI Yanbing,WU Nan,ZHONG Xueyong,ZHANG Biao.Dimensional Synthesis of a 3-DOF Parallel Manipulator with Full Circle Rotation[J].Chinese Journal of Mechanical Engineering,2015,28(4):830-840. 被引量：10
3陈珂锐,孟小峰.机器学习的可解释性[J].计算机研究与发展,2020,57(9):1971-1986. 被引量：48
4朱莉,马婧尧,孟兆新,石晋菘,邢鑫,姜中金.基于自适应遗传优化递归神经网络的木工送料平台补偿控制研究[J].北京林业大学学报,2020,42(12):125-134. 被引量：2
5邵兴德,张继娟,杜莹,张仲凤.基于NX的硬木家具模件参数化设计方法[J].林产工业,2021,58(2):48-51. 被引量：11
6刘健,顾扬,程玉虎,王雪松.基于多智能体强化学习的乳腺癌致病基因预测[J].自动化学报,2022,48(5):1246-1258. 被引量：6
7张健,姜夏,史晓宇,程健,郑岳标.基于离线强化学习的交叉口生态驾驶控制[J].东南大学学报（自然科学版）,2022,52(4):762-769. 被引量：5
8王硕汝,牛温佳,童恩栋,陈彤,李赫,田蕴哲,刘吉强,韩臻,李浥东.强化学习离线策略评估研究综述[J].计算机学报,2022,45(9):1926-1945. 被引量：2
9褚江依,王斯栋,惠建平,张凤毫,江京辉.机械处理对落叶松原木干燥与力学性能的影响[J].林产工业,2022,59(10):23-27. 被引量：3
10张博玮,郑建飞,胡昌华,裴洪,董青.基于流模型的缺失数据生成方法在剩余寿命预测中的应用[J].自动化学报,2023,49(1):185-196. 被引量：4

引证文献3

1朱莉,王猛,孟兆新,李博,乔际冰.基于强化学习的木工送料平台误差控制研究[J].林产工业,2023,60(11):38-45.
2王雪松,王荣荣,程玉虎.基于表征学习的离线强化学习方法研究综述[J].自动化学报,2024,50(6):1104-1128.
3龙享福,李少波,张仪宗,杨磊,李传江.因果学习方法和应用概述[J].计算机工程与应用,2024,60(24):1-19.

1蔡瑞初,伍运金,陈薇,郝志峰.面向多元时间序列的群体因果关系发现算法[J].计算机工程,2023,49(2):127-135.
2周旷,姜名.基于迁移学习的小样本目标识别研究进展与展望[J].航空科学技术,2023,34(2):1-9. 被引量：12
3陈飞,随婕斐,李智力,张泽强,秦芳,唐远,何东升.基于BP神经网络的双叶轮浮选机选矿效率预测研究[J].现代矿业,2023,39(1):207-210. 被引量：3
4林晓丽.腹腔镜肝叶切除术后患者早期下床活动的量化研究及应用效果[J].智慧健康,2020(30):68-69.
5董静,黄冬兰.量化干预模式在妊娠高血压综合征患者中的应用[J].当代护士（下旬刊）,2022,29(9):43-46.
6方慧苹,李婷婷,代小维,陈晓燕,邢秋萍.基于运动手环的运动量化干预对妊娠糖尿病患者血糖水平及围产期并发症的影响[J].妇儿健康导刊,2022,1(6):96-99.
7吴娇华,梁燕萍,黎小冰.步行运动精准量化干预对维持性血液透析病人的影响[J].全科护理,2020,18(4):441-443. 被引量：2
8董玲.应用手消剂量化监测标尺干预消毒供应中心下收下送人员的手卫生依从性研究[J].当代护士（上旬刊）,2020,27(6):136-137. 被引量：1
9张鑫洁,高婷婷,严钢.数据驱动的脑网络结构与动力学推理[J].人工智能,2022(6):74-80.
10王鑫.智慧电厂建设与智能发电技术应用探讨[J].中文科技期刊数据库（引文版）工程技术,2022(9):321-324.

自动化学报

2023年第3期

浏览历史

内容加载中请稍等...

基于因果建模的强化学习控制:现状及展望被引量：3

参考文献4

二级参考文献17

共引文献39

同被引文献19

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于因果建模的强化学习控制:现状及展望 被引量：3

参考文献4

二级参考文献17

共引文献39

同被引文献19

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于因果建模的强化学习控制:现状及展望被引量：3