多智能体博弈学习研究进展被引量：1

Research progress of multi-agent learning in games

下载PDF

导出

摘要随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手,首先给出了多智能体学习系统组成,进行了多智能体学习概述,简要介绍了各类多智能体学习研究方法。其次,围绕多智能体博弈学习框架,介绍了多智能体博弈基础模型及元博弈模型,均衡解概念和博弈动力学,学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次,全面梳理了多智能体博弈策略学习方法,离线博弈策略学习方法,在线博弈策略学习方法。最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。 The new wave of artificial intelligence brought about by deep learning and reinforcement learning provides an“end-to-end”solution for agents from perception input to action decision-making output.Multi-agent learning is a frontier subject in the field of intelligent game confrontation,and it faces many problems and challenges such as adversarial environments,non-stationary opponents,incomplete information and uncertain actions.This paper starts from the perspective of game theory,firstly gives the organization of multi-agent learning system,gives an overview of multi-agent learning,and briefly introduces the classification of various multi-agent learning research methods.Secondly,based on the multi-agent learning framework in games,it introduces the basic multi-agent game and meta-game models,game solution concepts and game dynamics,as well as challenges such as diverse learning objectives,non-stationary environment(opponent),and equilibrium hard to compute and easy to transfer.Then comprehensively sort out the multi-agent game strategy learning methods,offline game strategy learning methods and online game strategy learning methods.Finally,some frontiers of multi-agent learning are discussed from three aspects of agent cognitive behavior modelling and collaboration,general game strategy learning methods,and distributed game strategy learning framework.

作者罗俊仁张万鹏苏炯铭袁唯淋陈璟 LUO Junren;ZHANG Wanpeng;SU Jiongming;YUAN Weilin;CHEN Jing(College of Intelligence Science and Technology,National University of Defense Technology,Changsha 410073,China)

机构地区国防科技大学智能科学学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2024年第5期1628-1655,共28页 Systems Engineering and Electronics

基金国家自然科学基金(61806212) 湖南省研究生科研创新项目(CX20210011)资助课题。

关键词博弈学习多智能体学习元博弈在线无悔学习 learning in games multi-agent learning meta-game online no regret learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1Li ZHANG,Yuxuan CHEN,Wei WANG,Ziliang HAN,Shijian Li,Zhijie PAN,Gang PAN.A Monte Carlo Neural Fictitious Self-Play approach to approximate Nash Equilibrium in imperfect-information dynamic games[J].Frontiers of Computer Science,2021,15(5):137-150. 被引量：4

二级参考文献98

1王皓,高阳.元博弈平衡和多Agent强化学习的MetaQ算法[J].计算机研究与发展,2006,43(z1):137-141. 被引量：2
2范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
3任燚,陈宗海.基于强化学习算法的多机器人系统的冲突消解策略[J].控制与决策,2006,21(4):430-434. 被引量：7
4曾鹏,吴玲达,魏迎梅.战术计划识别模型的分析、描述与设计[J].计算机与数字工程,2006,34(9):1-4. 被引量：5
5周浦城,洪炳镕,黄庆成.一种新颖的多agent强化学习方法[J].电子学报,2006,34(8):1488-1491. 被引量：8
6郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
7JIANG Da-Wei WANG Shi-Yuan DONG Yi-Sheng.Role-based Context-specific Multiagent Q-learning[J].自动化学报,2007,33(6):583-587. 被引量：1
8赵杰,姜健,臧希喆.基于强化学习的多机器人编队导航[J].辽宁工程技术大学学报（自然科学版）,2007,26(6):915-918. 被引量：1
9段勇,杨淮清,崔宝侠,徐心和.强化学习在足球机器人基本动作学习中的应用[J].机器人,2008,30(5):453-459. 被引量：6
10胡桐清,陈亮.军事智能辅助决策的理论与实践[J].军事运筹与系统工程,1995,9(Z1):3-10. 被引量：14

共引文献236

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
6徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：10
7李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：42
8谢育星,陆屹,管聪,纪德东.协同空战与多智能体强化学习下的关键问题[J].飞机设计,2023,43(1):6-10.
9王万富,王琢,刘佳鑫,韩亚辉,李春波.基于Qt/Embedded的农林智能装备导航定位算法研究及软件设计[J].国外电子测量技术,2022,41(3):63-68. 被引量：4
10A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2

同被引文献4

1邹启杰,蒋亚军,高兵,李文雪,张汝波.协作多智能体深度强化学习研究综述[J].航空兵器,2022,29(6):78-88. 被引量：7
2沈旺,时倩如,王俊尧,李贺,梁世豪.基于超图的在线社交网络信息传播模型研究[J].情报学报,2023,42(3):354-364. 被引量：3
3汪子航,言鹏韦,蒋卓人.基于可解释图神经网络模型的社交媒体谣言识别研究[J].情报学报,2023,42(11):1369-1381. 被引量：1
4李纲,周华阳,毛进,陈思菁.基于机器学习的社交媒体用户分类研究[J].数据分析与知识发现,2019,3(8):1-9. 被引量：4

引证文献1

1魏丽珍.AI智能体在社交网络数据分析中的应用与创新[J].互联网周刊,2024(16):21-23.

1鲍羽鹤,王海光.中职物理教学中学生创新能力的培养探究[J].中国科技经济新闻数据库教育,2023(4):5-8.
2无.技术赋能让物流冷链更“鲜活”[J].现代制造,2023(12):57-57.
3潘锋(文/图),张清涵(文/图).中国工程院《全球工程前沿2023》报告发布遴选10项生物医学前沿研究方向[J].中国医药科学,2024,14(4):1-4.
4沈华,田晨,郭森森,慕志颖.基于对抗性机器学习的网络入侵检测方法研究[J].信息网络安全,2023(8):66-75. 被引量：2
5罗俊仁,张万鹏,袁唯淋,胡振震,陈少飞,陈璟.面向多智能体博弈对抗的对手建模框架[J].系统仿真学报,2022,34(9):1941-1955. 被引量：8
6王英杰,袁利,汤亮,黄煌,耿远卓.信息非完备下多航天器轨道博弈强化学习方法[J].宇航学报,2023,44(10):1522-1533.
7赵子天,詹文翰,段翰聪,吴跃.基于SVD的深度学习模型对抗鲁棒性研究[J].计算机科学,2023,50(10):362-368.
8王道蕴.智能照明系统在国内地铁项目中的应用研究[J].绿色建造与智能建筑,2024(1):118-120.
9杨玉泽,刘文霞,李承泽,刘耕铭,张帅,张艺伟.面向电力SCADA系统的FDIA检测方法综述[J].中国电机工程学报,2023,43(22):8602-8621. 被引量：3
10鲁宇琦,魏长赟.海上布防任务中无人艇对可疑目标的驱逐方法研究[J].无人系统技术,2023,6(4):51-60. 被引量：1

系统工程与电子技术

2024年第5期

浏览历史

内容加载中请稍等...

多智能体博弈学习研究进展被引量：1

参考文献1

二级参考文献98

共引文献236

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

多智能体博弈学习研究进展 被引量：1

参考文献1

二级参考文献98

共引文献236

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

多智能体博弈学习研究进展被引量：1