基于动态自选择参数共享的合作多智能体强化学习算法被引量：1

A cooperative multi-agent reinforcement learning algorithm based on dynamic self-selection parameters sharing

下载PDF

导出

摘要在多智能体强化学习的研究中,参数共享作为学习过程中一种信息集中的方式,可以有效地缓解不稳定性导致的学习低效性。但是,在实际应用中智能体使用同样的策略往往会带来不利影响。为了解决此类过度共享的问题,提出了一种新的方法来赋予智能体自动识别可能受益于共享参数的智能体的能力,并且可以在学习过程中动态地选择共享参数的对象。具体来说,智能体需要将历史轨迹编码为可表示其潜在意图的隐信息,并通过与其余智能体隐信息的对比选择共享参数的对象。实验表明,提出的方法在多智能体系统中不仅可以提高参数共享的效率,同时保证了策略学习的质量。 In multi-agent reinforcement learning,parameter sharing can effectively alleviate the inefficiency of learning caused by non-stationarity.However,maintaining the same policy forall agents during learning may have detrimental ef-fects.To solve this problem,a new approach was introduced to give agents the ability to automatically identify agents that may benefit from parameter sharing and dynamically share parameters them during learning.Specifically,agents needed to encode empirical trajectories as implicit information that can represent their potential intentions,and selected peers to share parameters by comparing their intentions.Experiments show that the proposed method not only can improve the ef-ficiency of parameter sharing,but also ensure the quality of policy learning in multi-agent system.

作者王涵俞扬姜远 WANG Han;YU Yang;JIANG Yuan(State Key Laboratory for Novel Software Technology at Nanjing University,Nanjing 210023,China)

机构地区计算机软件新技术国家重点实验室(南京大学)

出处《智能科学与技术学报》 2022年第1期75-83,共9页 Chinese Journal of Intelligent Science and Technology

基金国家自然科学基金资助项目(No.61876077)。

关键词多智能体系统强化学习参数共享 multi-agent system reinforcement learning parameter sharing

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：456
2王飞跃,曹东璞,魏庆来.强化学习:迈向知行合一的智能机制与算法[J].智能科学与技术学报,2020(2):101-106. 被引量：12
3王金予,魏欣然,石文磊,张佳.强化学习在资源优化领域的应用[J].大数据,2021,7(5):131-149. 被引量：3
4刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42

二级参考文献19

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
2GARIBALDI Jonathan M,陈虹宇,李小双.差异与学习:模糊系统与模糊推理[J].智能科学与技术学报,2019,0(4):319-326. 被引量：6
3LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,0(3):219-227. 被引量：5
4张钹.人工智能进入后深度学习时代[J].智能科学与技术学报,2019,0(1):4-6. 被引量：42
5郑南宁.人工智能新时代[J].智能科学与技术学报,2019,0(1):1-3. 被引量：61
6魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
7高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
8王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
9孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：608
10余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：604

共引文献498

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5贾庆山,唐静娴,吴俊杰,胡潇,林依挺,夏恒.面向数据中心绿色可靠运行的强化学习方法[J].智能科学与技术学报,2020(4):341-347. 被引量：2
6刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
7韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
8李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：40
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
10李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1

同被引文献7

1黄凯奇,兴军亮,张俊格,倪晚成,徐博.人机对抗智能技术[J].中国科学：信息科学,2020,50(4):540-550. 被引量：27
2殷昌盛,杨若鹏,朱巍,邹小飞,李峰.多智能体分层强化学习综述[J].智能系统学报,2020,15(4):646-655. 被引量：23
3王涵,俞扬,姜远.基于通信的多智能体强化学习进展综述[J].中国科学：信息科学,2022,52(5):742-764. 被引量：8
4熊丽琴,曹雷,赖俊,陈希亮.基于值分解的多智能体深度强化学习综述[J].计算机科学,2022,49(9):172-182. 被引量：14
5王龙,黄锋.多智能体博弈、学习与控制[J].自动化学报,2023,49(3):580-613. 被引量：8
6Xiaotie Deng,Ningyuan Li,David Mguni,Jun Wang,Yaodong Yang.On the complexity of computing Markov perfect equilibrium in general-sum stochastic games[J].National Science Review,2023,10(1):283-296. 被引量：2
7李智,吕铁鑫,潘艳辉.联合全域作战智能博弈优化一体化决策问题[J].火力与指挥控制,2023,48(3):1-8. 被引量：4

引证文献1

1项凤涛,罗俊仁,谷学强,苏炯铭,张万鹏.群视角下的多智能体强化学习方法综述[J].智能科学与技术学报,2023,5(3):313-329. 被引量：1

二级引证文献1

1许波,贺一峻,李祥霞.面向数字货币量化交易的OAC模型研究[J].智能科学与技术学报,2024,6(2):220-231.

1成晓丽.学习型组织:提高小组合作学习有效性[J].现代中小学教育,2017,33(12):26-30. 被引量：10
2刘妹.摒弃低效合作彰显课堂活力——高中英语教学中解决小组合作学习低效性的策略研究[J].新课程（中学）,2017,0(6):11-12. 被引量：1
3周蕾蕾,毛锐.信息共享适度性与领导者的信息管控艺术[J].领导科学,2020(7):44-46. 被引量：1
4苏羽.预测阅读增乐趣策略学习提能力——《总也倒不了的老屋》(第一课时)教学设计[J].小学语文教学,2021(27):46-48.
5翟志刚,谢莉莉.大数据环境下隐私保护技术研究[J].网络空间安全,2019,10(8):7-13. 被引量：1
6周滢,李学娇,段博雅.基于COMSOL的电加热瑜伽垫模拟实验[J].文体用品与科技,2022(5):110-112.
7郑英雅.学习地图鹰架在图像化阅读策略教学中的应用研究[J].进展,2021,16(24):89-90.
8孙世光,兰旭光,张翰博,郑南宁.基于模型的机器人强化学习研究综述[J].模式识别与人工智能,2022,35(1):1-16. 被引量：5
9张云杰.建构主题阅读任务群,推进阅读策略教学[J].语文建设,2021(24):57-60. 被引量：3
10邵燕.“复述”:构筑文本与童心的对话关系——统编版语文三(下)第八单元复述教学例谈[J].基础教育论坛,2022(5):90-91. 被引量：2

智能科学与技术学报

2022年第1期

浏览历史

内容加载中请稍等...

基于动态自选择参数共享的合作多智能体强化学习算法被引量：1

参考文献4

二级参考文献19

共引文献498

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于动态自选择参数共享的合作多智能体强化学习算法 被引量：1

参考文献4

二级参考文献19

共引文献498

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于动态自选择参数共享的合作多智能体强化学习算法被引量：1