元博弈平衡和多Agent强化学习的MetaQ算法被引量：2

Meta-Equilibria and MetaQ Algorithm for Multi-Agent Reinforcement Learning

下载PDF

导出

摘要多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.

作者王皓高阳

机构地区南京大学软件新技术国家重点实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2006年第z1期137-141,共5页 Journal of Computer Research and Development

基金国家自然科学基金项目(60475026)

关键词强化学习多AGENT系统元博弈 MetaQ

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1[1]Hu Junling,Michael P Wellman.Multiagent reinforcement learning:Theoretical framework and an algorithm[C].In:Proc of the 15th Int'l Conf on Machine Learning.San Fransisco:Morgan Kaufmann,1998.242-250 被引量：1
2[2]Hu Junling,Michael P Wellman.Nash Q-learning for general-sum stochastic games[J].Journal of Machine Learning Research,2003,4(11):1039-1069 被引量：1
3[3]R J Aumann,S Hart.Computing equilibria for two-person games[G].In:Handbook of Game Theory with Economic Applications.Amsterdam:Elsevier,2002.1723-1759 被引量：1
4[4]K G Murty.Computational complexity of complementary pivot methods[C].In:Mathematical Programming Study 7.Complementarity and Fixed Point Problems.Amsterdam:North-Holland Publishing Co,1978.61-73 被引量：1
5[5]N Howard.Paradoxes of Rationality:Theory of Metagames and Political Behavior[M].Cambridge,Massachusetts:MIT Press,1971 被引量：1
6[6]L C Thomas.Games,Theory and Application[M].Chichester:Halsted Press,1984.129-149 被引量：1

同被引文献59

1陈芳莉,胡晓峰,凌晨.网格技术在基于Agent仿真系统中的应用初探[J].系统仿真学报,2006,18(z2):961-963. 被引量：1
2范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
3朱江,伍聪.基于Agent的计算机建模平台的比较研究[J].系统工程学报,2005,20(2):160-166. 被引量：18
4曹慕昆,冯玉强.基于多Agent计算机仿真实验平台Swarm的综述[J].计算机应用研究,2005,22(9):1-3. 被引量：18
5王黎明,黄厚宽.一个基于多阶段的多Agent多问题协商框架[J].计算机研究与发展,2005,42(11):1849-1855. 被引量：16
6任燚,陈宗海.基于强化学习算法的多机器人系统的冲突消解策略[J].控制与决策,2006,21(4):430-434. 被引量：7
7周浦城,洪炳镕,黄庆成.一种新颖的多agent强化学习方法[J].电子学报,2006,34(8):1488-1491. 被引量：8
8袁毅贤,梁莹.基于Agent计算金融的计算机仿真研究综述[J].计算机仿真,2007,24(2):262-265. 被引量：4
9张新良,石纯一.多Agent联盟结构动态生成算法[J].软件学报,2007,18(3):574-581. 被引量：25
10殷凡,陈珂.Agent联盟稳定性的研究[J].计算机工程与设计,2007,28(6):1477-1479. 被引量：2

引证文献2

1吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
2张少苹,戴锋,王成志,张覃.多Agent系统研究综述[J].复杂系统与复杂性科学,2011,8(4):1-8. 被引量：19

二级引证文献41

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
3张睿,高浩然,陈通.基于多Agent的机场场面冲突检测与解脱算法研究[J].科学技术与工程,2012,20(36):10017-10020. 被引量：5
4陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
5殷凡,牛丽.基于动态模糊集的多Agent动态任务分配算法研究[J].科技通报,2013,29(11):119-122. 被引量：1
6朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：7
7刘小婵,张明锋,张正祥,张洪岩.基于GIS与多智能体的人群疏散模拟[J].地理信息世界,2014,21(5):105-110. 被引量：4
8张杨.基于Multi-Agent模型的在线负面口碑传播与治理机制[J].复杂系统与复杂性科学,2014,11(4):23-28. 被引量：3
9郭凌云.多Agent强化学习方法与应用[J].福建电脑,2015,31(5):92-93.
10雷默涵,杨萍.改进的CE-Q算法用于多Agent觅食的研究[J].机械设计,2015,32(6):1-4.

1郑顾平,曹锦纲.基于贝叶斯方法的多Agent强化学习[J].河北理工学院学报,2005,27(4):65-68. 被引量：2
2乔阳,唐昊,程文娟,江琦,马学森.一种基于多Agent强化学习的无线传感器网络多路径路由协议[J].合肥工业大学学报（自然科学版）,2016,39(7):896-899. 被引量：7
3王万良,濮约庆,赵燕伟.基于Meta平衡的多Agent Q学习算法研究[J].计算机科学,2012,39(B06):261-264. 被引量：1
4郭凌云.多Agent强化学习方法与应用[J].福建电脑,2015,31(5):92-93.
5徐好芹,贾延明.智能算法及其混合优化策略研究[J].软件导刊,2011,10(9):48-50. 被引量：1
6吴元斌.单agent强化学习与多agent强化学习比较研究[J].电脑与信息技术,2009,17(1):8-11. 被引量：2
7王常春,李贵艳,向淑文.搜索算法在囚徒困境中的应用[J].遵义师范学院学报,2009,11(4):86-87.
8刘艳.红外图像中的阈值分割算法研究[J].数字技术与应用,2013,31(8):114-114. 被引量：1
9梁树杰,鲁恩名.基于协同进化算法的网络控制系统性能与安全性最优折中技术研究[J].计算机应用研究,2015,32(3):855-859.
10赵芳,张桂珠.基于新搜索策略的混合蛙跳算法[J].计算机应用与软件,2015,32(8):224-228. 被引量：10

计算机研究与发展

2006年第z1期

浏览历史

内容加载中请稍等...

元博弈平衡和多Agent强化学习的MetaQ算法被引量：2

参考文献6

同被引文献59

引证文献2

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

元博弈平衡和多Agent强化学习的MetaQ算法 被引量：2

参考文献6

同被引文献59

引证文献2

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

元博弈平衡和多Agent强化学习的MetaQ算法被引量：2