期刊文献+

元博弈平衡和多Agent强化学习的MetaQ算法 被引量:2

Meta-Equilibria and MetaQ Algorithm for Multi-Agent Reinforcement Learning
下载PDF
导出
摘要 多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.
作者 王皓 高阳
出处 《计算机研究与发展》 EI CSCD 北大核心 2006年第z1期137-141,共5页 Journal of Computer Research and Development
基金 国家自然科学基金项目(60475026)
  • 相关文献

参考文献6

  • 1[1]Hu Junling,Michael P Wellman.Multiagent reinforcement learning:Theoretical framework and an algorithm[C].In:Proc of the 15th Int'l Conf on Machine Learning.San Fransisco:Morgan Kaufmann,1998.242-250 被引量:1
  • 2[2]Hu Junling,Michael P Wellman.Nash Q-learning for general-sum stochastic games[J].Journal of Machine Learning Research,2003,4(11):1039-1069 被引量:1
  • 3[3]R J Aumann,S Hart.Computing equilibria for two-person games[G].In:Handbook of Game Theory with Economic Applications.Amsterdam:Elsevier,2002.1723-1759 被引量:1
  • 4[4]K G Murty.Computational complexity of complementary pivot methods[C].In:Mathematical Programming Study 7.Complementarity and Fixed Point Problems.Amsterdam:North-Holland Publishing Co,1978.61-73 被引量:1
  • 5[5]N Howard.Paradoxes of Rationality:Theory of Metagames and Political Behavior[M].Cambridge,Massachusetts:MIT Press,1971 被引量:1
  • 6[6]L C Thomas.Games,Theory and Application[M].Chichester:Halsted Press,1984.129-149 被引量:1

同被引文献59

引证文献2

二级引证文献41

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部