期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
引入通信与探索的多智能体强化学习QMIX算法 被引量:4
1
作者 邓晖奕 李勇振 尹奇跃 《计算机应用》 CSCD 北大核心 2023年第1期202-208,共7页
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中... 非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。 展开更多
关键词 多智能体环境 深度强化学习 中心训练分布式执行架构 好奇心机制 智能体通信
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部