期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
引入通信与探索的多智能体强化学习QMIX算法
被引量:
4
1
作者
邓晖奕
李勇振
尹奇跃
《计算机应用》
CSCD
北大核心
2023年第1期202-208,共7页
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中...
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。
展开更多
关键词
多智能体环境
深度强化学习
中心
式
训练
分布式
执行
架构
好奇心机制
智能体通信
下载PDF
职称材料
题名
引入通信与探索的多智能体强化学习QMIX算法
被引量:
4
1
作者
邓晖奕
李勇振
尹奇跃
机构
北京建筑大学电气与信息工程学院
厦门大学自动化系
中国科学院自动化研究所
出处
《计算机应用》
CSCD
北大核心
2023年第1期202-208,共7页
基金
北京高等学校高水平人才交叉培养“实培计划”项目
北京建筑大学2022年度青年教师科研能力提升计划项目(X22022)。
文摘
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。
关键词
多智能体环境
深度强化学习
中心
式
训练
分布式
执行
架构
好奇心机制
智能体通信
Keywords
multi-agent environment
deep reinforcement learning
Centralized Training with Decentralized Execution(CTDE)structure
curiosity mechanism
agent communication
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
引入通信与探索的多智能体强化学习QMIX算法
邓晖奕
李勇振
尹奇跃
《计算机应用》
CSCD
北大核心
2023
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部