期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于后验经验回放的MADDPG算法
被引量:
4
1
作者
孙彧
徐越
+3 位作者
潘宣宏
戴定成
孙健
陈新群
《指挥信息系统与技术》
2021年第6期78-84,共7页
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验...
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。
展开更多
关键词
多智能体系统
多智能体深度强化学习
多智能体深度确定性策略梯度算法
后验经验回放
下载PDF
职称材料
题名
基于后验经验回放的MADDPG算法
被引量:
4
1
作者
孙彧
徐越
潘宣宏
戴定成
孙健
陈新群
机构
解放军
海军指挥学院航空兵教研室
出处
《指挥信息系统与技术》
2021年第6期78-84,共7页
基金
国家社会科学基金
全军军事类研究生重点课题资助项目。
文摘
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。
关键词
多智能体系统
多智能体深度强化学习
多智能体深度确定性策略梯度算法
后验经验回放
Keywords
multi
-
agent
system
multi
-
agent
deep
reinforcement
learning
(
mdrl
)
multi
-
agent
deep
deterministic
policy
gradient(MADDPG)algorithm
hindsight
experience
replay(HER)
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于后验经验回放的MADDPG算法
孙彧
徐越
潘宣宏
戴定成
孙健
陈新群
《指挥信息系统与技术》
2021
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部