期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于后验经验回放的MADDPG算法 被引量:4
1
作者 孙彧 徐越 +3 位作者 潘宣宏 戴定成 孙健 陈新群 《指挥信息系统与技术》 2021年第6期78-84,共7页
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验... 训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。 展开更多
关键词 多智能体系统 多智能体深度强化学习 多智能体深度确定性策略梯度算法 后验经验回放
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部