期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进DDPG的空战行为决策方法
被引量:
4
1
作者
殷宇维
王凡
+1 位作者
吴奎
胡剑秋
《指挥控制与仿真》
2022年第1期97-102,共6页
针对空战中飞机如何根据实时态势进行快速智能决策问题,提出基于改进DDPG算法的空战行为决策框架(Air Combat Behavior Decision-making Framework on Improve DDPG,ACBDF_DDPG)。框架中的主要改进如下:1.设计一种针对动态目标的嵌入式...
针对空战中飞机如何根据实时态势进行快速智能决策问题,提出基于改进DDPG算法的空战行为决策框架(Air Combat Behavior Decision-making Framework on Improve DDPG,ACBDF_DDPG)。框架中的主要改进如下:1.设计一种针对动态目标的嵌入式人工经验奖励机制,缓解深度强化学习算法在训练过程中,由于状态空间巨大且奖励稀疏导致的收敛困难问题;2.对框架中的Actor网络更新机制进行改进,解决Critic网络评估效果差时,更新Actor网络导致的模型训练不稳定问题;3.采用优先采样机制确保训练价值高的经验样本得到充分利用。最后基于MaCA平台搭建仿真实验环境,通过消融实验验证了所提出框架中改进机制的有效性和优越性。
展开更多
关键词
深度强化学习
深度确定性策略梯度
空战
行为
决策
动态目标
嵌入式人工经验奖励机制
下载PDF
职称材料
题名
基于改进DDPG的空战行为决策方法
被引量:
4
1
作者
殷宇维
王凡
吴奎
胡剑秋
机构
江苏自动化研究所
出处
《指挥控制与仿真》
2022年第1期97-102,共6页
文摘
针对空战中飞机如何根据实时态势进行快速智能决策问题,提出基于改进DDPG算法的空战行为决策框架(Air Combat Behavior Decision-making Framework on Improve DDPG,ACBDF_DDPG)。框架中的主要改进如下:1.设计一种针对动态目标的嵌入式人工经验奖励机制,缓解深度强化学习算法在训练过程中,由于状态空间巨大且奖励稀疏导致的收敛困难问题;2.对框架中的Actor网络更新机制进行改进,解决Critic网络评估效果差时,更新Actor网络导致的模型训练不稳定问题;3.采用优先采样机制确保训练价值高的经验样本得到充分利用。最后基于MaCA平台搭建仿真实验环境,通过消融实验验证了所提出框架中改进机制的有效性和优越性。
关键词
深度强化学习
深度确定性策略梯度
空战
行为
决策
动态目标
嵌入式人工经验奖励机制
Keywords
deep reinforcement learning
deep deterministic policy gradient
air combat behavior decision-making
dynamic targets
artificial experience reward mechanism
分类号
E911 [军事]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进DDPG的空战行为决策方法
殷宇维
王凡
吴奎
胡剑秋
《指挥控制与仿真》
2022
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部