-
题名基于层次情节性元强化学习的对抗行为评估
被引量:2
- 1
-
-
作者
聂凯
孟庆海
-
机构
中国人民解放军
-
出处
《指挥控制与仿真》
2021年第2期65-71,共7页
-
文摘
基于强化学习的敌方对抗行为评估能够提高仿真推演的智能化水平,强化学习算法的训练速度成为制约其实际军事应用的关键。为了加快强化学习速度,首先将敌方对抗行为评估建模为多任务强化学习,并将环境知识和经验集成到学习算法,提出基于层次情节性元强化学习(Hierarchical Episodic Meta-Deep Reinforcement Learning,HE Meta DRL)的敌方对抗行为评估方法,协同加快强化学习速度。设计了层次情节性元强化学习智能体结构,给出了具体流程;采用可微分神经字典(Differentiable Neural Dictionary,DND)的情节记忆系统,解决参数增量的问题,并在长短时记忆神经网络里叠加设计好的情节记忆系统,恢复长短时记忆神经网络里的活动模式;最后选用OpenAI Gym平台和飞行器攻防对抗智能博弈平台对方法进行测试验证。结果表明,HE Meta DRL在倒立摆任务、情节性两步任务和敌方对抗行为评估任务上都表现出良好性能,实现了层次情节性DRL和元RL协同加速强化学习的目标。
-
关键词
仿真推演
行为评估
强化学习
元学习
情节性深度强化学习
层次
-
Keywords
simulation deduction
behavior evaluation
reinforcement learning
meta-learning
episodic deep reinforcement learning
hierarchical
-
分类号
TJ761.1
[兵器科学与技术—武器系统与运用工程]
-