-
题名基于非对称不可观测状态的强化学习技术
- 1
-
-
作者
李欣致
董胜波
崔向阳
-
机构
北京遥感设备研究所
传播内容认知国家重点实验室
-
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2023年第6期1755-1761,共7页
-
文摘
真实动态博弈场景下对抗双方存在信息不对等、工作机理和规则不相同等特征,但现有的强化学习算法通过假设状态可观测或部分可观测来采用近似模型拟合。因此,在难以准确获取或者无法获取对方状态信息时,假设条件难以成立,导致现有强化学习模型无法直接适用。针对这个问题,提出一种基于非对称不可观测强化学习新框架,在该框架下,智能体仅根据价值反馈即可实现在线学习。为验证可行性和通用性,将3种典型强化学习算法移植到该算法框架,搭建了博弈对抗模型,进行对比验证。结果表明,3种算法都可成功应用于不可观测状态的动态博弈环境,且收敛速度大幅提高,证明了该框架的可行性和通用性。
-
关键词
强化学习
动态博弈
非对称不可观测状态
-
Keywords
reinforcement learning
dynamic game
asymmetric unobservable state
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-