期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于非对称不可观测状态的强化学习技术
1
作者 李欣致 董胜波 崔向阳 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1755-1761,共7页
真实动态博弈场景下对抗双方存在信息不对等、工作机理和规则不相同等特征,但现有的强化学习算法通过假设状态可观测或部分可观测来采用近似模型拟合。因此,在难以准确获取或者无法获取对方状态信息时,假设条件难以成立,导致现有强化学... 真实动态博弈场景下对抗双方存在信息不对等、工作机理和规则不相同等特征,但现有的强化学习算法通过假设状态可观测或部分可观测来采用近似模型拟合。因此,在难以准确获取或者无法获取对方状态信息时,假设条件难以成立,导致现有强化学习模型无法直接适用。针对这个问题,提出一种基于非对称不可观测强化学习新框架,在该框架下,智能体仅根据价值反馈即可实现在线学习。为验证可行性和通用性,将3种典型强化学习算法移植到该算法框架,搭建了博弈对抗模型,进行对比验证。结果表明,3种算法都可成功应用于不可观测状态的动态博弈环境,且收敛速度大幅提高,证明了该框架的可行性和通用性。 展开更多
关键词 强化学习 动态博弈 非对称不可观测状态
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部