期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
两方零和马尔科夫博弈策略梯度算法及收敛性分析
1
作者
王卓
李永强
+1 位作者
冯宇
冯远静
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2024年第3期480-491,共12页
为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定...
为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定理,并通过近似随机策略梯度的推导,为算法实施提供可行性基础.通过比较分析不同的最大最小问题梯度更新方法,发现额外梯度相较于其他方法具有更好的收敛性能.基于这一发现,提出基于额外梯度的近似纳什均衡策略优化算法,并给出算法的收敛性证明.在Oshi-Zumo游戏上,使用表格式softmax参数化策略以及神经网络作为参数化策略,验证不同游戏规模场景下算法的有效性.通过对比实验,验证算法相对于其他方法的收敛性和优越性.
展开更多
关键词
两方零和马尔科夫博弈
强化学习
策略优化
额外梯度
纳什均衡
神经网络
下载PDF
职称材料
题名
两方零和马尔科夫博弈策略梯度算法及收敛性分析
1
作者
王卓
李永强
冯宇
冯远静
机构
浙江工业大学信息工程学院
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2024年第3期480-491,共12页
基金
国家自然科学基金资助项目(62073294)
浙江省自然科学基金资助项目(LZ21F030003)。
文摘
为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定理,并通过近似随机策略梯度的推导,为算法实施提供可行性基础.通过比较分析不同的最大最小问题梯度更新方法,发现额外梯度相较于其他方法具有更好的收敛性能.基于这一发现,提出基于额外梯度的近似纳什均衡策略优化算法,并给出算法的收敛性证明.在Oshi-Zumo游戏上,使用表格式softmax参数化策略以及神经网络作为参数化策略,验证不同游戏规模场景下算法的有效性.通过对比实验,验证算法相对于其他方法的收敛性和优越性.
关键词
两方零和马尔科夫博弈
强化学习
策略优化
额外梯度
纳什均衡
神经网络
Keywords
two
-
player
zero
-
sum
markov
game
reinforcement
learning
policy
optimization
extragradient
Nash
equilibrium
neural
ne
two
rk
分类号
TU18 [建筑科学—建筑理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
两方零和马尔科夫博弈策略梯度算法及收敛性分析
王卓
李永强
冯宇
冯远静
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部