-
题名基于状态-动作图测地高斯基的策略迭代强化学习
被引量:6
- 1
-
-
作者
程玉虎
冯涣婷
王雪松
-
机构
中国矿业大学信息与电气工程学院
-
出处
《自动化学报》
EI
CSCD
北大核心
2011年第1期44-51,共8页
-
基金
国家自然科学基金(60804022
60974050
+3 种基金
61072094)
教育部新世纪优秀人才支持计划(NCET-08-0836)
霍英东教育基金会青年教师基金(121066)
江苏省自然科学基金(BK2008126)资助~~
-
文摘
在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于状态-动作图测地高斯基的策略迭代强化学习方法.首先,根据离策略方法建立马尔可夫决策过程的状态-动作图论描述;然后,在状态-动作图上定义测地高斯核函数,利用基于近似线性相关的核稀疏方法自动选择测地高斯核的中心;最后,在策略评估阶段利用基于状态-动作图的测地高斯核逼近动作值函数,并基于估计的值函数进行策略改进.10×10格子世界的仿真结果表明,与基于状态图普通高斯基和测地高斯基的策略迭代强化学习方法相比,本文所提方法能以较少的基函数、高精度地逼近具有光滑且不连续特性的动作值函数,从而有效地获得最优策略.
-
关键词
状态-动作图
测地高斯核
基函数
策略迭代
强化学习
-
Keywords
State-action graph
geodesic Gaussian kernel
basis function
policy iteration
reinforcement learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-