一种高斯过程的带参近似策略迭代算法被引量：4

Parametric Approximation Policy Iteration Algorithm Based on Gaussian Process

下载PDF

导出

摘要在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car问题,实验结果表明,该算法收敛速度较快,收敛精度较好. In machine learning with large or continuous state space, it is a hot topic to combine the function approximation and reinforcement learning. The study also faces a very difficult problem of how to balance the exploration and exploitation in reinforcement learning. In allusion to the exploration and exploitation dilemma in the large or continuous state space, this paper presents a novel policy iteration algorithm based on Gaussian process in deterministic environment. The algorithm uses Gaussian process to model the action-value function, and in conjunction with generative model, obtains the posteriori distribution of the parameter vector of the action-value function by Bayesian inference. During the learning process, it computes the value of perfect information according to the posteriori distribution, and then selects the appropriate action with respect to the expected value of the action-value function. The algorithm achieves the balance between exploration and exploitation to certain extent, and therefore accelerates the convergence. The experimental results on the Mountain Car problem show that the algorithm has faster convergence rate and better convergence performance.

作者傅启明刘全伏玉琛周谊成于俊

机构地区苏州大学计算机科学与技术学院符号计算与知识工程教育部重点实验室(吉林大学)

出处《软件学报》 EI CSCD 北大核心 2013年第11期2676-2686,共11页 Journal of Software

基金国家自然科学基金(61070223 61103045 61170020 61272005 61272244) 江苏省自然科学基金(BK2012616) 吉林大学符号计算与知识工程教育部重点实验室基金(93K172012K04)

关键词强化学习策略迭代高斯过程贝叶斯推理函数近似 reinforcement learning policy iteration Gaussian process Bayesian inference function approximation

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15

二级参考文献3

1沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：270

共引文献14

1肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
2李冠峰,贺学剑,韩道军.强化学习在中职招生系统中的应用[J].计算机应用与软件,2013,30(4):252-254.
3傅启明,刘全,孙洪坤,高龙,李瑾,王辉.一种二阶TD Error快速Q(λ)算法[J].模式识别与人工智能,2013,26(3):282-292. 被引量：5
4孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展,2013,50(10):2176-2184. 被引量：2
5方敏,李浩.基于状态回溯代价分析的启发式Q学习[J].模式识别与人工智能,2013,26(9):838-844. 被引量：9
6于俊,刘全,傅启明,孙洪坤,陈桂兴.基于优先级扫描Dyna结构的贝叶斯Q学习方法[J].通信学报,2013,34(11):129-139. 被引量：6
7朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
8傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
9黄蔚,刘全,孙洪坤,傅启明,周小科.基于拓扑序列更新的值迭代算法[J].通信学报,2014,35(8):56-62. 被引量：1
10周鑫,刘全,傅启明,肖飞.一种批量最小二乘策略迭代方法[J].计算机科学,2014,41(9):232-238. 被引量：9

同被引文献6

1朱齐丹,李科,张智,蔡成涛.改进的混合高斯自适应背景模型[J].哈尔滨工程大学学报,2010,31(10):1348-1353. 被引量：15
2何志昆,刘光斌,赵曦晶,王明昊.高斯过程回归方法综述[J].控制与决策,2013,28(8):1121-1129. 被引量：191
3于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[J].中国科学（E辑）,2002,32(2):274-280. 被引量：130
4周鑫,刘全,傅启明,肖飞.一种批量最小二乘策略迭代方法[J].计算机科学,2014,41(9):232-238. 被引量：9
5范晓.我国价格预测方法文献研究[J].开发研究,2014(5):105-109. 被引量：11
6傅启明,刘全,尤树华,黄蔚,章晓芳.一种新的基于值函数迁移的快速Sarsa算法[J].电子学报,2014,42(11):2157-2161. 被引量：3

引证文献4

1季挺,张华.基于Dyna框架的非参数化近似策略迭代增强学习[J].计算机应用,2018,38(5):1230-1238.
2陈建平,杨正霞,刘全,吴宏杰,徐杨,傅启明.基于值函数迁移的启发式Sarsa算法[J].通信学报,2018,39(8):37-47. 被引量：2
3田大伟,陈其强.基于大数据及高斯过程的价格预测分析[J].电脑知识与技术,2019,15(7):24-26. 被引量：1
4马颖涛,龙宇绩.基于高斯过程的企业网络资源优化算法[J].军民两用技术与产品,2016,0(18):105-106.

二级引证文献3

1谢力,马红梅.新技术下农户主导特色农产品定价权研究[J].沙洲职业工学院学报,2020,23(3):14-17. 被引量：1
2钱信,吕成伊,宋世杰.基于优化Q-learning算法的机器人路径规划[J].南昌大学学报（工科版）,2022,44(4):396-401. 被引量：3
3周权,牛英滔.基于迁移强化学习的无线传感器网络快速抗干扰方案[J].电波科学学报,2023,38(5):816-824.

1王庆福.谈数据仓库与数据挖掘教学研究[J].中国科教创新导刊,2012(28):179-179. 被引量：1
2李兆斌,徐昕,吴军,连传强.增强学习算法的性能测试与对比分析[J].计算机应用研究,2010,27(10):3662-3665. 被引量：1
3魏振春,徐祥伟,冯琳,丁蓓.基于Q学习和规划的传感器节点任务调度算法[J].模式识别与人工智能,2016,29(11):1028-1036. 被引量：5
4赵昀,陈庆伟,胡维礼.一种基于信息熵的强化学习算法[J].系统工程与电子技术,2010,32(5):1043-1046. 被引量：4
5仵博,郑红燕,冯延蓬,陈鑫.一种基于模型的可分解贝叶斯在线强化学习[J].电子学报,2014,42(7):1429-1434. 被引量：2
6张文志,吕恬生.强化学习理论在机器人应用中的几个关键问题探讨[J].计算机工程与应用,2004,40(4):69-71. 被引量：2
7程美英,钱乾,熊伟清,周鸣争.连续空间二元粒子群算法理论研究综述[J].计算机应用研究,2013,30(4):981-985. 被引量：2
8李桂梅,高麟.人事档案管理和信息处理系统模型研究[J].西安档案,2005(5):31-34.
9李伟,许家珆.含群学习的免疫网络优化算法[J].计算机与现代化,2010(1):23-25.
10谭小康.高职计算机精品课网络教学设计[J].中华少年,2015,0(28):187-187.

软件学报

2013年第11期

浏览历史

内容加载中请稍等...

一种高斯过程的带参近似策略迭代算法被引量：4

参考文献1

二级参考文献3

共引文献14

同被引文献6

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种高斯过程的带参近似策略迭代算法 被引量：4

参考文献1

二级参考文献3

共引文献14

同被引文献6

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种高斯过程的带参近似策略迭代算法被引量：4