激励学习的最优判据研究被引量：8

Research on Optimality Criteria in Reinforcement Learning

下载PDF

导出

摘要激励学习智能体通过最优策略的学习与规划来求解序贯决策问题 ,因此如何定义策略的最优判据是激励学习研究的核心问题之一。本文讨论了一系列来自动态规划的最优判据 ,通过实例检验了各种判据对激励学习的适用性和优缺点。 RL agents solve sequential decision problems by learning optim policies for choosing actions.Thus,at the core of RL is the definition of what it means for a policy to be “optimal”.In this paper,a variety of optimality criteria from the dynamic programming literature are discussed,and their suitability and characteristics for RL is examined through some examples.The necessity of devising RL algorithms for the various criteria has also been analyzed.

作者陈焕文谢建平

机构地区长沙电力学院数学与计算机系长沙交通学院网络中心

出处《计算机工程与科学》 CSCD 2001年第2期62-65,共4页 Computer Engineering & Science

关键词激励学习智能体最优判据学习算法人工智能 reinforcement learning Markov decision process agent

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1Zhang W，Proc of the 14th IJCAI，1995年，1114页被引量：1

同被引文献36

1Bertsekas D P 李人厚（译）.动态规划-确定和随机模型[M].西安:西安交通大学学报,1990.. 被引量：1
2Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].MA:MIT Press,1998 被引量：1
3Watkins C J C H,Dayan P.Q-learning[J].Machine Learning,1992;8(3):279～292 被引量：1
4Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning,1988 ;3 (1) :9～44 被引量：1
5Peng J,Williams R.Incremental multi-step Q-learning[J].Machine Learning,1996 ;22(4) :283～290 被引量：1
6Watkins C J C H.Leaming from delayed rewarfs[D].University of Cambridge,England,1989 被引量：1
7Wiering M,Schmidhuber J.Speeding up Q-learnind[C].In:Proc of the 10 European Conf on Machine Learning,1998 被引量：1
8Sutton R S.Open theoretical questions in reinforcement learning[C].In:Proc of EuroCOLT'99(Computational Learning Theory),Cambridge,A:MIT Press,1999:11～17 被引量：1
9Singh S.Reinforcement Learning Algorithm for Average-Payoff Mar～kovian Decision Processes[C].In:Proc of the 12' AAAI,1994 被引量：1
10Sutton R S,Barto A G.Reinforcement Learning:An introduction[M].MA: MIT Press, 1998 被引量：1

引证文献8

1殷苌茗,王汉兴,陈焕文.基于动态规划方法的激励学习遗忘算法[J].计算机工程与应用,2004,40(16):75-78.
2密君英,李凡长.一种激励学习遗忘算法[J].计算机工程与应用,2004,40(30):61-64. 被引量：1
3殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量：3
4殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量：4
5殷苌茗,陈焕文,谢丽娟.样本有限关联值递归Q学习算法及其收敛性证明[J].计算机研究与发展,2002,39(9):1064-1070. 被引量：4
6殷苌茗,陈焕文,谢丽娟.激励学习的广义平均算法及其收敛性[J].计算机工程与应用,2002,38(20):72-74.
7杨东,殷苌茗,陈焕文,吴柏森.基于Q-学习的非线性控制[J].长沙电力学院学报（自然科学版）,2003,18(1):35-38.
8刘晓萌,赵艳娜.弗卢姆期望理论在高校课堂教学中的应用——以河南师范大学新联学院心理学专业为例[J].文存阅刊,2017,0(17):92-93.

二级引证文献5

1殷苌茗,王汉兴,陈焕文.基于动态规划方法的激励学习遗忘算法[J].计算机工程与应用,2004,40(16):75-78.
2密君英,李凡长.一种激励学习遗忘算法[J].计算机工程与应用,2004,40(30):61-64. 被引量：1
3殷苌茗,王汉兴,赵飞,郭兴明.风险敏感度激励学习的广义平均算法[J].应用数学和力学,2007,28(3):369-378. 被引量：1
4陈叔平.两个问题:汽车车牌拍卖和图片比对问题[J].数学建模及其应用,2017,6(3):84-86.
5杨东,殷苌茗,陈焕文,吴柏森.基于Q-学习的非线性控制[J].长沙电力学院学报（自然科学版）,2003,18(1):35-38.

1亓沂滨,王君珺,朱华进,刘显静.基于链路状态因子的无线MESH网络路由判据研究[J].舰船电子工程,2014,34(2):70-73.
2张锦江,陈兴林,王常虹,冯汝鹏.仿真转台克服低速滞滑的判据研究[J].系统工程与电子技术,2000,22(7):53-56. 被引量：1
3王彩霞.线性控制系统判稳方法的研究[J].西北民族学院学报（自然科学版）,2001,22(2):14-17. 被引量：1
4冯世成,孔冬冬,鹿书恩.基于图像识别的火灾火焰判据研究[J].自动化技术与应用,2011,30(5):67-69. 被引量：5
5翟志刚,毛宇光,王建东.UCON_(onA)模型的安全研究[J].四川大学学报（工程科学版）,2010,42(1):168-172. 被引量：1
6唐中勇,付强,卓佳,陈焕文.一类基于启发式搜索的激励学习算法[J].计算机技术与发展,2006,16(8):41-43. 被引量：2
7李继洪,黄勤,刘益良,柳玉仙.基于用户行为统计的入侵检测判据研究[J].微计算机信息,2009,25(3):36-38. 被引量：1
8吴俊,陈焕文,陈鹏慧,蔡琼.激励学习在RoboCup截球技术中的研究[J].微计算机信息,2012(9):469-470.
9倪世宏,刘敏智,夏岩,苏晨.一种改进型遗传算法及其在规则提取中的应用[J].空军工程大学学报（自然科学版）,2008,9(6):33-37. 被引量：1
10郝彬彬,井元伟,张嗣瀛.复杂网络度分布的异质性对其同步能力的影响[J].东北大学学报（自然科学版）,2008,29(11):1521-1524. 被引量：1

计算机工程与科学

2001年第2期

浏览历史

内容加载中请稍等...

激励学习的最优判据研究被引量：8

参考文献1

同被引文献36

引证文献8

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

激励学习的最优判据研究 被引量：8

参考文献1

同被引文献36

引证文献8

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

激励学习的最优判据研究被引量：8