基于规划规则的激励学习偏差研究被引量：1

Study of Bias of Reinforcement Learning Based on Plan Rule

导出

摘要在实际动态系统中,经典无启发知识的激励学习算法收敛非常慢,因此必须采用某种偏差技术加速激励学习的收敛速度.已有激励学习偏差算法,通常先验地给出启发知识,这与激励学习的思想相矛盾.通过在初次激励学习获得的策略知识中,先抽取满足条件的规划知识,然后将规划知识作为启发知识,进一步指导后继激励学习.实验结果显示这种学习技术能有效加快算法收敛速度,并适用于动态复杂环境. The classical reinforcement learning which has no prior knowledge learn very slowly in practice. So adapt some kinds of bias technology to speed the convergence of reinforcement learning. The plan rule satisfied conditions is extracted by means of reinforcement learning's policy. Then using this plan rule as the prior knowledge of the bias, direct the latter reinforcement learning further. The experiment proves the validity and the convergence of this method.

作者汤九斌高阳陈世福

机构地区南京理工大学计算机系南京大学计算机软件新技术国家重点实验室

出处《复旦学报（自然科学版）》 CAS CSCD 北大核心 2004年第5期681-684,共4页 Journal of Fudan University：Natural Science

基金国家自然科学基金资助项目(60103012) 国家重点研究发展规划973资助项目(2002CB312002) 江苏省创新人才资助项目(BK2003409)

关键词激励学习算法显示收敛速度规则动态系统抽取知识学习技术实际 reinforcement learning bias plan rule extract

分类号 N945 [自然科学总论—系统科学] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1Stone P,Veloso M. Team-Partitioned, Opaque-Transition reinforcement learning[A].In: Etizioni O, Muller J P,Bradshaw J M, eds. Proceedings of the Third International Conference on Autonomous Agents[C]. Seattle: ACM Pre, 1999. 206-212. 被引量：1
2Sun R,Sessions C.Extracting plans from reinforcement learners[A].In: Xu L, Chan L, King I,et al,eds. Proceedings of the 1998 International Symposium on Intelligent Data Engineering and Learning[C].New York: Springer-Verlag,1998. 243-248. 被引量：1
3Kushmerick N,Hanks S, Weld D S,et al. An algorithm for probabilistic planning[J].Artificial Intelligence,1995,76,(1-2):239-286. 被引量：1
4Dearden R ,Boutilier C. Abstraction and approximate decision theoretic planning[J].Artificial Intelligence,1997,89: 219-283. 被引量：1
5Sun R, Merrill E, Peterson T. From implicit skills to explicit knowledge:A bottom-up model of skill learning[J].Cognitive Science,2001, 25 (2): 203-244. 被引量：1

同被引文献3

1汪勇,熊前兴.基于进化规划的多Agent系统任务调度[J].计算机工程与设计,2006,27(20):3789-3792. 被引量：1
2曾伟,费奇.Agent规划的形式化描述[J].华中科技大学学报（自然科学版）,2001,29(8):44-46. 被引量：6
3董明楷,张海俊,史忠植.基于动态描述逻辑的主体模型[J].计算机研究与发展,2004,41(5):780-786. 被引量：14

引证文献1

1段爱华.基于DFL的agent自主学习的规划研究[J].大众科技,2008,10(1):13-15.

1郭永洪,傅泽田,田东.基于UML的诊断推理策略研究[J].计算机工程与应用,2003,39(9):55-57.
2高阳,陆鑫,李宁,陈世福.一种自适应概率规划规则抽取算法[J].南京大学学报（自然科学版）,2003,39(2):145-152. 被引量：3
3李晓丽,许可,宋俊德.新浪微博snow ball采样算法偏差研究(英文)[J].软件,2012,33(11):228-230. 被引量：1
4电脑安全策略知识[J].计算机与网络,2012,38(10):35-35.
5郭永洪,傅泽田,田东.基于知识的鱼病诊断推理[J].计算机工程,2004,30(4):23-24. 被引量：6
6周琳,李红娟.基于萤火虫最优偏差算法的农田红外目标检测研究[J].浙江农业学报,2016,28(7):1243-1248.
7徐宗龙,潘宏侠,谭谈.数据挖掘技术在邮件病毒检测中的应用研究[J].机械管理开发,2005,20(6):70-72.
8刘兵.《器具的进化》[J].科学世界,1999,0(12):59-59.
9郭文娟,王英龙,魏诺,郭强,周书旺.基于最优时钟偏差的无线传感器网络同步算法[J].计算机应用,2009,29(11):2911-2913. 被引量：2
10谢雅,彭军,吴敏.足球机器人路径规划的改进型人工势场算法研究[J].计算机工程与应用,2006,42(9):176-179. 被引量：4

复旦学报（自然科学版）

2004年第5期

浏览历史

内容加载中请稍等...

基于规划规则的激励学习偏差研究被引量：1

参考文献5

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于规划规则的激励学习偏差研究 被引量：1

参考文献5

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于规划规则的激励学习偏差研究被引量：1