改进的Q学习算法及在其RoboCup中的应用被引量：2

Improved Q-learning Algorithm and Its Application in RoboCup Environment

下载PDF

导出

摘要传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。文章提出一种改进的Q学习算法,提出将神经网络应用于Q学习,系统只需学习部分状态—动作的Q值,即可进行Q学习,有效的提高收敛的速度。最后在RoboCup环境中验证这个算法,对传球成功率有所提高。 Q-learning has traditionally been used effectively in dealing with RoboCup ball tactics,but it is only a simple discretization of continuous state and action space.Proposed a modified Q learning algorithm,neural network applied to Q learning,the system only need to learn some of the state-action Q value,you can get a continuous approximation of Q value,and can effectively improve generalization ability.Finally,in the RoboCup environment,the algorithm is proved to achieve optimal playing strategy,and effectively improves the success rate of passing ball.

作者周燕艳

机构地区合肥工业大学计算机与信息学院铜陵学院数学与计算机系

出处《四川理工学院学报（自然科学版）》 CAS 2011年第4期417-421,共5页 Journal of Sichuan University of Science & Engineering(Natural Science Edition)

关键词 ROBOCUP 神经网络 Q学习智能体 RoboCup neural network Q learning Agent

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Yan X W.Fuzzy Advantage Leaming[J].IEEE,2000:865- 870. 被引量：1
2Zamzami N, Hirsch T, Dallaporte B, et al. Mitochondrial implication in accidental and programmed cell death: apoptosis and necrosis[J]. J Bioenerg Biomemb, 1997, 29(2): 185 -193. 被引量：2
3Tamura T, Said S, Lu W, et al. Is apoptosis present in progresssion to chronic hypertensive heart failure? [ J ]. J Card Fail, 2000, 6(1): 37-42. 被引量：2
4Sarah BB, Watkins SC, Hastings TG. Quantitative biochemical and ultrastructural comparison of mitochondrial permeability transition in isolated brain and liver mitochondria: evidence for reduced sensitivity of brain mitochondria [ J ]. Exp Neurol,2000, 16 被引量：3
5Fontaine E, Eriksson O, Ichas F, et al. Regulation of the permeability transition pore skeletal muscle mitochondria[ J ].J Bid Chem, 1998, 273(20): 12662 - 12668. 被引量：3
6Yang J, Liu XS, Kim CN, et al. Prevention of apoptosis by Bcl- 2: release of cytochrome c from mitochondria blocked [J].Science, 1997, 275(21): 1129-1132. 被引量：2
7萨姆布鲁克著金冬雁译.分子克隆[M](第2版)[M].北京:科学出版社,1992.881-884. 被引量：2
8周勇,刘锋.基于改进的Q学习的RoboCup传球策略研究[J].计算机技术与发展,2008,18(4):63-66. 被引量：8

二级参考文献6

1丛爽.面向MATLAB工具箱的神经网络理论与应用[M].合肥:中国科技大学出版社,2003.. 被引量：91
2叶世伟史忠植译.神经网络原理[M].北京:机械工业出版社,2004.. 被引量：35
3Stone P. Layered learning in Multi- Agent System [ D]. Pittsburgh, PA: Computer Science Department, Carnegie Mellon University, 1998. 被引量：1
4Kaelbling L P, Lit-reran M L,Moore A W. Reinforcement learning:A survey[J]. Journal of Artificial Intelligenee, 1996,4: 237 - 285. 被引量：1
5Sutton R S,Barto A G. Reinforcement Learning[M]. Cambridge,MA: The MIT Press, 1998. 被引量：1
6Tsitsiklis, John N. Asynchronous stochastic approximation and Q- learning [ J ]. Machine Learning, 1994,16 (3):185 - 202. 被引量：1

共引文献9

1章小兵,刘艳春,陈黎.基于传球评价函数的Robocup传球策略[J].安徽工业大学学报（自然科学版）,2011,28(2):171-174. 被引量：2
2章小兵,陈黎,刘艳春.基于Robocuo的智能协作防守[J].安徽工业大学学报（自然科学版）,2011,28(3):272-276. 被引量：1
3申迅,刘国栋.基于Q学习Robocup前锋的射门训练[J].计算机工程与应用,2011,47(18):53-55.
4周燕艳.基于改进的BP算法的RoboCup防守策略研究[J].海军工程大学学报,2011,23(6):40-43. 被引量：2
5吴芳.本体技术与图书馆个性化服务[J].甘肃科技,2012,28(1):97-98. 被引量：1
6章惠龙,李龙澍.Q学习在RoboCup前场进攻动作决策中的应用[J].计算机工程与应用,2013,49(7):240-242. 被引量：6
7李学俊,陈士洋.RoboCup仿真2D实验平台[J].实验室研究与探索,2014,33(4):58-61. 被引量：3
8秦锋,田杰,程泽凯.基于偏最小二乘法的RoboCup传球研究[J].计算机工程,2014,40(9):275-279. 被引量：4
9任会荣,王新兴,弓景波,钱令嘉,任崇余.应激对大鼠心肌细胞线粒体膜通透性转换孔开放的影响及其分子基础的研究[J].中国病理生理杂志,2004,20(4):537-540. 被引量：1

同被引文献15

1张永怀,刘君华.采用BP神经网络及其改进算法改善传感器特性[J].传感技术学报,2002,15(3):185-188. 被引量：54
2方宝富,王浩,姚宏亮,杨静,高亮,万达.HfutEngine2005仿真机器人足球队设计[J].合肥工业大学学报（自然科学版）,2006,29(9):1085-1089. 被引量：2
3刘亮,李龙澍.基于神经网络和遗传算法的RoboCup截球策略[J].计算机工程与应用,2006,42(33):28-30. 被引量：3
4Yan X W. Fuzzy Advantage Learning[J].IEEE,2000.865-870. 被引量：1
5Kaelbling L P,Littman M L,Moore A W. Reinforcement learning:A survey[J].Journal of Artificial Intelligence,1996,(04):237-285. 被引量：1
6郝晓弘,段晓燕,李恒杰.基于BP神经网络的迭代学习初始控制策略研究[J].计算机应用,2009,29(4):1025-1027. 被引量：9
7刘伟.多元地学信息挖掘中分层动量增项自适应BP算法应用研究[J].数学的实践与认识,2011,41(2):85-89. 被引量：1
8崔阳,徐龙,刘艳,马晓迅,杨建丽.基于改进BP神经网络的煤催化气化预测模型研究[J].燃料化学学报,2011,39(2):90-93. 被引量：10
9刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：461
10王巍,周凯利,王伊昌,王广,杨正琳,袁军.卷积神经网络(CNN)算法的FPGA并行结构设计[J].微电子学与计算机,2019,36(4):57-62. 被引量：13

引证文献2

1周燕艳.基于改进BP算法的RoboCup传球策略研究[J].陕西理工学院学报（自然科学版）,2013,29(1):17-21.
2凤雷,王宾涛,刘冰,李喜鹏.基于FPGA的深度强化学习硬件加速技术研究[J].计算机测量与控制,2022,30(6):242-247. 被引量：4

二级引证文献4

1王硕,张景璐,裴春梅.基于ZYNQ的随机森林分类器实现[J].今日制造与升级,2023(2):17-19.
2张立博,李昌伟,齐伟,王刚,戚鲁凤.神经网络训练处理器的浮点运算优化架构[J].计算机测量与控制,2023,31(6):176-182.
3刘峥嵘.基于FPGA的深度强化学习硬件加速技术分析[J].集成电路应用,2024,41(2):22-25.
4Yang Jiachen,Duan Ruifeng,Li Chengju.CNN demodulation model with cascade parallel crossing for CPM signals[J].The Journal of China Universities of Posts and Telecommunications,2024,31(3):30-42.

1廖本先,杨宜民,张学习,项凡.自适应遗传算法和RBF网络在传球中的应用[J].计算机仿真,2010,27(9):169-172. 被引量：6
2张家旺,韩光胜,张伟.C5.0算法在RoboCup传球训练中的应用研究[J].计算机仿真,2006,23(4):132-134. 被引量：11

四川理工学院学报（自然科学版）

2011年第4期

浏览历史

内容加载中请稍等...

改进的Q学习算法及在其RoboCup中的应用被引量：2

参考文献8

二级参考文献6

共引文献9

同被引文献15

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

改进的Q学习算法及在其RoboCup中的应用 被引量：2

参考文献8

二级参考文献6

共引文献9

同被引文献15

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

改进的Q学习算法及在其RoboCup中的应用被引量：2