Q学习中基于模糊规则的强化函数设计方法

A Method to Design Reinforcement Function Based on Fuzzy Rules in Q-Learning

导出

摘要 Q 学习算法是求解信息不完全马尔可夫决策问题的一种强化学习方法.Q 学习中强化信号的设计是影响学习效果的重要因素.本文提出一种基于模糊规则的 Q 学习强化信号的设计方法,提高强化学习的性能.并将该方法应用于单交叉口信号灯最优控制中,根据交通流的变化自适应调整交叉口信号灯的相位切换时间和相位次序.通过 Paramics 微观交通仿真软件验证,说明在解决交通控制问题中,使用基于模糊规则的 Q 学习的学习效果优于传统 Q 学习. Q-learning is a reinforcement learning method to solve Markovian decision problems with incomplete information. The design of reward function is an important factor that affects the learning results of Q-learning. A method to design the reward function of Q-learning based on fuzzy rules is introduced to improve the performance of reinforcement learning, and the method is applied to traffic signal optimal control. According to different traffic condition, the switching time and switching sequence of phase can be adapted. The performance of the system is evaluated by Paramics microcosmic traffic simulation software. And the results show that the learning effect of Q-learning based on fuzzy rules is better than that of conventional Q-learning for traffic signal control.

作者赵晓华李振龙陈阳舟荣建

机构地区北京工业大学北京市交通工程重点实验室北京工业大学电子信息与控制工程学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2008年第2期254-259,共6页 Pattern Recognition and Artificial Intelligence

关键词 Q学习强化函数模糊规则交通信号控制 Paramics微观交通仿真软件 Q-Learning, Reinforcement Function, Fuzzy Rules, Traffic Signal Control,Paramics Microcosmic Traffic Simulation Software

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1Watkins C J C H, Dayan P. Technical Note: Q-Learnlng. Machine Learning, 1992, 8(3), 279-292 被引量：1
2Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge, USA: MIT Press, 1998 被引量：1
3Wu Q H. Reinforcement Learning Control Using Interconnected Learning Automata. International Journal of Control, 1995, 62 (1): 1-16 被引量：1
4张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
5范波,潘泉,张洪才.多智能体学习中基于知识的强化函数设计方法[J].计算机工程与应用,2005,41(3):77-79. 被引量：3
6张汝波,周宁,顾国昌,张国印.基于强化学习的智能机器人避碰方法研究[J].机器人,1999,21(3):204-209. 被引量：23
7杨明,嘉莉,邱玉辉.基于增强学习的多agent自动协商研究[J].计算机工程与应用,2004,40(33):98-100. 被引量：6
8马寿峰,李英,刘豹.一种基于Agent的单路口交通信号学习控制方法[J].系统工程学报,2002,17(6):526-530. 被引量：62
9蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55

二级参考文献26

1杨璐,洪家荣,黄梯云.用加强学习方法解决基于神经网络的时序实时建模问题[J].哈尔滨工业大学学报,1996,28(4):136-139. 被引量：2
2阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
3.[EB/OL].http://www.fira.net.,. 被引量：1
4R S Sutton,A G Barto. Reinforcement Learning:An Introduction[M].Cambridge,MA:MIT Press, 1998. 被引量：1
5C J C H Watkons,P Dayan. Q-leanign[J].Machine Learning,1992;8(3): 279～292. 被引量：1
6M J Matalic. Reward Functions for Accelerated Learning[C].In:Proc Int Conf on Machine learning,1994:181～189. 被引量：1
7Kousuke INOUE,Jun OTA,Tomohiko KATAYAMA et al. Acceleration of Reinforcement Learning by A Mobile Robot Using Generalized Rules[C].In:Proc IEEE int Conf Intelligent Robots and Systems,2000: 885～890. 被引量：1
8L P Kaelbling. Learning in Embedded Systems[D].Ph D thesis. Standford University, 1990. 被引量：1
9D P Bertsekas. Dynamic programming:deterministic and stochastic models[M].Prentice-Hall,Englewood Cliffs,NJ, 1987. 被引量：1
10Peng J，博士学位论文，1993年被引量：1

共引文献213

1李徐,张帆.受强化学习思想启发的一种结构优化算法[J].智能计算机与应用,2022,12(5):136-140. 被引量：1
2刘建兴.一种仓库搬运机器人分类入库系统的设计[J].广西农业机械化,2019,0(4):21-22.
3张会,张春.基于层次分析法的运营车辆驾驶疲劳影响因素分析[J].中国科技论文在线精品论文,2020(2):227-233.
4孙方平,符秀辉.复杂环境下机器人的行为学习研究[J].仪器仪表学报,2006,27(z3):1982-1983. 被引量：2
5朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
6窦春红,黄明键,王中华,王新江.倒立摆系统及其控制策略研究现状[J].中南大学学报（自然科学版）,2003,34(z1):96-99.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8蔡增威,刘德春,张晓华.一种基于鲁棒性设计的一阶倒立摆双闭环控制方法[J].自动化技术与应用,2004,23(4):11-15. 被引量：4
9闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
10承向军,杨肇夏.一种交通信号自学习控制方法及仿真实现[J].系统仿真学报,2004,16(7):1519-1524. 被引量：5

1蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
2范波,潘泉,张洪才.多智能体学习中基于知识的强化函数设计方法[J].计算机工程与应用,2005,41(3):77-79. 被引量：3
3赵晓华,李振龙,于泉,张杰.基于切换模型的两交叉口信号灯Q学习协调控制[J].北京工业大学学报,2007,33(11):1148-1152. 被引量：4
4赵晓华,李振龙,陈阳舟,李云驰.基于混杂系统Q学习最优控制的信号灯控制方法[J].高技术通讯,2007,17(5):498-502. 被引量：5
5左国玉,张红卫,韩光胜.基于多智能体强化学习的新强化函数设计[J].控制工程,2009,16(2):239-242. 被引量：4
6朱铭琳.人工智能技术在交通控制领域的应用[J].现代电子技术,2007,30(23):149-151. 被引量：4
7何兆成,佘锡伟,杨文臣,陈宁宁.结合Q学习和模糊逻辑的单路口交通信号自学习控制方法[J].计算机应用研究,2011,28(1):199-202. 被引量：12
8王若峥,曹立明,王小平.基于Petri网技术的交通信号相位调节研究[J].计算机应用与软件,2006,23(4):71-72. 被引量：3
9朱铭琳.用PARAMICS交通仿真软件实现控制策略[J].现代计算机,2007,13(9):113-115. 被引量：2
10陈阳舟,黄旭,代桂平.基于新的状态划分的多机器人围捕策略[J].北京工业大学学报,2010,36(8):1031-1036. 被引量：3

模式识别与人工智能

2008年第2期

浏览历史

内容加载中请稍等...

Q学习中基于模糊规则的强化函数设计方法

参考文献9

二级参考文献26

共引文献213

相关作者

相关机构

相关主题

浏览历史