动态环境下的多智能体机器人协作模型被引量：6

The model of multi-agent cooperation in the dynamic environment

导出

摘要提出了在动态环境中,多Agent的一种协作模型,适用于环境信息不完备的复杂情况.将Agent的独立强化学习与BDI模型结合起来,使多Agent系统不但拥有强化学习的高度反应性和自适应性,而且拥有BDI的推理能力,使只使用数值分析而忽略推理环节的强化学习结合了逻辑推理方法.使用了Borlzman选取随机动作,并且采用了新的奖励函数和表示方法,减少了学习空间,提高了学习速度.仿真结果表明所提方法可行,能够满足多Agent系统的要求. In this paper,a new multi-agent cooperating model of dynamic enviroment is proposed,which is suitable for complex situation of incomplete enviroment information.By combination of independence reinforcement study and the belief-desire-intention(BDI) model,multi-agent system has not only highly reactivity but also reasoning faculty.The method reduces study space by a new reinforcement function and increases study speed by Borlzman function.The results of simulation experiment indicate the effectiveness of the...

作者朴松昊孙立宁钟秋波黄庆成

机构地区哈尔滨工业大学机电工程学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2008年第S1期39-41,52,共4页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家高科技发展计划重点基金资助项目(2007AA041603)

关键词机器人多智能体系统强化学习协作动态环境 robot multi-agent system reinforcement cooperation dynamic enviroment

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1李晓萌,杨煜普,许晓鸣.基于独立学习的多智能体协作决策[J].控制与决策,2002,17(1):29-32. 被引量：8
2路军,王亚东,王晓龙.BDI Agent解释器的研究和改进[J].软件学报,2000,11(8):1118-1125. 被引量：6
3Christopher J.C.H. Watkins,Peter Dayan. Technical Note: Q-Learning[J] 1992,Machine Learning(3-4):279～292 被引量：1

二级参考文献15

1[1]M L Littman. Markov games as framework for multi-agent reinforcement learning[A]. Proc of the 11th Int Conf on Machine Learning[C]. San Francisco: Morgan Kaufmann,1994.157-163. 被引量：1
2[2]J Hu, M P Wellman. Multiagent reinforcement learning: Theoretical framework and an algorithm[A]. Proc of the 15th Int Conf on Machine Learning[C]. Morgan Kaufmann,1998.242-250. 被引量：1
3[3]C Claus, C Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems[A]. Proc of the 15th National Conf on Artificial Intelligence[C]. Cambridge MIT Press,1997.235-262. 被引量：1
4[4]D H Wolpert, K Wheeler, K Tumer, et al. General principles of learning-based multi-agent systems[A]. Proc of the Third Int Conf of Autonomous Agents[C]. Seattle,1999.77-83. 被引量：1
5[5]J A Boyan, M L Littman. Packet routing in dynamically changing networks: A reinforcement learningapproach[J]. Adv in Neur Inform Proc Syst,1993,6:671-678. 被引量：1
6[6]R H Crites, A G Barto. Elevator group control using multiple reinforcement learning agents[J]. Machine Learning,1998,33:235-262. 被引量：1
7[7]J Schneider, W K Wong, A Moore, et al. Distributed value functions[A]. Proc of the 16th Int Conf on Machine Learning[C]. San Francisco: Morgan Kaufmann,1999.371-378. 被引量：1
8[8]C Watkins. Q-learning[J]. Machine Learnning,1992,8:279-292. 被引量：1
9[9]C Watkins. Learning from delayed rewards[D]. Cambridge: Cambridge University,1989. 被引量：1
10[10]A G Barto, R S Sutton, C Watkins. C Learning and sequential decision making[A]. Learning and Computational Newroscience: Foundation of Addaptive Networks[C]. Cambridge MIT Press,1990.539-602. 被引量：1

共引文献11

1王媛丽,殷建平,赵建民,毛晓青.MAS研究的历史与现状[J].计算机科学,2002,29(z1):265-267.
2郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
3张淑军,孟庆春,吴槟,费云瑞.移动机器人智能寻线导航与策略控制[J].控制与决策,2005,20(5):529-532. 被引量：6
4潘家毅,赵永祥.基于DHT的P2P网络的查询延迟改进技术及其研究进展[J].中国新通信,2006,8(21):50-54.
5杨博,邵利平,覃征.AgentSpeak中意图生成过程的可靠性与完整性研究[J].计算机科学,2011,38(3):236-242.
6钱海忠,武芳,王家耀.一种基于综合链技术的智能工作流模型[J].南京理工大学学报（社会科学版）,2005,18(S1):173-177.
7宦婧,周伟祝,孙媛,鲁华杰.基于自治智能计算机生成兵力的反潜直升机模型设计与应用[J].计算机应用,2012,32(A02):245-247. 被引量：1
8陈一飞,路河,刘柏成,齐凯,杜尚丰.日光温室草莓立体栽培智能控制系统[J].农业工程学报,2013,29(A01):184-189. 被引量：24
9陈春晓,陈治亚,陈维亚.基于多智能体增强学习的公交驻站控制方法[J].计算机工程与应用,2015,51(17):8-13. 被引量：6
10洪炳镕,朴松昊.基于冲突消解的群体智能机器人协作研究[J].哈尔滨工业大学学报,2003,35(9):1053-1055. 被引量：8

同被引文献46

1谢云,杨宜民.全自主机器人足球系统的研究综述[J].机器人,2004,26(5):474-480. 被引量：21
2陈为雄,李振龙.基于BDI模型的多机器人智能体系统设计[J].机器人,2004,26(4):310-313. 被引量：2
3汤琼,杨东勇.基于协作协进化的多智能体机器人协作研究[J].计算机工程与应用,2004,40(28):64-66. 被引量：3
4刘新宇,洪炳镕.基于强化学习的足球机器人协作策略研究[J].高技术通讯,2004,14(10):46-48. 被引量：2
5廖军,谭浩,刘锦德.基于Pi-演算的Web服务组合的描述和验证[J].计算机学报,2005,28(4):635-643. 被引量：107
6周浦城,洪炳镕,郭耸.基于强化学习的多机器人协作[J].计算机工程与应用,2005,41(28):10-12. 被引量：3
7刘淑华,田彦涛,刘金芳.扩展KQML在多移动机器人仿真系统中的应用[J].吉林大学学报（信息科学版）,2005,23(5):500-505. 被引量：3
8李长云,李赣生,何频捷.一种形式化的动态体系结构描述语言[J].软件学报,2006,17(6):1349-1359. 被引量：33
9郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
10李超明,苏开乐.一个基于智能的MAS模型及其方法论[J].计算机研究与发展,2007,44(6):980-989. 被引量：5

引证文献6

1耿盛涛,刘国栋.一种稳健的足球机器人目标识别算法[J].计算机系统应用,2010,19(12):54-58.
2柯文德,朴松昊,彭志平,蔡则苏,苑全德.基于π演算的足球机器人协作Q学习方法[J].计算机应用,2011,31(3):654-656. 被引量：4
3王腾,李长江.基于强化学习的全自主机器人足球系统协作研究[J].科学技术与工程,2011,11(5):979-982. 被引量：1
4柯文德,洪炳镕,崔刚,蔡则苏.一种基于π-MaxQ学习的多机器人协作方法[J].智能计算机与应用,2013,3(3):14-17. 被引量：2
5曹洁,朱宁宁.动态环境中的多机器人协同搬运[J].计算机工程与应用,2013,49(23):252-256. 被引量：1
6郑延斌,段领玉,李波,梁凯.基于演化博弈惩罚机制的多智能体协作稳定性研究[J].计算机工程与科学,2015,37(9):1682-1687. 被引量：3

二级引证文献11

1肖权,孔峰,谢广明.基于动态角色的多机器鱼协作顶球研究[J].机械设计,2012,29(7):24-28. 被引量：1
2柯文德,彭志平,陈珂,蔡则苏.新的多移动机器人任务协商模型[J].计算机应用,2013,33(2):346-349.
3柯文德,洪炳镕,崔刚,蔡则苏.一种基于π-MaxQ学习的多机器人协作方法[J].智能计算机与应用,2013,3(3):14-17. 被引量：2
4郝兆明,康倩.基于免疫机理的足球机器人协作控制研究[J].科学技术与工程,2014,22(8):36-41.
5马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
6赵发君,李龙澍.基于多Agent Q学习的RoboCup局部配合策略[J].计算机工程与应用,2014,50(23):127-130. 被引量：2
7王砚麟,赵志刚,石广田.多机器人协调吊运系统控制优化仿真[J].计算机仿真,2015,32(10):404-408. 被引量：8
8赵辉,刘雅喆.改进的Q学习算法在轨迹规划中的应用[J].吉林大学学报（信息科学版）,2016,34(5):697-702. 被引量：1
9陈海贝,卓翔芝.动态惩罚机制下智库行为及其监管策略的演化博弈分析[J].淮北师范大学学报（自然科学版）,2019,40(2):60-68. 被引量：2
10蒋欣然.控制论四要素视角下的高校内部控制问题分析与对策[J].商业会计,2020,0(5):26-31. 被引量：3

1薛宏涛,沈林成,常文森.方兴未艾的多智能体机器人技术[J].机器人技术与应用,1999(6):2-3. 被引量：1
2洪炳镕,朴松昊.基于冲突消解的群体智能机器人协作研究[J].哈尔滨工业大学学报,2003,35(9):1053-1055. 被引量：8
3雷小宇,杨胜跃,张亚鸣,樊晓平,瞿志华.基于协同进化的多智能体机器人路径规划[J].计算机系统应用,2010,19(11):157-161. 被引量：3
4谷宇奇,古天龙.基于描述逻辑和案例推理的Web服务发现[J].桂林电子科技大学学报,2015,35(6):466-470.
5陆远蓉.基于移动云计算架构的移动学习系统构建研究[J].智能计算机与应用,2015,5(4):45-47. 被引量：7
6侯跃恩,李伟光.结构稀疏表示分类目标跟踪算法[J].计算机科学与探索,2016,10(7):1035-1043.
7武玉坤.基于云计算的移动学习平台的设计[J].电脑知识与技术,2016,12(7X):89-90. 被引量：2
8宣冬梅,王菊韵,于华,赵佳.深度学习中先验知识的应用[J].计算机工程与设计,2015,36(11):3087-3091. 被引量：9
9张树东,曹元大,廖乐健.网格环境下的资源信用模型[J].北京理工大学学报,2004,24(11):971-973. 被引量：2
10树立人工智能发展里程碑赢得小平台技术战争——访中国机器人足球之父洪炳镕教授[J].科技成果管理与研究,2009(3):101-101.

华中科技大学学报（自然科学版）

2008年第S1期

浏览历史

内容加载中请稍等...

动态环境下的多智能体机器人协作模型被引量：6

参考文献3

二级参考文献15

共引文献11

同被引文献46

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

动态环境下的多智能体机器人协作模型 被引量：6

参考文献3

二级参考文献15

共引文献11

同被引文献46

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

动态环境下的多智能体机器人协作模型被引量：6