一种基于广义异步值迭代的规划网络模型

Planning Network Model Based on Generalized Asynchronous Value Iteration

下载PDF

导出

摘要近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值迭代过程进行规划,从而在具有非规则图形结构的任务中产生具有泛化能力的策略.然而,由于没有考虑根据状态重要性来合理分配规划时间,广义值迭代网络中的每一轮迭代都需要在整个状态空间的所有状态上同步执行.当状态空间较大时,这样的同步更新会降低网络的规划性能.用异步更新的思想来进一步研究广义值迭代网络.通过在值迭代过程中定义状态优先级并执行异步值更新,提出了一种新型的异步规划网络模型——广义异步值迭代网络.在未知的非规则结构任务中,与广义值迭代网络相比,广义异步值迭代网络具有更高效且更有效的规划过程.进一步地,改进了广义值迭代网络中的强化学习算法及图形卷积算子,并通过在非规则图形和真实地图中的路径规划实验验证了改进方法的有效性. In recent years,how to generate policies with generalization abilities has become one of the hot issues in the field of deep reinforcement learning,and many related research achievements have appeared.One representative work among them is generalized value iteration network(GVIN).GVIN is a differential planning network that uses a special graph convolution operator to approximately represent a state-transition matrix,and uses the value iteration(VI)process to perform planning during the learning of structure information in irregular graphs,resulting in policies with generalization abilities.In GVIN,each round of VI involves performing value updates synchronously at all states over the entire state space.Since there is no consideration about how to rationally allocate the planning time according to the importance of states,synchronous updates may degrade the planning performance of network when the state space is large.This work applies the idea of asynchronous update to further study GVIN.By defining the priority of each state and performing asynchronous VI,a planning network is proposed,it is called generalized asynchronous value iteration network(GAVIN).In unknown tasks with irregular graph structure,compared with GVIN,GAVIN has a more efficient and effective planning process.Furthermore,this work improves the reinforcement learning algorithm and the graph convolutional operator in GVIN,and their effectiveness are verified by path planning experiments in irregular graphs and real maps.

作者陈子璇章宗长潘致远张琳婧 CHEN Zi-Xuan;ZHANG Zong-Zhang;PAN Zhi-Yuan;ZHANG Lin-Jing(State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210023,China;School of Computer Science and Technology,Soochow University,Suzhou 215006,China)

机构地区计算机软件新技术国家重点实验室(南京大学) 苏州大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2021年第11期3496-3511,共16页 Journal of Software

基金国家自然科学基金(61876119) 江苏省自然科学基金(BK20181432) 中央高校基本科研业务费专项资金(022114380010)。

关键词深度学习强化学习模仿学习规划异步更新 deep learning reinforcement learning imitation learning planning asynchronous update

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：628
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：484

二级参考文献36

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3BENGIO Y, DELALLEAU O. On the expressive power of deep archi- tectures[ C ]//Proc of the 14th International Conference on Discovery Science. Berlin : Springer-Verlag, 2011 : 18 - 36. 被引量：1
4BENGIO Y. Leaming deep architectures for AI[ J]. Foundations and Trends in Machine Learning ,2009,2 ( 1 ) : 1-127. 被引量：1
5HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets [ J ]. Neural Computation ,2006,18 (7) : 1527-1554. 被引量：1
6BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks [ C ]//Proc of the 12th Annual Conference on Neural Information Processing System. 2006:153-160. 被引量：1
7LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning ap- plied to document recognition[ J]. Proceedings of the iEEE, 1998, 86( 11 ) :2278-2324. 被引量：1
8VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[ C ]//Proc of the 25th International Conference on Machine Learning. New York: ACM Press ,2008 : 1096-1103. 被引量：1
9VINCENT P, LAROCHELLE H, LAJOIE I, et aL Stacked denoising autoencoders:learning useftd representations in a deep network with a local denoising criterion [ J ]. Journal of Machine Learning Re- search ,2010,11 ( 12 ) :3371-3408. 被引量：1
10YU Dong, DENG Li. Deep convex net: a scalable architecture for speech pattern classification [ C]//Proc of the 12th Annual Confe-rence of International Speech Comunication Association. 2011 : 2285- 2288. 被引量：1

共引文献1104

1吴秀平,赵咏梅,凌静思.幼儿游戏深度学习行为的支持体系建构[J].教育科学论坛,2024(2):63-66.
2傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
3刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：46
7高嵩.深度学习在机场能见度预测中的应用[J].计算机产品与流通,2020,0(4):260-260. 被引量：2
8张永玲.以深度学习为核心的小学数学有效教学策略研究[J].理科爱好者（教育教学版）,2019,0(5):248-249. 被引量：2
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：8
10周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：3

1王鹏飞,朱金华,孙本兰.政府会计视角下的地勘单位内控探析[J].中国总会计师,2021(10):118-120. 被引量：1
2杨红军.一道中考试题的多种解法及启示[J].初中数学教与学,2021(9):35-36.
3田鹏,王海辉.几何背景下向量最值问题的求解策略[J].中学生数学,2021(23):19-22.
4雷红臣,李小华,刘辉,何志江.控制方向未知的非线性系统切换自适应全局快速有限时间控制[J].安徽大学学报（自然科学版）,2021,45(6):54-64. 被引量：1
5中华精神科杂志编辑部.欢迎关注本刊官方微信公众平台[J].中华精神科杂志,2021,54(6):479-479.
6林运来.解析经典试题发展核心素养[J].数学通讯,2021(21):12-15.
7盖赟,荆国栋.多尺度密集网络在红外和可见光图像融合应用[J].计算机系统应用,2021,30(11):336-341. 被引量：3
8雷兵,张龙,吴荣真,易剑昱.滚动轴承故障时序可拓智能诊断方法[J].机械设计与研究,2021,37(5):88-93. 被引量：4
9徐胜林.2021年全国高中数学联合竞赛加试(A卷)平面几何题的证法赏析[J].数学通讯,2021(22):56-59. 被引量：2
10宋翔,马文超,李海涵.车载燃料电池的故障诊断系统设计[J].机电工程技术,2021,50(11):137-140. 被引量：1

软件学报

2021年第11期

浏览历史

内容加载中请稍等...

一种基于广义异步值迭代的规划网络模型

参考文献2

二级参考文献36

共引文献1104

相关作者

相关机构

相关主题

浏览历史