SMDP基于性能势的M步向前策略迭代

M-step look-ahead policy iteration for semi-Markov decision processes based on performance potentials

下载PDF

导出

摘要运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。 The semi-Markov decision processes （SMDPs） were studied by the M-step look-ahead policy iteration（PI） based on the performance potentials. A M-step look-ahead PI algorithm based on the solution of performance potential theory was proposed. The algorithm can be used to the standard PI as well as the conventional asynchronous PI, and is also consistent with the SMDP optimization under both discounted and averaged criteria. The formulation for the M-step look-ahead PI based on TD learning under both performance criteria was given. The features of the above algorithm were demonstrated by a numerical example.

作者吴玉华唐昊周雷

机构地区合肥工业大学计算机与信息学院

出处《吉林大学学报（工学版）》 EI CAS CSCD 北大核心 2006年第6期958-962,共5页 Journal of Jilin University:Engineering and Technology Edition

基金国家自然科学基金项目(60404009) 安徽省自然科学基金资助项目(050420303) 合肥工业大学中青年科技创新群体计划资助项目

关键词计算机应用半MARKOV决策过程性能势 M步向前策略迭代即时差分学习 computer application semi-Markov decision process （SMDP） performance potential M-step look-ahead policy iteration temporal difference（TD） learning

分类号 TP202 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1唐昊,周雷,袁继彬.平均和折扣准则MDP基于TD(0)学习的统一NDP方法[J].控制理论与应用,2006,23(2):292-296. 被引量：5
2唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
3殷保群等著..排队系统性能分析与Markov控制过程[M].合肥:中国科学技术大学出版社,2004:182.
4TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
5胡奇英,刘建庸著..马尔可夫决策过程引论[M].西安:西安电子科技大学出版社,2000:273.

二级参考文献6

1TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
2唐昊,奚宏生,殷保群.Markov控制过程基于单个样本轨道的在线优化算法[J].控制理论与应用,2002,19(6):865-871. 被引量：5
3奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
4唐昊,奚宏生,殷保群.Markov控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271. 被引量：5
5TANGHao XIHong-Sheng YINBao-Qun.A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）[J].自动化学报,2004,30(2):229-234. 被引量：4
6唐昊,韩江洪,高隽.连续时间Markov控制过程的平均代价最优鲁棒控制策略[J].中国科学技术大学学报,2004,34(2):219-225. 被引量：4

共引文献12

1唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
2唐昊,周雷,袁继彬.平均和折扣准则MDP基于TD(0)学习的统一NDP方法[J].控制理论与应用,2006,23(2):292-296. 被引量：5
3李豹,程文娟,周雷,唐昊.Rollout及其并行求解算法在多类商品库存控制中的应用[J].系统仿真学报,2007,19(17):3883-3887. 被引量：1
4程燕,唐昊,马学森.基于策略迭代和遗传算法的SMDP鲁棒控制策略求解[J].合肥工业大学学报（自然科学版）,2007,30(11):1404-1407. 被引量：1
5唐昊,陈栋,周雷,吴玉华.SMDP基于Actor网络的统一NDP方法[J].控制与决策,2007,22(2):155-159.
6周雷,唐昊,程燕.多链MDP的鲁棒控制策略求解[J].系统仿真学报,2008,20(24):6754-6758.
7唐昊,丁丽洁,程文娟,周雷.搬运系统作业分配问题的小脑模型关节控制器Q学习算法[J].控制理论与应用,2009,26(8):884-888. 被引量：3
8WEI Qing-Lai,ZHANG Hua-Guang,LIU De-Rong,ZHAO Yan.An Optimal Control Scheme for a Class of Discrete-time Nonlinear Systems with Time Delays Using Adaptive Dynamic Programming[J].自动化学报,2010,36(1):121-129. 被引量：17
9唐昊,万海峰,韩江洪,周雷.基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制[J].自动化学报,2010,36(2):289-296. 被引量：8
10王金田,唐昊,程文娟,毕翔.基于强化学习的异步动态定价算法[J].系统工程学报,2011,26(5):664-670. 被引量：4

1徐长明,马宗民,徐心和,李新星.面向机器博弈的即时差分学习研究[J].计算机科学,2010,37(8):219-223. 被引量：4
2李春贵,刘永信,王萌.平均报酬指标多步递推最小二乘即时差分学习[J].内蒙古大学学报（自然科学版）,2008,39(5):560-565.
3唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
4胡光华,胡光涛.基于线性近似的即时差分学习[J].云南大学学报（自然科学版）,2002,24(1):9-13. 被引量：2
5王海燕,欧阳丹彤,张永刚,张良.结合look-ahead值排序的自适应分支求解算法[J].通信学报,2013,34(6):102-107. 被引量：1
6唐昊,陈栋,周雷,吴玉华.SMDP基于Actor网络的统一NDP方法[J].控制与决策,2007,22(2):155-159.
7岳峰.一阶非线性随机系统的学习优化控制[J].合肥工业大学学报（自然科学版）,2010,33(5):679-682. 被引量：2
8周雷,孔凤,唐昊,张建军.小脑模型关节控制器网络在传送带给料生产加工站学习优化控制中的应用[J].控制理论与应用,2011,28(11):1665-1670. 被引量：2
9付跃文,仲伟波.基于多词汇树的对话语音识别搜索策略[J].微计算机信息,2007(03X):262-264.
10程文娟,唐昊,李豹,周雷.一种MDP基于性能势的并行Q学习算法[J].系统仿真学报,2009,21(9):2670-2674.

吉林大学学报（工学版）

2006年第6期

浏览历史

内容加载中请稍等...

SMDP基于性能势的M步向前策略迭代

参考文献5

二级参考文献6

共引文献12

相关作者

相关机构

相关主题

浏览历史