半Markov决策过程的研究进展

A survey on semi-Markov decision processes

导出

摘要本文综述半Markov决策过程(SMDP)理论的发展现状,主要介绍SMDP无限阶段期望折扣报酬准则、长期平均准则、有限阶段期望报酬准则、首达目标期望报酬准则、概率准则、受约束问题和均值-方差准则的研究工作,着重阐述这些优化准则的背景、意义、主要研究进展及有待研究的问题.最后,展望SMDP未来的一些潜在研究方向和相关问题. This paper is a survey on semi-Markov decision processes （SMDPs）. We present the background, the significance, and the research actuality of the infinite horizon expected discounted reward criterion, the long-run expected average reward criterion, the finite horizon expected reward criterion, the expected first passage reward criterion, the probability criterion, constrained problems, and mean-variance problems in SMDPs. At the same time, some issues to be studied in the future for these criteria or problems are pointed out. We also discuss potential research directions for SMDPs.

作者郭先平黄永辉

机构地区中山大学数学与计算科学学院

出处《中国科学：数学》 CSCD 北大核心 2015年第5期477-496,共20页 Scientia Sinica：Mathematica

基金国家自然科学基金(批准号:11471341和61374067)资助项目

关键词半MARKOV决策过程优化准则最优方程最优策略计算方法 semi-Markov decision processes optimality criteria optimality equation, optimal policy algo-rithm

分类号 O211.62 [理学—概率论与数理统计]

引文网络
相关文献

参考文献8

1Yong-hui Huang Xian-ping Guo.First Passage Models for Denumerable Semi-Markov Decision Processes with Nonnegative Discounted Costs[J].Acta Mathematicae Applicatae Sinica,2011,27(2):177-190. 被引量：2
2胡奇英.随机终止的非平稳折扣半马氏决策规划[J].应用数学学报,1993,16(4):566-570. 被引量：4
3黄永辉,郭先平.非负费用折扣半马氏决策过程[J].数学学报（中文版）,2010,53(3):503-514. 被引量：2
4LIU Jianyong LIU Ke (Institute of Applied Mathematics,Academia Sinica,Beijing 100080,China).MARKOV DECISION PROGRAMMING-THE FIRST PASSAGE MODEL WITH DENUMERABLE STATE SPACE[J].Systems Science and Mathematical Sciences,1992,5(4):340-351. 被引量：2
5胡光华,张升.约束折扣半马氏决策规划[J].应用数学学报,1997,20(2):187-195. 被引量：2
6林元烈.连续时间首达目标模型(Ⅰ)——折扣矩最优模型[J].应用数学学报,1991,14(1):115-124. 被引量：4
7林元烈,伍从斌,康波大.Optimal models with maximizing probability of first achieving target value in the preceding stages[J].Science China Mathematics,2003,46(3):396-414. 被引量：1
8林元烈.OPTIMAL　MODELS　FOR　THE　FIRST　ARRIVAL　TIME　DISTRIBUTION　FUNCTION　IN　CONTINUOUS　TIME－WITH　A　SPECIAL　CASE[J].Acta Mathematicae Applicatae Sinica,1994,10(2):194-212. 被引量：3

二级参考文献14

1林元烈.OPTIMAL　MODELS　FOR　THE　FIRST　ARRIVAL　TIME　DISTRIBUTION　FUNCTION　IN　CONTINUOUS　TIME－WITH　A　SPECIAL　CASE[J].Acta Mathematicae Applicatae Sinica,1994,10(2):194-212. 被引量：3
2胡光华,张升.约束折扣半马氏决策规划[J].应用数学学报,1997,20(2):187-195. 被引量：2
3林元烈，数学学报被引量：1
4胡奇英，数理统计与应用概率，1991年，6卷，1期，98页被引量：1
5刘建庸，运筹与决策.2，1992年，1607页被引量：1
6张升，运筹与决策.2，1992年，1614页被引量：1
7董泽清，马尔可夫决策规划引论，1985年被引量：1
8Liu Jianyong,Siming Huang.Markov Decision Processes with Distribution Function Criterion of First-Passage Time[J].Applied Mathematics & Optimization.2001(3) 被引量：1
9M. Bouakiz,Y. Kebir.Target-level criterion in Markov decision processes[J].Journal of Optimization Theory and Applications.1995(1) 被引量：1
10D. J. White.Mean, variance, and probabilistic criteria in finite Markov decision processes: A review[J].Journal of Optimization Theory and Applications.1988(1) 被引量：1

共引文献9

1胡奇英.随机冲击下的折扣半马氏决策规划[J].应用数学学报,1994,17(4):522-533. 被引量：1
2王彩卓.马尔科夫链的首中目标函数[J].唐山师范学院学报,2008,30(2):30-32.
3徐雅卿,魏轶华,胡奇英.基于Priceline的买方/卖方定价收益管理问题[J].管理科学学报,2008,11(3):63-69. 被引量：5
4吴加荣,谢明铎,何穗.一类马氏链的解及其数据仿真与应用[J].湖北师范学院学报（自然科学版）,2009,29(3):65-67.
5黄永辉,郭先平.非负费用折扣半马氏决策过程[J].数学学报（中文版）,2010,53(3):503-514. 被引量：2
6Yong-hui Huang Xian-ping Guo.First Passage Models for Denumerable Semi-Markov Decision Processes with Nonnegative Discounted Costs[J].Acta Mathematicae Applicatae Sinica,2011,27(2):177-190. 被引量：2
7刘秋丽.离散时间马氏决策过程的首达目标准则[J].应用数学学报,2011,34(6):976-987.
8张哲语,李怡含.关于国内OTA企业引进酒店预订反向定价模式可行性的研究分析——基于非平稳半马氏决策过程[J].特区经济,2018(12):99-104. 被引量：3
9Fang CHEN,Xianping GUO,Zhong-Wei LIAO.Optimal stopping time on discounted semi-Markov processes[J].Frontiers of Mathematics in China,2021,16(2):303-324.

1刘秋丽,杨洁.基于半Markov决策过程的概率布尔网络模型[J].华南师范大学学报（自然科学版）,2013,45(4):12-15.
2林元烈.连续时间首达目标模型(Ⅰ)——折扣矩最优模型[J].应用数学学报,1991,14(1):115-124. 被引量：4
3林元烈.连续时间首达目标模型(Ⅱ)──L最优问题[J].清华大学学报（自然科学版）,1993,33(3):1-9. 被引量：2
4贾让成.向量值有限平均MDP[J].西北师范大学学报（自然科学版）,1994,30(3):16-19.
5陈杰,刘再明,邢灵博.基于马氏决策向量过程模型的有限阶段期望总报酬准则及其最优方程[J].数学理论与应用,2011,31(4):7-13. 被引量：2
6张继红,郭世贞.有限阶段非马氏决策规划的ε最优策略及算法[J].昆明理工大学学报（理工版）,1998,23(2):100-106. 被引量：2
7刘迪芬,刘建庸,刘克.部分可观察马尔可夫决策规划──首达目标模型[J].应用数学学报,1994,17(1):44-58.
8徐晨,甘小冰.半马氏环境连续时间马氏决策过程:平均准则[J].数学研究,1998,31(3):312-318.
9陈杰,邢灵博.马氏决策向量过程模型的性质及其优越性定理[J].数学理论与应用,2013,33(1):94-99.
10Yong-hui Huang Xian-ping Guo.First Passage Models for Denumerable Semi-Markov Decision Processes with Nonnegative Discounted Costs[J].Acta Mathematicae Applicatae Sinica,2011,27(2):177-190. 被引量：2

中国科学：数学

2015年第5期

浏览历史

内容加载中请稍等...

半Markov决策过程的研究进展

参考文献8

二级参考文献14

共引文献9

相关作者

相关机构

相关主题

浏览历史