约束折扣半马氏决策规划被引量：2

ON DISCOUNTED SEMI-MARKOV DECISION PROCESSES WITH A CONSTRAINT

导出

摘要本文研究约束折扣半马氏决策规划（CDSMDP）问题，即在一折扣期望费用约束下，使折扣期望报酬达最大的约束最优问题.假设状态集可数，行动集为紧的非空Borel集.本文给出了p-约束最优策略的充要条件，证明了在适当的假设条件下必存在P-约束最优策略最后构造出一线性规划，证明了该线性规划的最优解与p-约束最优随机平稳策略之间存在——对应关系. In this paper, optimal causal policies maximizing the discounted reward over a semi-Markov decision process, subject to a constraint on a discounted cost, is investigated. Where the state set is countable, the action set is a non-empty Borel compact subset of a complete separable matric space. It is proved that there exists a p-constraint optimal stochastic stationary policy under some accessible conditions. Finally, a linear programming (LP) is given and the one-to-one corrpspondence between the optimal solution of LP and the p-constraint optimal stochastic stationary policy is proved.

作者胡光华张升

机构地区云南大学数学系

出处《应用数学学报》 CSCD 北大核心 1997年第2期187-195,共9页 Acta Mathematicae Applicatae Sinica

关键词半马氏决策规划约束最优策略线性规划 CDSMDP Semi-Markov decision process, P-constraint optimal policy, Linear programming

分类号 O221.5 [理学—运筹学与控制论] O211.62 [理学—数学]

引文网络
相关文献

参考文献3

1刘建庸，运筹与决策.2，1992年，1607页被引量：1
2张升，运筹与决策.2，1992年，1614页被引量：1
3董泽清，马尔可夫决策规划引论，1985年被引量：1

同被引文献8

1林元烈,伍从斌,康波大.Optimal models with maximizing probability of first achieving target value in the preceding stages[J].Science China Mathematics,2003,46(3):396-414. 被引量：1
2林元烈.OPTIMAL　MODELS　FOR　THE　FIRST　ARRIVAL　TIME　DISTRIBUTION　FUNCTION　IN　CONTINUOUS　TIME－WITH　A　SPECIAL　CASE[J].Acta Mathematicae Applicatae Sinica,1994,10(2):194-212. 被引量：3
3LIU Jianyong LIU Ke (Institute of Applied Mathematics,Academia Sinica,Beijing 100080,China).MARKOV DECISION PROGRAMMING-THE FIRST PASSAGE MODEL WITH DENUMERABLE STATE SPACE[J].Systems Science and Mathematical Sciences,1992,5(4):340-351. 被引量：2
4胡奇英.随机终止的非平稳折扣半马氏决策规划[J].应用数学学报,1993,16(4):566-570. 被引量：4
5黄永辉,郭先平.非负费用折扣半马氏决策过程[J].数学学报（中文版）,2010,53(3):503-514. 被引量：2
6Yong-hui Huang Xian-ping Guo.First Passage Models for Denumerable Semi-Markov Decision Processes with Nonnegative Discounted Costs[J].Acta Mathematicae Applicatae Sinica,2011,27(2):177-190. 被引量：2
7林元烈.连续时间首达目标模型(Ⅰ)——折扣矩最优模型[J].应用数学学报,1991,14(1):115-124. 被引量：4
8董泽清,宋京生.A SECONDARY APPROACH TO THE DISCOUNTED MODEL IN SEMI-MARKOV DECISION PROCESSES[J].Chinese Science Bulletin,1988,33(6):448-454. 被引量：1

引证文献2

1黄永辉,郭先平.非负费用折扣半马氏决策过程[J].数学学报（中文版）,2010,53(3):503-514. 被引量：2
2郭先平,黄永辉.半Markov决策过程的研究进展[J].中国科学：数学,2015,45(5):477-496.

二级引证文献2

1郭先平,黄永辉.半Markov决策过程的研究进展[J].中国科学：数学,2015,45(5):477-496.
2Fang CHEN,Xianping GUO,Zhong-Wei LIAO.Optimal stopping time on discounted semi-Markov processes[J].Frontiers of Mathematics in China,2021,16(2):303-324.

1贾让成.折扣半马氏决策模型的矩最优问题[J].工程数学学报,1989,6(3):108-111.
2贾让成.字典序下的折扣多目标半马氏决策模型[J].西安电子科技大学学报,1989,16(2):55-63.
3贾让成.折扣非时齐半马氏决策规划(Ⅰ)[J].西北师范大学学报（自然科学版）,1989,25(2):13-18.
4贾让成.折扣非时齐半马氏决策模型的两个基本问题[J].西北师范大学学报（自然科学版）,1991,27(1):24-28. 被引量：1
5刘建庸,黄思明,胡光华.具有多个向量约束的折扣马氏决策规划[J].科学通报,1995,40(16):1448-1451. 被引量：1
6伍从斌.无界报酬折扣半马氏决策模型矩最优策略的结构[J].云南大学学报（自然科学版）,1990,12(4):299-306. 被引量：1
7伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.
8胡奇英.随机冲击下的折扣半马氏决策规划[J].应用数学学报,1994,17(4):522-533. 被引量：1
9黄永辉,郭先平.非负费用折扣半马氏决策过程[J].数学学报（中文版）,2010,53(3):503-514. 被引量：2
10张道智.依赖于历史的折扣半马氏决策规划[J].清华大学学报（自然科学版）,1989,29(3):30-39.

应用数学学报

1997年第2期

浏览历史

内容加载中请稍等...

约束折扣半马氏决策规划被引量：2

参考文献3

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

约束折扣半马氏决策规划 被引量：2

参考文献3

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

约束折扣半马氏决策规划被引量：2