向量值有限平均MDP

Averaged Einite Vactor Value Markov Decision Programming

下载PDF

导出

摘要讨论了向量值离散时间平均准则下的有限马氏决策模型；在采取确定性平稳策略时所得马氏决策过程为遍历的假设下，证明了存在一个至多在Ｋ－１个状态是随机的平稳最优策略，并给出了其线性规划算法。同时证明了存在强最优策略的充要条件是其存在强确定性平稳最优策略。 The vactor value Markov decision model is considered.It is assu med that the state andactionapaces are finite and the law of motion is unchain.i.e.every pure policy gives rise to a Merkov chainwith one recurrent class.It is proved that therc exists an optirnal stationary policy with a degree of ran-domization no more than K,A linear program pred1icing the optimal policy is presented.

作者贾让成

机构地区西北师范大学数学系

出处《西北师范大学学报（自然科学版）》 CAS 1994年第3期16-19,共4页 Journal of Northwest Normal University(Natural Science)

基金甘肃省教委自然科学基金

关键词向量值平均准则马氏决策过程 finite Markov decision model.optimal policy,vactor value,average criterion

分类号 O221.5 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1刘克,刘建庸.向量值半Markov决策规划[J].科学通报,1990,35(18):1364-1367. 被引量：5

二级参考文献1

1Dong Zeging，Sci Chin A，1986年，29卷，337页被引量：1

共引文献4

1曾庆宁.向量值半Markov决策规划的线性加权解法[J].应用数学,2001,14(S1):77-80.
2张升,张继红.无界报酬向量值折扣马氏决策规划[J].云南大学学报（自然科学版）,1993,15(3):200-207. 被引量：2
3章芸,郭世贞.具无界递归向量值报酬函数的非时齐马尔科夫决策规划[J].昆明工学院学报,1995,20(2):42-48.
4曾庆宁.向量值马氏决策规划的线性加权解法[J].应用数学学报,2001,24(4):630-632.

1徐晨,甘小冰.半马氏环境连续时间马氏决策过程:平均准则[J].数学研究,1998,31(3):312-318.
2胡奇英,刘建庸.马氏决策过程平均准则最优不等式综述[J].运筹学杂志,1996,15(2):1-9.
3郑少慧.具有平均准则的离散马氏规划——最优平稳策略存在的较弱条件[J].山东矿业学院学报,1989,8(4):95-100.
4胡奇英.报酬无界的平均准则马氏决策过程(英文)[J].运筹学学报,2002,6(1):1-8.
5宋学力,赵盼,王小伟.时滞脉冲周期细胞神经网络指数稳定性的平均准则（英文）[J].工程数学学报,2015,32(4):608-622. 被引量：1
6郭先平,肖果能.期望平均准则的半马氏MDP[J].长沙铁道学院学报,1995,13(3):71-78.
7张兰兰,郭先平.受控排队系统的平均最优与约束平均最优[J].控制理论与应用,2009,26(2):139-144. 被引量：1
8唐绍祥.基于马尔可夫过程的有限平均动态委托代理模型[J].数量经济技术经济研究,2001,18(10):47-50. 被引量：1
9刘再明,储育青,吴锦标.高负荷下分支型轮询排队网络的极限性态[J].中国科学：数学,2015,45(5):515-526.
10郭先平.MDP平均模型的强最优性[J].湖南师范大学自然科学学报,1996,19(1):21-24.

西北师范大学学报（自然科学版）

1994年第3期

浏览历史

内容加载中请稍等...

向量值有限平均MDP

参考文献1

二级参考文献1

共引文献4

相关作者

相关机构

相关主题

浏览历史