期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
随机模型检测连续时间Markov过程 被引量:2
1
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
下载PDF
Variance minimization for continuous-time Markov decision processes: two approaches 被引量:1
2
作者 ZHU Quan-xin 《Applied Mathematics(A Journal of Chinese Universities)》 SCIE CSCD 2010年第4期400-410,共11页
This paper studies the limit average variance criterion for continuous-time Markov decision processes in Polish spaces. Based on two approaches, this paper proves not only the existence of solutions to the variance mi... This paper studies the limit average variance criterion for continuous-time Markov decision processes in Polish spaces. Based on two approaches, this paper proves not only the existence of solutions to the variance minimization optimality equation and the existence of a variance minimal policy that is canonical, but also the existence of solutions to the two variance minimization optimality inequalities and the existence of a variance minimal policy which may not be canonical. An example is given to illustrate all of our conditions. 展开更多
关键词 continuous-time markov decision process Polish space variance minimization optimality equation optimality inequality.
下载PDF
Variance Optimization for Continuous-Time Markov Decision Processes
3
作者 Yaqing Fu 《Open Journal of Statistics》 2019年第2期181-195,共15页
This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space... This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space. The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space. Unlike the traditional Markov decision process, the cost function in the variance criterion will be affected by future actions. To this end, we convert the variance minimization problem into a standard (MDP) by introducing a concept called pseudo-variance. Further, by giving the policy iterative algorithm of pseudo-variance optimization problem, the optimal policy of the original variance optimization problem is derived, and a sufficient condition for the variance optimal policy is given. Finally, we use an example to illustrate the conclusion of this paper. 展开更多
关键词 continuous-time markov decision process Variance OPTIMALITY of Average REWARD Optimal POLICY of Variance POLICY ITERATION
下载PDF
Average Sample-path Optimality for Continuous-time Markov Decision Processes in Polish Spaces
4
作者 Quan-xin ZHU 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2011年第4期613-624,共12页
In this paper we study the average sample-path cost (ASPC) problem for continuous-time Markov decision processes in Polish spaces. To the best of our knowledge, this paper is a first attempt to study the ASPC criter... In this paper we study the average sample-path cost (ASPC) problem for continuous-time Markov decision processes in Polish spaces. To the best of our knowledge, this paper is a first attempt to study the ASPC criterion on continuous-time MDPs with Polish state and action spaces. The corresponding transition rates are allowed to be unbounded, and the cost rates may have neither upper nor lower bounds. Under some mild hypotheses, we prove the existence of (ε〉 0)-ASPC optimal stationary policies based on two different approaches: one is the "optimality equation" approach and the other is the "two optimality inequalities" approach. 展开更多
关键词 continuous-time markov decision process average sample-path optimality Polish space optimality equation optimality inequality
原文传递
基于马尔科夫过程的网络交易单积分声誉系统 被引量:2
5
作者 李家齐 惠雷 李博威 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第9期1468-1471,1475,共5页
基于鼓励商家在交易中选择守信策略,考虑对商家利益的保护,该文提出电子商务的单积分声誉机制的理念。分析电子商务平台上声誉与顾客到达之间的函数关系;建立基于连续时间Markov决策过程(CTMDP)的电子商务交易模型,给出不同策略下的收... 基于鼓励商家在交易中选择守信策略,考虑对商家利益的保护,该文提出电子商务的单积分声誉机制的理念。分析电子商务平台上声誉与顾客到达之间的函数关系;建立基于连续时间Markov决策过程(CTMDP)的电子商务交易模型,给出不同策略下的收益函数;基于上述交易模型对单积分声誉机制提供设计方法,提出了合理惩罚强度的概念并论证了最优策略随惩罚强度的增大而收敛。研究表明:利用合理惩罚强度对电子商务的单积分声誉进行加权运算,既可以激励商家选择守信策略,又确保商家的利益不会受到意外事件的严重威胁。 展开更多
关键词 电子商务 单积分声誉机制 markov过程 连续时间markov决策过程(CTMDP) 收益函数 惩罚强度
原文传递
报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划 被引量:2
6
作者 伍从斌 《应用数学学报》 CSCD 北大核心 1997年第2期196-208,共13页
本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可数行动集的连续时间折扣马氏决策规划进行研究.文中引入了一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及其结构,除证明了在有界报... 本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可数行动集的连续时间折扣马氏决策规划进行研究.文中引入了一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及其结构,除证明了在有界报酬和一致有界转移速率族下成立的主要结果外,本文还得到一些重要结论. 展开更多
关键词 马氏决策规划 转移速率族 CTMDP 报酬函数
原文传递
基于连续时间半马尔可夫决策过程的Option算法 被引量:2
7
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半markov决策过程 分层强化学习 Q学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部