期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于连续Markov过程首超时间概率分析的结构动力可靠性研究 被引量:7
1
作者 杨伟军 张振浩 《工程力学》 EI CSCD 北大核心 2011年第7期124-129,135,共7页
对时间连续状态连续的Markov过程的首次超越时间Tf概率分布问题进行了研究。令过程在任意时刻t发生微增量?t,通过分析?t微时段内的概率变化关系寻求Markov过程的转移概率分布函数与其首超时间概率分布之间的内在联系,最终得到了首超时... 对时间连续状态连续的Markov过程的首次超越时间Tf概率分布问题进行了研究。令过程在任意时刻t发生微增量?t,通过分析?t微时段内的概率变化关系寻求Markov过程的转移概率分布函数与其首超时间概率分布之间的内在联系,最终得到了首超时间概率密度函数的解析显式表达式。由于在分析推导过程中没有采用苛刻的数学假定,因此该文结果在本质上属精确解。由于在常见随机荷载白噪声激励下线性体系的反应具有Markov性,而对于反应不是Markov过程的情形有不少实用的方法可将其转化为一维Markov过程,因此该文的研究结果具有一般性。 展开更多
关键词 桥梁工程 动力可靠度 概率分析 首次超越破坏机制 连续markov过程 首超时间
原文传递
连续时间Markov控制过程的平均代价最优鲁棒控制策略 被引量:4
2
作者 唐昊 韩江洪 高隽 《中国科学技术大学学报》 CAS CSCD 北大核心 2004年第2期219-225,共7页
在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选... 在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . 展开更多
关键词 markov性能势 连续时间markov控制过程 鲁棒控制策略 策略迭代 最优控制
下载PDF
基于马尔科夫过程的网络交易单积分声誉系统 被引量:2
3
作者 李家齐 惠雷 李博威 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第9期1468-1471,1475,共5页
基于鼓励商家在交易中选择守信策略,考虑对商家利益的保护,该文提出电子商务的单积分声誉机制的理念。分析电子商务平台上声誉与顾客到达之间的函数关系;建立基于连续时间Markov决策过程(CTMDP)的电子商务交易模型,给出不同策略下的收... 基于鼓励商家在交易中选择守信策略,考虑对商家利益的保护,该文提出电子商务的单积分声誉机制的理念。分析电子商务平台上声誉与顾客到达之间的函数关系;建立基于连续时间Markov决策过程(CTMDP)的电子商务交易模型,给出不同策略下的收益函数;基于上述交易模型对单积分声誉机制提供设计方法,提出了合理惩罚强度的概念并论证了最优策略随惩罚强度的增大而收敛。研究表明:利用合理惩罚强度对电子商务的单积分声誉进行加权运算,既可以激励商家选择守信策略,又确保商家的利益不会受到意外事件的严重威胁。 展开更多
关键词 电子商务 单积分声誉机制 markov过程 连续时间markov决策过程(CTMDP) 收益函数 惩罚强度
原文传递
Markov控制过程基于性能势仿真的并行优化 被引量:1
4
作者 高旭东 殷保群 +1 位作者 唐昊 奚宏生 《系统仿真学报》 CAS CSCD 2003年第11期1574-1576,共3页
Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的... Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的状态空间往往非常巨大,通常的串行仿真算法,可能耗时过长,也可能由于硬件限制而无法实现,故我们提出了一种基于性能势的并行仿真优化算法,来寻找系统的最优平稳策略。一个仿真实例表明该算法有较好的运行效率。该算法可应用于大规模实际系统的性能优化。 展开更多
关键词 性能势 并行仿真算法 连续时间markov控制过程 紧致行动集
下载PDF
随机模型检测连续时间Markov过程 被引量:2
5
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
下载PDF
连续时间Markov决策过程的均值-方差优化问题
6
作者 叶柳儿 黄香香 《中国科学:数学》 CSCD 北大核心 2014年第8期883-898,共16页
本文考虑连续时间Markov决策过程折扣模型的均值-方差优化问题.假设状态空间和行动空间均为Polish空间,转移率和报酬率函数均无界.本文的优化目标是在折扣最优平稳策略类里,选取相应方差最小的策略.本文致力于寻找Polish空间下Markov决... 本文考虑连续时间Markov决策过程折扣模型的均值-方差优化问题.假设状态空间和行动空间均为Polish空间,转移率和报酬率函数均无界.本文的优化目标是在折扣最优平稳策略类里,选取相应方差最小的策略.本文致力于寻找Polish空间下Markov决策过程均值-方差最优策略存在的条件.利用首次进入分解方法,本文证明均值-方差优化问题可以转化为"等价"的期望折扣优化问题,进而得到关于均值-方差优化问题的"最优方程"和均值-方差最优策略的存在性以及它相应的特征.最后,本文给出若干例子说明折扣最优策略的不唯一性和均值-方差最优策略的存在性. 展开更多
关键词 连续时间markov决策过程 折扣最优化 方差最小 均值-方差最优策略
原文传递
事件驱动Q学习在呼叫接入控制中的应用
7
作者 任付彪 周雷 +1 位作者 马学森 魏振春 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学... 文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。 展开更多
关键词 连续时间markov决策过程 事件驱动Q学习 呼叫接入控制
下载PDF
基于连续时间半马尔可夫决策过程的Option算法 被引量:2
8
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半markov决策过程 分层强化学习 Q学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部