期刊文献+
共找到1,109篇文章
< 1 2 56 >
每页显示 20 50 100
筛查幽门螺杆菌预防胃癌的Markov模型卫生经济学评价 被引量:27
1
作者 王倩 林果为 +2 位作者 金丕焕 陈洁 徐三荣 《中华流行病学杂志》 CAS CSCD 北大核心 2003年第2期135-139,共5页
目的 评价人群中筛查幽门螺杆菌 (Hp)感染预防胃癌的干预措施。 方法 用Markov模型MonteCarlo分析法估计筛查的远期效果和费用 ,并进行增量分析。结果 当根治Hp感染能减少胃癌发生的有效率为 50 %时 ,在 30~ 40岁的人群中进行一次... 目的 评价人群中筛查幽门螺杆菌 (Hp)感染预防胃癌的干预措施。 方法 用Markov模型MonteCarlo分析法估计筛查的远期效果和费用 ,并进行增量分析。结果 当根治Hp感染能减少胃癌发生的有效率为 50 %时 ,在 30~ 40岁的人群中进行一次性筛查Hp感染并治疗阳性者可减少1 6 .6 %的胃癌发生 ,每减少一例胃癌的费用为 1 0 4 0 5元 (95 %CI:42 38~ 2 772 7元 ) ,每增加一个质量调整生命年所增加的费用为 64元 (95 %CI:31~ 97元 ) ,每延长一个生命年所增加的费用为 1 374元(95 %CI:352~ 86 62 4元 )。结论 筛查Hp感染能减少部分胃癌的发生 ,在胃癌高发区筛查的效果更好 。 展开更多
关键词 幽门螺杆菌 预防 胃癌 markov模型 卫生经济学
原文传递
铁路客票最优动态票价理论研究 被引量:21
2
作者 史峰 郑国华 谷强 《铁道学报》 EI CAS CSCD 北大核心 2002年第1期1-4,共4页
客票票价体系是旅客运输市场化程度的标志 ,我国铁路旅客运输通过多年改革的摸索 ,逐步打破了客票票价几十年一成不变的僵化局面 ,在一定范围、一定时段内实行了票价浮动。相比之下 ,西方国家在动态票价方面早已进行了多年的市场化经营... 客票票价体系是旅客运输市场化程度的标志 ,我国铁路旅客运输通过多年改革的摸索 ,逐步打破了客票票价几十年一成不变的僵化局面 ,在一定范围、一定时段内实行了票价浮动。相比之下 ,西方国家在动态票价方面早已进行了多年的市场化经营与研究 ,形成了一整套成熟的客票票价体系。本文结合我国铁路运输市场票价管理的发展趋势和西方国家多年的研究成果 ,研究了我国铁路动态客票票价的最优策略和实用性问题 ,给出的递推公式可用于最优策略和实用策略的求解 ,为全国铁路客票发售和预订系统的票价计算子系统功能升级提供了理论依据 ,为开展我国铁路客票动态票价研究进行了有意义的尝试。 展开更多
关键词 中国 铁路 旅客运输 客票票价 马氏决策 动态票价 最优策略 实有策略
下载PDF
基于多级决策的多智能体自动导航车调度系统 被引量:11
3
作者 李晓萌 杨煜普 许晓鸣 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第8期1146-1149,共4页
提出基于多级决策和协作学习的方法来建立自动导航车 ( AGV)调度系统中每个 AGV所需要的动态分布式调度策略 .系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据... 提出基于多级决策和协作学习的方法来建立自动导航车 ( AGV)调度系统中每个 AGV所需要的动态分布式调度策略 .系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据其他 AGV当前的子任务建立自己的最有反应子任务 ;在行动级 ,智能体通过强化学习建立优化的动作策略来完成由选择级确定的子任务 .AGV调度仿真结果证明 ,该方法能提高系统的产量 。 展开更多
关键词 多智能体 自动导航车 调度系统 多级决策 markov对策 强化学习 动态分布式调度策略
下载PDF
基于马尔可夫决策的应急物资动态分配模型 被引量:14
4
作者 詹沙磊 傅培华 +1 位作者 李修琳 叶永 《控制与决策》 EI CSCD 北大核心 2018年第7期1312-1318,共7页
研究供需不平衡环境下的应急物资动态分配问题.考虑到台风灾害演变导致应急物资需求不断增长与应急物资供应相对紧缺之间的矛盾,将需求的演变设计成一个马尔可夫决策过程,建立基于马尔可夫决策的应急物资动态分配模型.通过二进制粒子群... 研究供需不平衡环境下的应急物资动态分配问题.考虑到台风灾害演变导致应急物资需求不断增长与应急物资供应相对紧缺之间的矛盾,将需求的演变设计成一个马尔可夫决策过程,建立基于马尔可夫决策的应急物资动态分配模型.通过二进制粒子群优化算法求解,最后将所提出模型应用于某台风发生时的救灾实例.实例分析表明,马尔可夫决策方法可以动态地做出合适的需求扑灭策略,使得整体的需求演变趋势保持平稳,整体的需求水平降到最低. 展开更多
关键词 应急物流 物资分配 台风灾害 马尔可夫决策 粒子群算法
原文传递
Markov过程理论在发电商报价策略选择中的应用 被引量:4
5
作者 刘严 谭忠富 +2 位作者 刘明明 杨力俊 王成文 《电工技术学报》 EI CSCD 北大核心 2005年第12期36-42,共7页
在电力市场的环境下,发电商在报价策略选择的过程中将面临许多不确定性因素,如各时段的系统负荷、市场边际价格、对手的报价策略、自身发电成本等,本文从发电商的角度出发对竞价策略的选择问题进行研究,将竞价策略选择的过程设计成为Mar... 在电力市场的环境下,发电商在报价策略选择的过程中将面临许多不确定性因素,如各时段的系统负荷、市场边际价格、对手的报价策略、自身发电成本等,本文从发电商的角度出发对竞价策略的选择问题进行研究,将竞价策略选择的过程设计成为Markov决策过程——一种抽象的随机优化方法,先将每个时段的报价简化为报价参数的选择,利用Markov过程理论对不确定性因素的出现进行概率估计,将发电商报价策略的选择问题表示为离散的随机优化过程—— Markov决策过程;通过使期望收益最大来计算最优策略,从而确定了每个时段发电商报价参数的最优选择,并将报价参数还原成为报价结果。 展开更多
关键词 markov过程 电力市场 竞价策略 决策制定
下载PDF
考虑马尔可夫决策的产消者P2P电能交易非合作博弈模型 被引量:6
6
作者 张帅 裴玮 +2 位作者 马腾飞 肖浩 唐成虹 《电力系统自动化》 EI CSCD 北大核心 2023年第13期18-27,共10页
随着电力市场改革的推进和分布式能源在用户端的大规模发展,基于产消者端对端(P2P)的电能交易逐渐成为促进分布式能源消纳的重要解决方案。为解决产消者多阶段P2P电能交易中互动行为的强不确定性、状态转移概率不明晰等问题,提出了一种... 随着电力市场改革的推进和分布式能源在用户端的大规模发展,基于产消者端对端(P2P)的电能交易逐渐成为促进分布式能源消纳的重要解决方案。为解决产消者多阶段P2P电能交易中互动行为的强不确定性、状态转移概率不明晰等问题,提出了一种考虑Markov决策过程的产消者P2P电能交易非合作博弈模型。首先,引入可将用户行为聚合的Markov决策过程,解决了产消者由阶段性交易决策随机性导致的用电行为不确定性问题。其次,针对产消者在P2P电能交易市场中相互竞争的角色地位,建立了考虑Markov决策过程的非合作博弈模型,以产消者收益最大化为目标,结合需求响应计算P2P交易的最优电价。再次,在证明非合作博弈Nash均衡解存在的基础上,采用Nikaido-Isoda函数将博弈问题等效转化为全局最优问题,并采用分布式算法进行求解,获取最优Nash均衡解,保障产消者最大收益。最后,通过算例证明了所提方法的有效性与可行性。 展开更多
关键词 端对端电能交易 非合作博弈 markov决策 需求响应 NASH均衡
下载PDF
基于Markov时间博弈的移动目标防御最优策略选取方法 被引量:10
7
作者 谭晶磊 张恒巍 +2 位作者 张红旗 金辉 雷程 《通信学报》 EI CSCD 北大核心 2020年第1期42-52,共11页
针对现有博弈模型难以有效建模网络攻防对抗动态连续特性的问题,提出了一种基于Markov时间博弈的移动目标防御最优策略选取方法。在分析移动目标攻防对抗过程的基础上,构建了移动目标攻防策略集合,利用时间博弈刻画了单阶段移动目标防... 针对现有博弈模型难以有效建模网络攻防对抗动态连续特性的问题,提出了一种基于Markov时间博弈的移动目标防御最优策略选取方法。在分析移动目标攻防对抗过程的基础上,构建了移动目标攻防策略集合,利用时间博弈刻画了单阶段移动目标防御过程的动态性,利用Markov决策过程描述了多阶段移动目标防御状态转化的随机性。同时,将攻防双方对资源脆弱性抽象为对攻击面控制权的交替,从而有效保证了博弈模型的通用性。在此基础上,分析并证明了均衡的存在性,设计了最优策略选取算法。最后,通过应用实例验证了所提模型的实用性和算法的有效性。 展开更多
关键词 时间博弈 移动目标攻击 移动目标防御 最优策略选取 markov决策
下载PDF
Markov预测与决策的Excel实现 被引量:8
8
作者 郭天印 《陕西工学院学报》 2003年第1期74-76,81,共4页
 针对某地区市场销售份额预测与决策的实例,通过建立Markov链模型,利用Excel软件,完成了该实例的预测与决策。
关键词 markov 预测 决策 EXCEL实现
下载PDF
基于多阶段Markov信号博弈的移动目标防御最优决策方法 被引量:9
9
作者 蒋侣 张恒巍 王晋东 《电子学报》 EI CAS CSCD 北大核心 2021年第3期527-535,共9页
随着移动目标防御技术研究的不断深入,移动目标防御策略选取问题成为当前研究的热点问题之一,本文提出一种基于多阶段Markov信号博弈模型的移动目标防御最优策略选取方法.首先,结合攻防实际,提出实施攻击所需构建的攻击链模型.其次,在... 随着移动目标防御技术研究的不断深入,移动目标防御策略选取问题成为当前研究的热点问题之一,本文提出一种基于多阶段Markov信号博弈模型的移动目标防御最优策略选取方法.首先,结合攻防实际,提出实施攻击所需构建的攻击链模型.其次,在考虑状态随机跳变的基础上,将多阶段信号博弈模型与Markov决策过程相结合,构建基于多阶段Markov信号博弈的移动目标防御模型.同时,引入Logistic映射刻画攻防博弈系统中可能造成概率更新过程失真的随机干扰因素.在形式化建模的基础上,设计折扣收益目标函数,并提出均衡求解算法,给出最优防御策略选取算法.最后,通过仿真实验验证模型和方法的有效性. 展开更多
关键词 移动目标防御 markov决策 多阶段信号博弈 最优策略选取 LOGISTIC映射
下载PDF
Markov decision evolutionary game theoretic learning for cooperative sensing of unmanned aerial vehicles 被引量:9
10
作者 SUN ChangHao DUAN HaiBin 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2015年第8期1392-1400,共9页
As one of the major contributions of biology to competitive decision making, evolutionary game theory provides a useful tool for studying the evolution of cooperation. To achieve the optimal solution for unmanned aeri... As one of the major contributions of biology to competitive decision making, evolutionary game theory provides a useful tool for studying the evolution of cooperation. To achieve the optimal solution for unmanned aerial vehicles (UAVs) that are car- rying out a sensing task, this paper presents a Markov decision evolutionary game (MDEG) based learning algorithm. Each in- dividual in the algorithm follows a Markov decision strategy to maximize its payoff against the well known Tit-for-Tat strate- gy. Simulation results demonstrate that the MDEG theory based approach effectively improves the collective payoff of the roam. The proposed algorithm can not only obtain the best action sequence but also a sub-optimal Markov policy that is inde- pendent of the game duration. Furthermore, the paper also studies the emergence of cooperation in the evolution of self-regarded UAVs. The results show that it is the adaptive ability of the MDEG based approach as well as the perfect balance between revenge and forgiveness of the Tit-for-Tat strategy that the emergence of cooperation should be attributed to. 展开更多
关键词 unmanned aerial vehicles (UAVs) iterated prisoner's dilemma (IPD) markov decision evolutionary game (MDEG) replicator dynamics COOPERATION
原文传递
马尔可夫决策过程在视情维修中的应用 被引量:3
11
作者 张秀斌 郭波 谭跃进 《工业工程》 2002年第6期53-55,共3页
在实际应用视情维修中,维修时机的确定通常是通过经验或简单的趋势检验,其结果比较粗糙,不便于应用。在本文中,我们研究了应用马尔可夫过程描述系统劣化的过程。针对维修与不维修两种决策行为,以单位时间费用最低为目标的决策过程,并给... 在实际应用视情维修中,维修时机的确定通常是通过经验或简单的趋势检验,其结果比较粗糙,不便于应用。在本文中,我们研究了应用马尔可夫过程描述系统劣化的过程。针对维修与不维修两种决策行为,以单位时间费用最低为目标的决策过程,并给出了具体算法计算维修状态阈值。最后,通过一个例子说明了决策的过程。 展开更多
关键词 马尔可夫决策过程 视情维修 设备维修 预防性维修
下载PDF
基于人工智能深度增强学习的装备维修保障兵棋研究 被引量:8
12
作者 李承兴 高桂清 +1 位作者 鞠金鑫 蒋振 《兵器装备工程学报》 CAS 北大核心 2018年第2期61-65,共5页
为提升装备维修保障兵棋系统的学习能力和对抗水平,前沿性的将人工智能领域相关理论技术应用到系统中,通过运用马尔科夫决策过程(MDP)与神经网络等方法,在系统内部建立环境感知反馈、过程在线学习等通道,进一步扩展、增强和延伸系统中A... 为提升装备维修保障兵棋系统的学习能力和对抗水平,前沿性的将人工智能领域相关理论技术应用到系统中,通过运用马尔科夫决策过程(MDP)与神经网络等方法,在系统内部建立环境感知反馈、过程在线学习等通道,进一步扩展、增强和延伸系统中AI的角色能力,并随着推演次数的增加充分挖掘系统数据资源潜能,同步增强AI的推演行动反馈及战术策略应用能力,提升利用效率,实现推演-学习-推演的有效循环,以此来逐步提高兵棋系统的对抗推演水准,同步带动装备指挥员谋略决策能力的进一步提升,达到向实战化靠拢的要求。 展开更多
关键词 装备维修保障 兵棋推演 人工智能技术 马尔科夫决策 神经网络
下载PDF
火控相控阵雷达的时间资源管理算法 被引量:8
13
作者 秦童 戴奉周 +1 位作者 刘宏伟 方明 《系统工程与电子技术》 EI CSCD 北大核心 2016年第3期545-550,共6页
对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,... 对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,综合考虑了测距与测速精度对跟踪误差产生影响。而后,采用马尔可夫决策的方法,对雷达照射目标的驻留时间与重访时间间隔进行求解。仿真结果表明,对于雷达场景中的目标数量较大情况下,相对于传统的雷达时间资源管理方法,该文提出的方法在保证跟踪精度符合要求的前提下,能够有效提高雷达最大可跟踪目标的数量。 展开更多
关键词 火控相控阵雷达 时间资源管理 马尔可夫决策过程
下载PDF
拦截大气层内机动目标的深度强化学习制导律 被引量:7
14
作者 邱潇颀 高长生 荆武兴 《宇航学报》 EI CAS CSCD 北大核心 2022年第5期685-695,共11页
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述... 针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。 展开更多
关键词 导弹制导 大气层内拦截 机动目标 深度强化学习 马尔科夫决策
下载PDF
Reinforcement Learning-Based Joint Task Offloading and Migration Schemes Optimization in Mobility-Aware MEC Network 被引量:8
15
作者 Dongyu Wang Xinqiao Tian +1 位作者 Haoran Cui Zhaolin Liu 《China Communications》 SCIE CSCD 2020年第8期31-44,共14页
Intelligent edge computing carries out edge devices of the Internet of things(Io T) for data collection, calculation and intelligent analysis, so as to proceed data analysis nearby and make feedback timely. Because of... Intelligent edge computing carries out edge devices of the Internet of things(Io T) for data collection, calculation and intelligent analysis, so as to proceed data analysis nearby and make feedback timely. Because of the mobility of mobile equipments(MEs), if MEs move among the reach of the small cell networks(SCNs), the offloaded tasks cannot be returned to MEs successfully. As a result, migration incurs additional costs. In this paper, joint task offloading and migration schemes in mobility-aware Mobile Edge Computing(MEC) network based on Reinforcement Learning(RL) are proposed to obtain the maximum system revenue. Firstly, the joint optimization problems of maximizing the total revenue of MEs are put forward, in view of the mobility-aware MEs. Secondly, considering time-varying computation tasks and resource conditions, the mixed integer non-linear programming(MINLP) problem is described as a Markov Decision Process(MDP). Then we propose a novel reinforcement learning-based optimization framework to work out the problem, instead traditional methods. Finally, it is shown that the proposed schemes can obviously raise the total revenue of MEs by giving simulation results. 展开更多
关键词 MEC computation offloading mobility-aware migration scheme markov decision process reinforcement learning
下载PDF
一种基于信念状态压缩的实时POMDP算法 被引量:6
16
作者 仵博 吴敏 《控制与决策》 EI CSCD 北大核心 2007年第12期1417-1420,共4页
针对求解部分可观察马尔可夫决策过程(POMDP)信念状态空间是NP难问题,提出一种信念状态空间压缩(BSSC)算法.将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩,降低求解规模,达到实时决策... 针对求解部分可观察马尔可夫决策过程(POMDP)信念状态空间是NP难问题,提出一种信念状态空间压缩(BSSC)算法.将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩,降低求解规模,达到实时决策的目的.对比实验表明,所提出的算法可以快速求解最优策略和最优值函数. 展开更多
关键词 马尔可夫 可观察马尔可夫决策过程 决策算法 决策树
下载PDF
Driving force planning in shield tunneling based on Markov decision processes 被引量:7
17
作者 HU XiangTao HUANG YongAn +1 位作者 YIN ZhouPing XIONG YouLun 《Science China(Technological Sciences)》 SCIE EI CAS 2012年第4期1022-1030,共9页
In shield tunneling, the control system needs very reliable capability of deviation rectifying in order to ensure that the tunnel trajectory meets the permissible criterion. To this goal, we present an approach that a... In shield tunneling, the control system needs very reliable capability of deviation rectifying in order to ensure that the tunnel trajectory meets the permissible criterion. To this goal, we present an approach that adopts Markov decision process (MDP) theory to plan the driving force with explicit representation of the uncertainty during excavation. The shield attitudes of possi- ble world and driving forces during excavation are scattered as a state set and an action set, respectively. In particular, an evaluation function is proposed with consideration of the stability of driving force and the deviation of shield attitude. Unlike the deterministic approach, the driving forces based on MDP model lead to an uncertain effect and the attitude is known only with an imprecise probability. We consider the case that the transition probability varies in a given domain estimated by field data, and discuss the optimal policy based on the interval arithmetic. The validity of the approach is discussed by comparing the driving force planning with the actual operating data from the field records of Line 9 in Tianjin. It is proved that the MDP model is reasonable enough to predict the driving force for automatic deviation rectifying. 展开更多
关键词 shield tunneling markov decision process automatic deviation rectifying interval arithmetic driving force planning
原文传递
Model-free Demand Response Scheduling Strategy for Virtual Power Plants Considering Risk Attitude of Consumers 被引量:3
18
作者 Yi Kuang Xiuli Wang +4 位作者 Hongyang Zhao Tao Qian Nailiang Li Jianxue Wang Xifan Wang 《CSEE Journal of Power and Energy Systems》 SCIE EI CSCD 2023年第2期516-528,共13页
Driven by modern advanced information and communication technologies,distributed energy resources have great potential for energy supply within the framework of the virtual power plant(VPP).Meanwhile,demand response(D... Driven by modern advanced information and communication technologies,distributed energy resources have great potential for energy supply within the framework of the virtual power plant(VPP).Meanwhile,demand response(DR)is becoming increasingly important for enhancing the VPP operation and mitigating the risks associated with the fluctuation of renewable energy resources(RESs).In this paper,we propose an incentivebased DR program for the VPP to minimize the deviation penalty from participating in the power market.The Markov decision process(MDP)with unknown transition probability is constructed from the VPP’s prospective to formulate an incentivebased DR program,in which the randomness of consumer behavior and RES generation are taken into consideration.Furthermore,a value function of prospect theory(PT)is developed to characterize consumer’s risk attitude and describe the psychological factors.A model-free deep reinforcement learning(DRL)-based approach is proposed to deal with the randomness existing in the model and adaptively determine the optimal DR pricing strategy for the VPP,without requiring any system model information.Finally,the results of cases tested demonstrate the effectiveness of the proposed approach. 展开更多
关键词 Incentive-based demand response markov decision process virtual power plant
原文传递
基于深度强化学习的柔性作业车间节能调度研究 被引量:1
19
作者 张中伟 李艺 +1 位作者 高增恩 武照云 《工业工程》 2024年第1期78-85,103,共9页
针对当前柔性作业车间节能调度研究无法充分利用历史生产数据,且对复杂、动态、多变的车间生产环境适应性不足的问题,引入深度强化学习思想,利用具有代表性的深度Q网络(deep Q-network,DQN)求解柔性作业车间节能调度问题。将柔性作业车... 针对当前柔性作业车间节能调度研究无法充分利用历史生产数据,且对复杂、动态、多变的车间生产环境适应性不足的问题,引入深度强化学习思想,利用具有代表性的深度Q网络(deep Q-network,DQN)求解柔性作业车间节能调度问题。将柔性作业车间节能调度问题转化为强化学习对应的马尔科夫决策过程。进而,提炼表征车间生产状态特征的状态值作为神经网络输入,通过神经网络拟合状态值函数,输出复合调度动作规则实现对工件以及加工机器的选择,并利用动作规则与奖励函数协同优化能耗。在3个不同规模的案例上与非支配排序遗传算法、超启发式遗传算法、改进狼群算法等典型智能优化方法进行求解效果对比。结果表明,DQN算法有较强的搜索能力,且最优解分布情况与提出的柔性作业车间节能调度模型聚焦能耗目标相一致,从而验证了所用DQN方法的有效性。 展开更多
关键词 柔性作业车间节能调度 深度强化学习 深度Q网络 马尔科夫决策
下载PDF
A dynamical neural network approach for distributionally robust chance-constrained Markov decision process 被引量:1
20
作者 Tian Xia Jia Liu Zhiping Chen 《Science China Mathematics》 SCIE CSCD 2024年第6期1395-1418,共24页
In this paper,we study the distributionally robust joint chance-constrained Markov decision process.Utilizing the logarithmic transformation technique,we derive its deterministic reformulation with bi-convex terms und... In this paper,we study the distributionally robust joint chance-constrained Markov decision process.Utilizing the logarithmic transformation technique,we derive its deterministic reformulation with bi-convex terms under the moment-based uncertainty set.To cope with the non-convexity and improve the robustness of the solution,we propose a dynamical neural network approach to solve the reformulated optimization problem.Numerical results on a machine replacement problem demonstrate the efficiency of the proposed dynamical neural network approach when compared with the sequential convex approximation approach. 展开更多
关键词 markov decision process chance constraints distributionally robust optimization moment-based ambiguity set dynamical neural network
原文传递
上一页 1 2 56 下一页 到第
使用帮助 返回顶部