期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
Feature-Based Aggregation and Deep Reinforcement Learning:A Survey and Some New Implementations 被引量:15
1
作者 Dimitri P.Bertsekas 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2019年第1期1-31,共31页
In this paper we discuss policy iteration methods for approximate solution of a finite-state discounted Markov decision problem, with a focus on feature-based aggregation methods and their connection with deep reinfor... In this paper we discuss policy iteration methods for approximate solution of a finite-state discounted Markov decision problem, with a focus on feature-based aggregation methods and their connection with deep reinforcement learning schemes. We introduce features of the states of the original problem, and we formulate a smaller "aggregate" Markov decision problem, whose states relate to the features. We discuss properties and possible implementations of this type of aggregation, including a new approach to approximate policy iteration. In this approach the policy improvement operation combines feature-based aggregation with feature construction using deep neural networks or other calculations. We argue that the cost function of a policy may be approximated much more accurately by the nonlinear function of the features provided by aggregation, than by the linear function of the features provided by neural networkbased reinforcement learning, thereby potentially leading to more effective policy improvement. 展开更多
关键词 REINFORCEMENT learning dynamic programming markovian decision problems AGGREGATION feature-based ARCHITECTURES policy ITERATION DEEP neural networks rollout algorithms
下载PDF
综合利用水库优化调度的策略迭代法 被引量:2
2
作者 贺北方 张锡林 侯文林 《水电能源科学》 北大核心 1992年第1期15-22,共8页
本文针对以防洪灌溉为主,结合发电的综合利用水库的特点,建立了马尔可夫决策规划数学模型。文中应用策略迭代法求解。经实际应用表明模型及算法是合理的、实用的。
关键词 策略迭代法 优化 调度 水库
下载PDF
具无界递归报酬函数的非时齐马尔科夫决策规划 被引量:1
3
作者 章芸 郭世贞 《昆明工学院学报》 1993年第2期73-81,共9页
研究一类具有无界递归报酬函数的非时齐马尔科夫决策模型,建立了模型的最优方程,证明了ε—最优马氏策略的存在性,给出了一个策略为最优及该模型存在最优策略的充要条件。
关键词 递归报酬函数 马氏决策规划
下载PDF
现代战争条件下地导装备备件库存数量优化分析 被引量:1
4
作者 赵强 周林 +1 位作者 陈维 齐立辉 《兵工自动化》 2009年第2期54-56,60,共4页
对地导部队装备故障发生的概率、备件的需求及消耗情况、经费使用、备件在武器系统中重要度等因素进行分析,认为备件存储量可以降低,即不必按照备件的最大需求量来储存备件,而是根据备件存储不同状态下的最低库存量和备件重要度来决定... 对地导部队装备故障发生的概率、备件的需求及消耗情况、经费使用、备件在武器系统中重要度等因素进行分析,认为备件存储量可以降低,即不必按照备件的最大需求量来储存备件,而是根据备件存储不同状态下的最低库存量和备件重要度来决定备件的必要储备量。采用马尔科夫决策规划来分析零备件的随机动态存储问题,并结合实例进行分析。 展开更多
关键词 备件重要度 马尔科夫决策规划 备件库存
下载PDF
随机可重复使用资源分配问题的一种新算法
5
作者 李志刚 吴沧浦 《北京理工大学学报》 EI CAS CSCD 1997年第3期278-282,共5页
随机可重复使用资源的分配问题是一个马尔科夫决策问题,当系统资源种类数目较大时,该问题的求解十分复杂,首先结合人的决策行为特点作了某些合理假设,并将该模型转化为有限段的确定性决策问题;进而转化为一个整数视划问题,提出了... 随机可重复使用资源的分配问题是一个马尔科夫决策问题,当系统资源种类数目较大时,该问题的求解十分复杂,首先结合人的决策行为特点作了某些合理假设,并将该模型转化为有限段的确定性决策问题;进而转化为一个整数视划问题,提出了求解该问题的遗传算法。 展开更多
关键词 资源分配 随机动态规划 可重复使用 决策
下载PDF
策略迭代法在水库优化调度中的应用
6
作者 贺北方 石宾 罗贯英 《郑州工学院学报》 1991年第4期9-16,共8页
本文针对综合利用水库的特点,建立了水库优化调度的马尔可夫决策规划模型。文中论述了策略迭代的原理和方法,探讨了策略迭代法的应用。
关键词 策略迭代法 水库 优化调度
下载PDF
MARKOVIAN DECISION PROGRAMMING WITH RECURSIVE VECTOR-REWARD
7
作者 刘建庸 刘克 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 1990年第2期158-165,共8页
In this paper, we discuss Markovian decision programming with recursive vector-reward andgive an algorithm to find optimal policies. We prove that: (1) There is a Markovian optimal policy for the nonstationary case; ... In this paper, we discuss Markovian decision programming with recursive vector-reward andgive an algorithm to find optimal policies. We prove that: (1) There is a Markovian optimal policy for the nonstationary case; (2) Thereis a stationary optimal policy for the stationary case. 展开更多
关键词 TH markovian decision programming WITH RECURSIVE VECTOR-REWARD
原文传递
具有多项式报酬率的连续时间平均马氏决策规划
8
作者 郑少慧 《山东矿业学院学报》 CAS 1989年第1期84-90,共7页
本文讨论了状态空间可列、行动集为一般点集且具有多项式无界报酬率的连续时间平均马氏决策问题。在对折扣最优报酬函数的适当假设下,证明了平稳最优策略的存在性,所用的条件比以往的工作弱得多。
关键词 随机 马氏决策 多项式
下载PDF
备件储备量的马尔可夫决策模型研究 被引量:7
9
作者 朱一飞 黄国策 《空军工程大学学报(自然科学版)》 CSCD 2001年第2期91-94,共4页
在分析通信装备备件随机需求的基础上 ,结合费用因素 ,运用马氏决策规划方法 ,建立了备件随机存储管理的优化模型 ,并通过模型计算 ,给出了备件随机存储的最优策略。结果显示以此方法来控制备件储备量既能保障通信装备的维修需求 。
关键词 备件 储备量 马氏决策模型 可靠性 维修理论 马氏决策规划 随机存储管理 马尔可夫链
下载PDF
无界报酬向量值折扣马氏决策规划 被引量:2
10
作者 张升 张继红 《云南大学学报(自然科学版)》 CAS CSCD 1993年第3期200-207,共8页
本文建立了一类无界向量值报酬折扣马氏决策规划,在一组无关向量生成的凸锥确定的序关系下,讨论了模型最优策略的存在性;给出强最优策略存在的必要充分条件;指出最优策略的自组合、凸组合策咯仍是最优策略;还证明了平稳策略在一般策略... 本文建立了一类无界向量值报酬折扣马氏决策规划,在一组无关向量生成的凸锥确定的序关系下,讨论了模型最优策略的存在性;给出强最优策略存在的必要充分条件;指出最优策略的自组合、凸组合策咯仍是最优策略;还证明了平稳策略在一般策略类中的优势。 展开更多
关键词 无界报酬向量 马氏决策规划
原文传递
非时齐折扣马氏决策规划(一) 被引量:1
11
作者 张升 郭世贞 《云南大学学报(自然科学版)》 CAS CSCD 1990年第4期285-292,共8页
本文在状态集可数、行动集任意的条件下,讨沦报酬函数满足一种推广的绝对平均相对有界的非时齐折扣马氏决策规划;建立了模型的最优方程,证明了ε(>0)最优马氏策略的存在性;最后给出最优策略(最优马氏策略)存在的必要充分条件.
关键词 马氏决策规划 动态规划 最优策略
原文传递
VECTOR-VALUED SEMI-MARKOVIAN DECISION PROGRAMMING
12
作者 刘克 刘建庸 《Chinese Science Bulletin》 SCIE EI CAS 1991年第13期1065-1069,共5页
White and Furukawa have discussed vector-valued Markovian decision programming (VMDP). The relations between finite horizon and infinite horizon about VMDP were discussed in [1]. Furukawa generalized the iteration alg... White and Furukawa have discussed vector-valued Markovian decision programming (VMDP). The relations between finite horizon and infinite horizon about VMDP were discussed in [1]. Furukawa generalized the iteration algorithm from the scalar case into the vector case, and gave the method to find all optimal policies. His algorithm is described briefly in the following way: Starting with any stationary policy, we 展开更多
关键词 VECTOR-VALUED markovian decision programming OPTIMAL policy.
原文传递
机器更新决策规划中的强最优问题
13
作者 许永龙 《天津师大学报(自然科学版)》 1994年第4期14-19,共6页
在本文中,主要研究马尔科夫决策规划机器更新过程的平均目标“弱最优”“准强最优”“强最优”问题。文中把按数学期望意义下“平均”,总报酬的最优问题称为“弱最优”.同时,定义了“准强最优”“强最优”等标准。在以上三个最优的... 在本文中,主要研究马尔科夫决策规划机器更新过程的平均目标“弱最优”“准强最优”“强最优”问题。文中把按数学期望意义下“平均”,总报酬的最优问题称为“弱最优”.同时,定义了“准强最优”“强最优”等标准。在以上三个最优的标准下,对于非齐次马尔科夫决策规划机器更新问题,提出并解决了“弱最优”,“准强最优”,“强最优”在全体马氏策略类Πm上相互等价。 展开更多
关键词 机器更新过程 强最优策略 马尔科夫过程
下载PDF
无界报酬向量值折扣马氏决策规划──最优平稳策略及算法
14
作者 张升 张继红 《云南大学学报(自然科学版)》 CAS CSCD 1994年第4期299-305,共7页
本文主要讨论了无界报酬向量模型的平稳策略问题,给出了改进平稳策略的方法,建立起向量模型的最优方程,获得平稳策略为强最优策略的充要条件.指出最优平稳策略的期望报酬函数必为极大不动点,最后提出一种寻求最优平稳策略的策略迭... 本文主要讨论了无界报酬向量模型的平稳策略问题,给出了改进平稳策略的方法,建立起向量模型的最优方程,获得平稳策略为强最优策略的充要条件.指出最优平稳策略的期望报酬函数必为极大不动点,最后提出一种寻求最优平稳策略的策略迭代算法. 展开更多
关键词 折扣马氏决策规划 最优平稳策略 无界报酬向量
原文传递
非齐时折扣马氏决策规划的方差最小最优策略
15
作者 郭世贞 章芸 《昆明工学院学报》 1993年第5期69-78,共10页
讨论非齐时离散时间马尔科夫决策规划折扣准则下方差最小最优策略.为此目的,首先讨论了非负损失时的最优策略;在报酬绝对平均相对有界或非负损失下,证明了方差最小最优策略问題等价于一个非负损失折扣马氏决策规划;给出了存在方差最小... 讨论非齐时离散时间马尔科夫决策规划折扣准则下方差最小最优策略.为此目的,首先讨论了非负损失时的最优策略;在报酬绝对平均相对有界或非负损失下,证明了方差最小最优策略问題等价于一个非负损失折扣马氏决策规划;给出了存在方差最小最优策略的充要条件和寻求此最优策略的有限阶段逼近. 展开更多
关键词 非齐时折扣 马氏决策规划 最优策略
下载PDF
N阶段随机多目标决策的解法
16
作者 沈宗宣 《天津轻工业学院学报》 1992年第2期43-47,共5页
讨论了一种用于有限N个阶段随机多目标决策的方法及原理。该方法可用于N阶段随机多目标决策问题,并可得到满意解。
关键词 马尔可夫决策 多目标决策
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部