为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行...为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.展开更多
由于功耗的严格约束,现代嵌入式计算终端必须采用科学的动态功耗管理策略.文中在对计算机系统的动态功耗管理(Dynamic Power Management,DPM)模型深入研究的基础上,采用改进的DPM随机决策模型,从理论上证明了DPM最优策略是确定性马尔可...由于功耗的严格约束,现代嵌入式计算终端必须采用科学的动态功耗管理策略.文中在对计算机系统的动态功耗管理(Dynamic Power Management,DPM)模型深入研究的基础上,采用改进的DPM随机决策模型,从理论上证明了DPM最优策略是确定性马尔可夫策略,这为简化DPM控制算法提供了理论依据.在实例研究中,比较了空闲时间长度服从负指数分布与Pareto分布两种情况,发现经典的空闲时间长度服从负指数分布的假设与实际情况偏差很大.Pareto分布很好解释DPM超时策略在实际应用中可以取得优良节能效果这一现象.展开更多
文摘为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.
文摘由于功耗的严格约束,现代嵌入式计算终端必须采用科学的动态功耗管理策略.文中在对计算机系统的动态功耗管理(Dynamic Power Management,DPM)模型深入研究的基础上,采用改进的DPM随机决策模型,从理论上证明了DPM最优策略是确定性马尔可夫策略,这为简化DPM控制算法提供了理论依据.在实例研究中,比较了空闲时间长度服从负指数分布与Pareto分布两种情况,发现经典的空闲时间长度服从负指数分布的假设与实际情况偏差很大.Pareto分布很好解释DPM超时策略在实际应用中可以取得优良节能效果这一现象.