期刊文献+
共找到169篇文章
< 1 2 9 >
每页显示 20 50 100
强化学习研究综述 被引量:60
1
作者 陈学松 杨宜民 《计算机应用研究》 CSCD 北大核心 2010年第8期2834-2838,2844,共6页
在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成... 在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent系统问题等若干领域的成功应用和未来的发展方向。 展开更多
关键词 强化学习 多智能体 马尔可夫决策过程
下载PDF
动态武器目标分配问题的研究现状与展望 被引量:46
2
作者 刘传波 邱志明 +1 位作者 吴玲 王航宇 《电光与控制》 北大核心 2010年第11期43-48,共6页
动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段... 动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段求解法、马尔可夫决策过程及anytime算法等,提出了现阶段对于DWTA问题研究的不足和未来尚需解决的问题,并指出在充分考虑时空约束的基础上,寻求一种具有任意时间特性且能灵活处理随机事件的智能算法是解决DWTA问题的有效途径。 展开更多
关键词 动态武器目标分配 马尔可夫决策过程 时间窗 ANYTIME算法
下载PDF
神经网络增强学习的梯度算法研究 被引量:21
3
作者 徐昕 贺汉根 《计算机学报》 EI CSCD 北大核心 2003年第2期227-233,共7页
针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman... 针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标 ,以实现对Markov决策过程最优值函数的逼近 .对算法的收敛性和近似最优策略的性能进行了理论分析 .通过Mountain Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能 . 展开更多
关键词 神经网络 增强学习 梯度算法 markov决策过程 值函数逼近 机器学习
下载PDF
计算机系统与计算机网络中的动态优化:模型、求解与应用 被引量:27
4
作者 林闯 万剑雄 +2 位作者 向旭东 孟坤 王元卓 《计算机学报》 EI CSCD 北大核心 2012年第7期1339-1357,共19页
动态优化是计算机系统与计算机网络中进行资源分配与任务调度等方面研究所采用的主要理论工具之一.目前,国内外已开展大量研究,致力于深化动态优化的理论研究与工程应用.文中从模型、求解与应用3个角度,对马尔可夫决策过程动态优化理论... 动态优化是计算机系统与计算机网络中进行资源分配与任务调度等方面研究所采用的主要理论工具之一.目前,国内外已开展大量研究,致力于深化动态优化的理论研究与工程应用.文中从模型、求解与应用3个角度,对马尔可夫决策过程动态优化理论模型进行了综述,并重点介绍了将动态优化理论与随机Petri网理论相结合的马尔可夫决策Petri网和随机博弈网模型,详细讨论了这些模型的建模方法、求解算法与一些应用实例.最后,对全文进行了总结,并对未来可能的研究方向进行了展望. 展开更多
关键词 动态优化 马尔可夫决策过程 随机PETRI网 马尔可夫决策Petri网 随机博弈网
下载PDF
基于马尔科夫决策过程的应急资源调度方案的动态优化 被引量:22
5
作者 王炜 刘茂 王丽 《南开大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第3期18-23,共6页
利用马尔科夫决策方法,对突发公共事件下的应急资源调度方案的动态优化过程进行研究,以期找到特定场景下最优应急资源调度方案,保证应急救援行动的时效性.通过实例分析表明,基于马尔科夫决策过程的应急资源调度方案动态优化方法可实现... 利用马尔科夫决策方法,对突发公共事件下的应急资源调度方案的动态优化过程进行研究,以期找到特定场景下最优应急资源调度方案,保证应急救援行动的时效性.通过实例分析表明,基于马尔科夫决策过程的应急资源调度方案动态优化方法可实现应急资源调度方案的动态优化,未来通过采用本方法,可以为突发公共事件下的应急资源动态调度提供依据. 展开更多
关键词 马尔科夫决策过程 应急资源 调度 动态优化
下载PDF
基于SMDP环境的自主生成options算法的研究 被引量:9
6
作者 苏畅 高阳 +1 位作者 陈世福 陈兆乾 《模式识别与人工智能》 EI CSCD 北大核心 2005年第6期679-684,共6页
$options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法!该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的options.本文首先提出了一种基于访问落差变化率的子目标找寻算法,该算法克服了现有算法的低精确性和部... $options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法!该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的options.本文首先提出了一种基于访问落差变化率的子目标找寻算法,该算法克服了现有算法的低精确性和部分依赖人为因素的弊病,然后在该算法的基础上,提出了构造options的算法流程,并把这一算法运用于迷宫问题之中。实验结果表明利用实验生成的options可以大大加快学习的效率。 展开更多
关键词 强化学习 马尔可夫决策过程 抉择 半马尔可夫决策过程 子目标
原文传递
平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:5
7
作者 唐昊 周雷 袁继彬 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第2期292-296,共5页
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行... 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 展开更多
关键词 markov决策过程 性能势 TD(0)学习 神经元动态规划
下载PDF
平均报酬模型的多步强化学习算法 被引量:4
8
作者 胡光华 吴沧浦 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期660-664,共5页
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的... 讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 . 展开更多
关键词 R学习 强化学习算法 平均报酬模型 机器学习
下载PDF
异构无线网络中基于马尔可夫决策过程的区分业务接纳控制的研究 被引量:10
9
作者 邓强 陈山枝 +1 位作者 胡博 时岩 《通信学报》 EI CSCD 北大核心 2010年第12期27-36,共10页
对异构无线网络中区分业务类型的接纳控制机制进行研究。分析了语音和数据2种典型业务在CDMA蜂窝网络和WLAN中的容量区域。基于马尔可夫决策过程理论,提出异构无线网络中区分业务类型的接纳控制理论模型,规定了不同类型业务的接纳控制... 对异构无线网络中区分业务类型的接纳控制机制进行研究。分析了语音和数据2种典型业务在CDMA蜂窝网络和WLAN中的容量区域。基于马尔可夫决策过程理论,提出异构无线网络中区分业务类型的接纳控制理论模型,规定了不同类型业务的接纳控制行为并推导了系统状态转移概率。而且,进一步从用户角度对不同类型业务QoS要求和网络状态之间关系进行分析,提出一种基于模糊逻辑的接纳效用评估机制,在保证各类业务接入和切换成功率的基础上,推导出接纳效用最大的最优接纳控制策略。仿真表明,基于模糊逻辑的接纳效用评估能够有效反映网络状态动态变化对接纳控制的影响,最优接纳控制策略在平均接纳效用方面明显优于不考虑业务区分和用户移动性2种接纳控制机制,并且能严格保证各类业务的接入和切换成功率。 展开更多
关键词 异构无线网络 接纳控制 业务区分 马尔可夫决策过程
下载PDF
基于随机决策模型的动态功耗管理策略研究 被引量:10
10
作者 吴琦 熊光泽 《计算机学报》 EI CSCD 北大核心 2007年第4期622-628,共7页
由于功耗的严格约束,现代嵌入式计算终端必须采用科学的动态功耗管理策略.文中在对计算机系统的动态功耗管理(Dynamic Power Management,DPM)模型深入研究的基础上,采用改进的DPM随机决策模型,从理论上证明了DPM最优策略是确定性马尔可... 由于功耗的严格约束,现代嵌入式计算终端必须采用科学的动态功耗管理策略.文中在对计算机系统的动态功耗管理(Dynamic Power Management,DPM)模型深入研究的基础上,采用改进的DPM随机决策模型,从理论上证明了DPM最优策略是确定性马尔可夫策略,这为简化DPM控制算法提供了理论依据.在实例研究中,比较了空闲时间长度服从负指数分布与Pareto分布两种情况,发现经典的空闲时间长度服从负指数分布的假设与实际情况偏差很大.Pareto分布很好解释DPM超时策略在实际应用中可以取得优良节能效果这一现象. 展开更多
关键词 动态功耗管理 PARETO分布 马尔可夫决策过程
下载PDF
一个因素化SARSA(λ)激励学习算法 被引量:8
11
作者 陈焕文 谢建平 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问... 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . 展开更多
关键词 激励学习 状态聚类 MDPs SARSA(λ)学习
下载PDF
城市供水系统弹性应对策略与仿真分析 被引量:9
12
作者 刘健 赵思翔 刘晓 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2015年第10期2637-2645,共9页
针对城市供水系统受外界威胁导致供应能力波动的问题,建立了以优化供水系统弹性为目标的两阶段应对策略模型.第一阶段为马尔可夫决策过程水库调度模型,求解在满足期望弹性约束下以总成本最小化为目标的优化调度策略;当供应缺口超出水库... 针对城市供水系统受外界威胁导致供应能力波动的问题,建立了以优化供水系统弹性为目标的两阶段应对策略模型.第一阶段为马尔可夫决策过程水库调度模型,求解在满足期望弹性约束下以总成本最小化为目标的优化调度策略;当供应缺口超出水库调度能力时,针对供水系统在动态情景下的不确定性,建立了以供水网络弹性损失最小为目标的系统动力学第二阶段模型,通过仿真实验得到了多渠道优化策略.最后,以上海市咸潮入侵事件验证了该方法的有效性和实用性. 展开更多
关键词 系统弹性 供水系统 马尔可夫决策过程 系统动力学
原文传递
事件驱动的强化学习多智能体编队控制 被引量:9
13
作者 徐鹏 谢广明 +1 位作者 文家燕 高远 《智能系统学报》 CSCD 北大核心 2019年第1期93-98,共6页
针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题,本文引入事件驱动控制机制,智能体的动作决策无须按固定周期进行,而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时,不仅考虑智能体的累积奖赏值,还引入智能... 针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题,本文引入事件驱动控制机制,智能体的动作决策无须按固定周期进行,而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时,不仅考虑智能体的累积奖赏值,还引入智能体与邻居奖赏值的偏差,智能体间通过交互来寻求最优联合策略实现编队。数值仿真结果表明,基于事件驱动的强化学习多智能体编队控制算法,在保证系统性能的情况下,能有效降低多智能体的动作决策频率和资源消耗。 展开更多
关键词 强化学习 多智能体 事件驱动 编队控制 马尔可夫过程 集群智能 动作决策 粒子群算法
下载PDF
基于Q学习算法的发电公司决策新模型 被引量:8
14
作者 宋依群 吴炯 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第4期568-571,共4页
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模... 提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策. 展开更多
关键词 电力市场 Q学习算法 markov决策过程 策略行为
下载PDF
动态电源管理的随机切换模型与在线优化 被引量:7
15
作者 江琦 奚宏生 殷保群 《自动化学报》 EI CSCD 北大核心 2007年第1期66-71,共6页
考虑系统参数未知情况下的动态电源管理问题,提出一种基于强化学习的在线策略优化算法.通过建立事件驱动的随机切换分析模型,将动态电源管理问题转化为带约束的Markov决策过程的策略优化问题.利用此模型的动态结构特性,结合在线学习估... 考虑系统参数未知情况下的动态电源管理问题,提出一种基于强化学习的在线策略优化算法.通过建立事件驱动的随机切换分析模型,将动态电源管理问题转化为带约束的Markov决策过程的策略优化问题.利用此模型的动态结构特性,结合在线学习估计梯度与随机逼近改进策略,提出动态电源管理策略的在线优化算法.随机切换模型对电源管理系统的动态特性描述精确,在线优化算法自适应性强,运算量小,精度高,具有较高的实际应用价值. 展开更多
关键词 动态电源管理 markov决策过程 强化学习 梯度估计 随机逼近 在线优化
下载PDF
视频业务的分布式协同接入控制建模 被引量:8
16
作者 刘兴华 奚宏生 《新型工业化》 2013年第1期68-78,共11页
基于三层架构的映射框架,本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素,所以本文以视频业务为主要研究对象。假设视频业务需求近似服从泊松分布,而服务时间服从指数分布,将一个资源... 基于三层架构的映射框架,本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素,所以本文以视频业务为主要研究对象。假设视频业务需求近似服从泊松分布,而服务时间服从指数分布,将一个资源节点上的业务接入状态的演化用Markov过程来描述,则所有的N个资源节点的分布式协同接入控制可以由一个马尔可夫切换空间控制过程来阐述。针对构建的马尔可夫切换空间控制系统,基于系统灵敏度的观点对系统性能进行优化,本文提出了基于策略梯度的随机逼近算法。同时,本文给出了一个仿真算例来说明此随机逼近算法的有效性。最后对本文进行了简单的总结。 展开更多
关键词 控制理论与控制工程 马尔可夫决策过程 马尔可夫切换系统 性能势 策略迭代
下载PDF
基于逆向强化学习的装船时堆场翻箱智能决策 被引量:7
17
作者 张艳伟 蔡梦蝶 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第10期1417-1425,共9页
集装箱码头装船时堆场翻箱具有时序性与动态性,属于NP(non-deterministic polynomial)难问题。针对常见的顺岸式集装箱码头堆场,以最小化总翻箱次数为优化目标,考虑翻箱对装船连续性及效率的影响,基于马尔科夫决策过程构建装船时堆场翻... 集装箱码头装船时堆场翻箱具有时序性与动态性,属于NP(non-deterministic polynomial)难问题。针对常见的顺岸式集装箱码头堆场,以最小化总翻箱次数为优化目标,考虑翻箱对装船连续性及效率的影响,基于马尔科夫决策过程构建装船时堆场翻箱模型,设计逆向强化学习算法。为验证算法的有效性,以随机决策为基准,将设计的逆向强化学习算法与码头常见规则决策、随机决策对比。结果表明,贝位堆存状态不佳时,常见的规则决策不一定优于随机决策;逆向强化学习算法可有效挖掘隐含专家经验,收敛至最小翻箱次数的概率更高,且不同堆存状态下均能更好地限制单次发箱的翻箱次数,可实现装船时堆场翻箱智能决策。 展开更多
关键词 集装箱码头 堆场翻箱 智能决策 马尔科夫决策过程 逆向强化学习
下载PDF
移动群智感知中基于深度强化学习的位置隐私保护策略 被引量:7
18
作者 胡煜家 白光伟 +1 位作者 沈航 顾一鸣 《小型微型计算机系统》 CSCD 北大核心 2019年第2期287-293,共7页
群智感知服务的广泛应用带来了个人隐私的泄漏,然而现存的隐私保护策略不能适应群智感知环境.针对相关缺陷,提出了一种移动群智感知中基于深度强化学习的隐私保护策略.该策略通过泛化任务,使得攻击者无法分辨用户具体完成了哪一个任务,... 群智感知服务的广泛应用带来了个人隐私的泄漏,然而现存的隐私保护策略不能适应群智感知环境.针对相关缺陷,提出了一种移动群智感知中基于深度强化学习的隐私保护策略.该策略通过泛化任务,使得攻击者无法分辨用户具体完成了哪一个任务,切断了用户和任务之间的关联,保护了用户的位置隐私.当混淆任务数量不足以达到用户的隐私保护需求时,使用抑制法放弃该任务.该策略使用深度强化学习的方法不断尝试不同的混淆任务组合,训练一个可以输出最低抑制率的混淆任务选择方案的深度Q网络.实验结果表明,上述策略在不破坏感知任务有效性的前提下,以较低的抑制率保护了用户的位置隐私. 展开更多
关键词 群智感知 位置隐私 马尔科夫决策过程 深度Q网络
下载PDF
马尔可夫决策过程的限界模型检测 被引量:7
19
作者 周从华 邢支虎 +1 位作者 刘志锋 王昌达 《计算机学报》 EI CSCD 北大核心 2013年第12期2587-2600,共14页
限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的... 限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的快速增长.具有非确定选择刻画能力是马尔可夫决策过程最大的特性,针对该特性首先定义概率计算树逻辑的限界语义,并证明其正确性;然后基于不同界下所计算概率度量序列的演化趋势,设计了限界检测过程终止的判断准则;最后将限界模型检测过程转换为线性方程组的求解问题.实验结果说明限界模型检测技术在证据较短的情况下,所需内存空间少于无界模型检测算法. 展开更多
关键词 模型检测 限界模型检测 概率计算树逻辑 马尔可夫决策过程 状态空间爆炸
下载PDF
基于自适应过载阈值选择的虚拟机动态整合方法 被引量:7
20
作者 闫成雨 李志华 喻新荣 《计算机应用》 CSCD 北大核心 2016年第10期2698-2703,2709,共7页
针对云环境下动态工作负载的不确定性,提出了基于自适应过载阈值选择的虚拟机动态整合方法。为了权衡数据中心能源有效性与服务质量间的关系,将自适应过载阈值的选择问题建模为马尔可夫决策过程,计算过载阈值的最优选择策略,并根据系统... 针对云环境下动态工作负载的不确定性,提出了基于自适应过载阈值选择的虚拟机动态整合方法。为了权衡数据中心能源有效性与服务质量间的关系,将自适应过载阈值的选择问题建模为马尔可夫决策过程,计算过载阈值的最优选择策略,并根据系统能效和服务质量调整阈值。通过过载阈值检测过载物理主机,然后根据最小迁移时间原则以及最小能耗增加放置原则确定虚拟机的迁移策略,最后切换轻负载物理主机至休眠状态完成虚拟机整合。仿真实验结果表明,所提出的方法在减少虚拟机迁移次数方面效果显著,在节约数据中心能源开销与保证服务质量方面表现良好,在能源的有效性与云服务质量二者之间取得了比较理想的平衡。 展开更多
关键词 云计算 虚拟机整合 马尔可夫决策过程 服务质量 能源有效性
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部