期刊文献+
共找到659篇文章
< 1 2 33 >
每页显示 20 50 100
随机QoS感知的可靠Web服务组合 被引量:69
1
作者 范小芹 蒋昌俊 +1 位作者 王俊丽 庞善臣 《软件学报》 EI CSCD 北大核心 2009年第3期546-556,共11页
在面向服务的环境下,单个Web服务往往不能满足用户的要求,这时就需将已有的单个Web服务进行组合,以便产生满足用户需求的、增值的组合服务.已有的服务组合方法都很少考虑Web服务的随机性和Internet环境的动态性,从而在服务选择过程中产... 在面向服务的环境下,单个Web服务往往不能满足用户的要求,这时就需将已有的单个Web服务进行组合,以便产生满足用户需求的、增值的组合服务.已有的服务组合方法都很少考虑Web服务的随机性和Internet环境的动态性,从而在服务选择过程中产生的规划都是静态规划,结果导致在服务组合时都以较大概率出现组合失败.针对上述问题,提出了Web服务各随机QoS指标的度量方法和自适应QoS管理体系结构,并利用随机型离散事件系统唯一的动态控制方法——马尔可夫决策过程(MDP),设计出随机QoS感知的可靠Web服务组合算法.实验结果表明,考虑随机性的QoS度量方法和QoS管理体系结构,以及平衡了"风险"与"报酬"的MDP有效地提高了服务组合成功率. 展开更多
关键词 WEB服务组合 马尔可夫决策过程(MDP) Qos随机性 WEB服务 可靠组合
下载PDF
基于MDP随机路径模拟的电动汽车充电负荷时空分布预测 被引量:56
2
作者 张谦 王众 +2 位作者 谭维玉 刘桦臻 李晨 《电力系统自动化》 EI CSCD 北大核心 2018年第20期59-66,共8页
针对电动汽车时空转移随机性的问题,计及实时交通与温度,提出了一种基于马尔可夫决策过程随机路径模拟的城市电动汽车充电负荷时空分布预测方法。首先,根据各类车型充电方式与出行特点对各类电动汽车进行分类;其次,根据蒙特卡洛方法建... 针对电动汽车时空转移随机性的问题,计及实时交通与温度,提出了一种基于马尔可夫决策过程随机路径模拟的城市电动汽车充电负荷时空分布预测方法。首先,根据各类车型充电方式与出行特点对各类电动汽车进行分类;其次,根据蒙特卡洛方法建立各类电动汽车的时空转移模型,采用马尔可夫决策理论对出行路径进行实时动态随机模拟;根据电动汽车实测数据建立温度、交通能耗模型,计算得到实时单位里程耗电量。最后,以某典型城区为例,对不同温度、不同交通状况下电动汽车区域充电负荷进行计算。仿真结果表明,区域内快充负荷较大的节点充电波动性较大,环境温度升高或交通拥堵状况恶化会导致充电负荷高峰的持续时间增高。 展开更多
关键词 电动汽车 时空分布 马尔可夫决策过程 随机路径模拟 充电负荷
下载PDF
电力设备检修策略的马尔可夫决策 被引量:22
3
作者 郭基伟 柳纲 +1 位作者 唐国庆 王英 《电力系统及其自动化学报》 CSCD 2004年第4期6-10,共5页
建立了基于马尔可夫过程的电力设备老化模型 ,在此基础上 ,应用马尔可夫决策方法对设备检修方案进行了优化 ,分析了不同目标条件下应该采用的优化检修方案。计算结果表明 ,本文提出的模型可以定量比较不同检修方案对设备的影响 。
关键词 马尔可夫决策过程 老化模型 检修优化 可靠性
下载PDF
基于Q学习的互联电网动态最优CPS控制 被引量:35
4
作者 余涛 周斌 陈家荣 《中国电机工程学报》 EI CSCD 北大核心 2009年第19期13-19,共7页
控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控... 控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控制策略的在线学习和动态优化决策。将CPS值作为包含AGC的电力系统"环境"所给的"奖励",依靠Q值函数与CPS控制动作形成的闭环反馈结构进行交互式学习,学习目标为使CPS动作从环境中获得的长期积累奖励值最大。提出一种实用的半监督群体预学习方法,解决了Q学习控制器在预学习试错阶段的系统镇定和快速收敛问题。仿真研究表明,引入基于Q学习的CPS控制可显著增强整个AGC系统的鲁棒性和适应性,有效提高了CPS的考核合格率。 展开更多
关键词 自动发电控制 Q学习 马尔可夫决策过程 控制性能标准 最优控制
下载PDF
基于Q-learning的虚拟网络功能调度方法 被引量:35
5
作者 王晓雷 陈云杰 +1 位作者 王琛 牛犇 《计算机工程》 CAS CSCD 北大核心 2019年第2期64-69,共6页
针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度... 针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度算法,优化虚拟网络功能的调度顺序和虚拟机选择问题,实现最短网络功能虚拟化调度时间。仿真结果表明,与传统的随机虚拟机选择策略相比,该方法能够有效降低虚拟网络功能调度时间,特别是在大规模网络中调度时间可降低约40%。 展开更多
关键词 网络功能虚拟化 服务功能链 调度模型 马尔科夫决策过程 Q-学习
下载PDF
自主机器人的强化学习研究进展 被引量:16
6
作者 陈卫东 席裕庚 顾冬雷 《机器人》 EI CSCD 北大核心 2001年第4期379-384,共6页
虽然基于行为控制的自主机器人具有较高的鲁棒性 ,但其对于动态环境缺乏必要的自适应能力 .强化学习方法使机器人可以通过学习来完成任务 ,而无需设计者完全预先规定机器人的所有动作 ,它是将动态规划和监督学习结合的基础上发展起来的... 虽然基于行为控制的自主机器人具有较高的鲁棒性 ,但其对于动态环境缺乏必要的自适应能力 .强化学习方法使机器人可以通过学习来完成任务 ,而无需设计者完全预先规定机器人的所有动作 ,它是将动态规划和监督学习结合的基础上发展起来的一种新颖的学习方法 ,它通过机器人与环境的试错交互 ,利用来自成功和失败经验的奖励和惩罚信号不断改进机器人的性能 ,从而达到目标 ,并容许滞后评价 .由于其解决复杂问题的突出能力 ,强化学习已成为一种非常有前途的机器人学习方法 .本文系统论述了强化学习方法在自主机器人中的研究现状 ,指出了存在的问题 ,分析了几种问题解决途径 ,展望了未来发展趋势 . 展开更多
关键词 强化学习 自主机器人 人工智能 鲁棒性
下载PDF
应急决策的理论与方法探讨 被引量:30
7
作者 曾伟 周剑岚 王红卫 《中国安全科学学报》 CAS CSCD 北大核心 2009年第3期172-176,共5页
围绕基于模板的规划、组织决策协调与基于Agent系统的协调机制以及马尔可夫决策规划等应急决策的关键理论与方法,对国内外相关研究进行分析与总结;提出以决策理论规划为应急决策研究的主要建模和分析框架;采用逻辑程序与规划相结合的思... 围绕基于模板的规划、组织决策协调与基于Agent系统的协调机制以及马尔可夫决策规划等应急决策的关键理论与方法,对国内外相关研究进行分析与总结;提出以决策理论规划为应急决策研究的主要建模和分析框架;采用逻辑程序与规划相结合的思想,研究基于应急预案模板的应急决策规划方法;基于应急处置任务的时间、资源约束关系,研究应急处置任务的多Agent马尔可夫决策建模及求解方法。基于决策理论规划的应急决策理论可以很好地用于应急决策的多阶段动态过程建模,而且能够利用预案模板降低模型求解的难度。上述研究完善和丰富了应急决策的理论和方法,为科学的应急决策实践以及应急决策支持系统提供了一种理论和方法。 展开更多
关键词 应急决策 基于模板规划 协调 马氏决策规划 多AGENT系统
下载PDF
基于多代理系统的敏捷供需链协调运作及其优化 被引量:10
8
作者 董进 柴跃廷 杨家本 《系统工程理论与实践》 EI CSCD 北大核心 2000年第8期7-11,共5页
描述了代理间协商时产生的协调计划和协调规则 ,并运用马尔可夫决策过程理论 MDP进行协调计划的优化 ,解决了代理之间在资源、时间等冲突条件下的协商问题 ,从而使整个敏捷供需链有效地运作 .
关键词 协调 优化 敏捷供需链 多代理系统 供应链
原文传递
强化学习理论在电力系统中的应用及展望 被引量:28
9
作者 余涛 周斌 甄卫国 《电力系统保护与控制》 EI CSCD 北大核心 2009年第14期122-128,共7页
强化学习理论是人工智能领域中机器学习方法的一个重要分支,也是马尔可夫决策过程的一类重要方法。所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。强化学习理论及其应用研究近年来日益受到国际机... 强化学习理论是人工智能领域中机器学习方法的一个重要分支,也是马尔可夫决策过程的一类重要方法。所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。强化学习理论及其应用研究近年来日益受到国际机器学习和智能控制学术界的重视。系统地介绍了强化学习的基本思想和算法,综述了目前强化学习在安全稳定控制、自动发电控制、电压无功控制及电力市场等方面应用研究的主要成果与方法,并探讨了该课题在电力系统运行控制中的巨大潜力,以及与经典控制、神经网络、模糊理论和多Agent系统等智能控制技术的相互结合问题,最后对强化学习在电力科学领域的应用前景作出了展望。 展开更多
关键词 人工智能 强化学习 马尔可夫决策过程 随机最优控制 电力系统
下载PDF
求解随机需求库存-路径问题的一种算法 被引量:18
10
作者 赵达 李军 马丹祥 《系统工程》 CSCD 北大核心 2006年第5期23-28,共6页
库存-路径问题是研究在供应商管理用户库存策略下,供应商如何合理安排长期库存及配送计划的一类问题,属于NP-hard类问题,也是运筹学领域中研究最活跃的方向之一。本文以零售商系统下随机需求的IRP为研究对象,提出了一种基于马尔科夫决... 库存-路径问题是研究在供应商管理用户库存策略下,供应商如何合理安排长期库存及配送计划的一类问题,属于NP-hard类问题,也是运筹学领域中研究最活跃的方向之一。本文以零售商系统下随机需求的IRP为研究对象,提出了一种基于马尔科夫决策过程与修正的C-W节约算法的启发式分解算法,并给出了相应的数值算例。 展开更多
关键词 库存-路径问题 随机需求 马尔科夫决策过程 随机模拟
下载PDF
动态武器目标分配问题的马尔可夫性 被引量:22
11
作者 蔡怀平 刘靖旭 陈英武 《国防科技大学学报》 EI CAS CSCD 北大核心 2006年第3期124-127,共4页
动态武器目标分配(weapon target assignment,WTA)问题是军事运筹学研究的重要理论问题,也是作战指挥决策中迫切需要解决的现实问题。在对动态WTA问题进行描述分析的基础上,运用随机过程理论证明了动态WTA过程的马尔可夫性;给出了该马... 动态武器目标分配(weapon target assignment,WTA)问题是军事运筹学研究的重要理论问题,也是作战指挥决策中迫切需要解决的现实问题。在对动态WTA问题进行描述分析的基础上,运用随机过程理论证明了动态WTA过程的马尔可夫性;给出了该马尔可夫决策过程的状态转移概率的解析表达式,并对其状态特点进行了简要分析。研究结果可以为动态WTA及相关问题的研究提供理论和方法依据。 展开更多
关键词 运筹学 动态武器目标分配 马尔可夫决策过程 数学模型
下载PDF
面向多机器人系统的增强学习研究进展综述 被引量:22
12
作者 吴军 徐昕 +1 位作者 王健 贺汉根 《控制与决策》 EI CSCD 北大核心 2011年第11期1601-1610,1615,共11页
基于增强学习的多机器人系统优化控制是近年来机器人学与分布式人工智能的前沿研究领域.多机器人系统具有分布、异构和高维连续空间等特性,使得面向多机器人系统的增强学习的研究面临着一系列挑战,为此,对其相关理论和算法的研究进展进... 基于增强学习的多机器人系统优化控制是近年来机器人学与分布式人工智能的前沿研究领域.多机器人系统具有分布、异构和高维连续空间等特性,使得面向多机器人系统的增强学习的研究面临着一系列挑战,为此,对其相关理论和算法的研究进展进行了系统综述.首先,阐述了多机器人增强学习的基本理论模型和优化目标;然后,在对已有学习算法进行对比分析的基础上,重点探讨了多机器人增强学习理论与应用研究中的困难和求解思路,给出了若干典型问题和应用实例;最后,对相关研究进行了总结和展望. 展开更多
关键词 多机器人系统 多智能体 增强学习 随机对策 马氏决策过程
原文传递
马尔可夫过程下多类用户智能电网实时电价 被引量:22
13
作者 朱红波 高岩 +1 位作者 后勇 陶莉 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2018年第3期807-816,共10页
基于需求响应的智能电网实时电价定价机制是调节电力供需平衡的理想手段,其实施必然对用户的用电行为和电网的运行与管理产生深远影响.本文考虑用户用电的前后关联性,给出一个基于马尔可夫决策过程并且考虑用电周期的社会福利最大化... 基于需求响应的智能电网实时电价定价机制是调节电力供需平衡的理想手段,其实施必然对用户的用电行为和电网的运行与管理产生深远影响.本文考虑用户用电的前后关联性,给出一个基于马尔可夫决策过程并且考虑用电周期的社会福利最大化模型.根据求解该模型制定的实时电价定价策略,用户可以更加理性,更加贴近实际制定用电计划.所建立的模型考虑了状态转移概率矩阵中的参数已知和未知两种情况.相同类型用户根据用电量之间具有相互影响和相互制约的关联性给出电价策略;不同类型用户设置不同电力价格进行区分.最后针对参数已知和未知两种情况设计集中式和分布式定价策略的改进模拟退火算法,模拟仿真验证了模型的合理性和算法的可行性. 展开更多
关键词 智能电网 实时电价 社会福利最大化 马尔可夫决策过程 模拟退火算法
原文传递
分层强化学习综述 被引量:20
14
作者 周文吉 俞扬 《智能系统学报》 CSCD 北大核心 2017年第5期590-594,共5页
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方... 强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。 展开更多
关键词 人工智能 机器学习 强化学习 分层强化学习 深度强化学习 马尔可夫决策过程 半马尔可夫决策过程 维度灾难
下载PDF
基于Markov决策过程的输变电设备最佳检修决策 被引量:18
15
作者 贾京苇 侯慧娟 +3 位作者 杜修明 段大鹏 盛戈皞 江秀臣 《高电压技术》 EI CAS CSCD 北大核心 2017年第7期2323-2330,共8页
为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修... 为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修决策模型中,改变故障损失得到决策结果的变化。比较决策变化对应的设备故障损失和设备稳态概率可得知:所建立的基于状态的检修(CBM)模型适用于安装了在线监测装置的设备,而基于检测的检修(IBM)模型适用于无在线监测装置的设备;最优决策从维修成本最小的决策过渡到最后每次决策时都选择大修,整个变化过程证明了应用Markov决策可以折中维修成本和故障损失得到经济最优决策。研究结果可为检修决策人员提供定量的检修计划。 展开更多
关键词 输变电设备 检修决策 检修模型 markov过程 markov决策过程 策略迭代法
下载PDF
网上拍卖品数量的优化 被引量:10
16
作者 杜黎 胡奇英 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2003年第1期120-124,共5页
以Onsale网上拍卖公司的拍卖方式为背景,研究了在给定拍卖时间长度与拍卖总供给量的条件下,将拍卖品若干批拍卖这一问题.建立了其马尔可夫决策过程模型,研究了每批拍卖品数量的最优问题,所得到的最优期望利润高于原有结果.
关键词 网上拍卖 最优机制 马尔可夫决策过程
下载PDF
网上分批拍卖中的保留价比较分析 被引量:12
17
作者 杜黎 胡奇英 《系统科学与数学》 CSCD 北大核心 2002年第3期343-354,共12页
本文以Onsale网上拍卖公司的拍卖方式为背景,研究了在给定拍卖时间长度与拍卖总供给量的条件下,将拍卖品分若干批拍卖这一问题.建立了其马尔可夫决策过程模型,分别在公开保留价与不公开保留价的两种情况下,研究了每批拍卖品数量的最优问... 本文以Onsale网上拍卖公司的拍卖方式为背景,研究了在给定拍卖时间长度与拍卖总供给量的条件下,将拍卖品分若干批拍卖这一问题.建立了其马尔可夫决策过程模型,分别在公开保留价与不公开保留价的两种情况下,研究了每批拍卖品数量的最优问题,并证明了网上拍卖中商家不公开保留价时获得的最大期望利润多于公开时的最大期望利润. 展开更多
关键词 保留价 网上拍卖 马尔可夫决策过程 最大期望利润
原文传递
基于Markov game模型的装备保障信息网络安全态势感知方法研究 被引量:18
18
作者 李玺 卢昱 +1 位作者 刘森 刘锋 《计算机应用研究》 CSCD 北大核心 2017年第11期3441-3445,共5页
为了提升装备保障信息网络的安全态势感知能力,根据装备保障信息网络的特点,提出了基于Markov决策过程和博弈论思想的网络安全态势评估方法。该方法以Markov game模型为核心,通过求解纳什均衡点确定攻守双方的博弈对网络安全造成的影响... 为了提升装备保障信息网络的安全态势感知能力,根据装备保障信息网络的特点,提出了基于Markov决策过程和博弈论思想的网络安全态势评估方法。该方法以Markov game模型为核心,通过求解纳什均衡点确定攻守双方的博弈对网络安全造成的影响,并利用4级数据融合实现对装备保障信息网络安全态势的评估。实验证明,该方法能够综合各类基础信息,准确给出装备保障信息网络的安全态势值。 展开更多
关键词 装备保障信息网络 安全态势评估 markov决策过程 博弈论
下载PDF
计及多种储能协调运行的数据中心实时能量管理 被引量:18
19
作者 吴云芸 方家琨 +4 位作者 艾小猛 薛熙臻 胡伟 沈煜 文劲宇 《电力自动化设备》 EI CSCD 北大核心 2021年第10期82-89,共8页
随着互联网+、云计算的发展,数据中心能耗迅速增加,高能耗和高电费问题日益突出,对数据中心进行能量管理和优化是运营商提升市场竞争力的重要手段。但由于数据负荷、电网电价和新能源出力的不确定性,如何在实时运行时保证数据中心的运... 随着互联网+、云计算的发展,数据中心能耗迅速增加,高能耗和高电费问题日益突出,对数据中心进行能量管理和优化是运营商提升市场竞争力的重要手段。但由于数据负荷、电网电价和新能源出力的不确定性,如何在实时运行时保证数据中心的运行经济性是亟待解决的问题。针对以上问题,考虑数据负荷调度、服务器休眠、多种储能协调运行、与电网交互等因素,建立了数据中心的实时能量管理模型。由于模型中多类型储能和批处理负荷各自的时段间耦合约束都会影响系统全局最优决策,需要分别对其进行解耦,故提出一种基于多维分段线性函数近似值函数的近似动态规划(PLF-ADP)算法的数据中心实时能量管理策略。仿真算例表明,所提多维PLF-ADP算法能够在随机环境下考虑数据中心中多类型储能和批处理负荷的协调运行,得到近似全局最优的实时能量管理策略,保证数据中心运行的经济性。 展开更多
关键词 数据中心 实时能量管理 近似动态规划 批处理负荷 储能协调运行 马尔科夫决策过程
下载PDF
基于深度强化学习的两阶段显著性目标检测 被引量:18
20
作者 卢笑 曹意宏 +1 位作者 周炫余 王耀南 《电子测量与仪器学报》 CSCD 北大核心 2021年第6期34-42,共9页
为提高复杂场景下的显著性目标检测速度和精度,提出了一种基于深度强化学习的两阶段显著性目标检测方法。该算法由显著性区域定位网络(salient region localization network,SRLN)和显著性目标分割网络(salient object segmentation net... 为提高复杂场景下的显著性目标检测速度和精度,提出了一种基于深度强化学习的两阶段显著性目标检测方法。该算法由显著性区域定位网络(salient region localization network,SRLN)和显著性目标分割网络(salient object segmentation network,SOSN)组成,分别对应显著性区域定位阶段和显著性目标分割阶段。在显著性区域定位阶段,首次提出采用深度强化学习训练智能体通过执行序列动作逐步定位显著性区域。再将其交由分割网络进行第二阶段的精细目标分割。网络结构上,SRLN和SOSN采用共享特征提取网络的方式简化模型和减少参数量,同时针对该两阶段检测框架提出了一种分治的训练策略。在公开的显著性目标检测数据集上的实验结果表明,无论是简单或复杂场景的图像,该算法能够快速有效的剔除干扰信息,获得准确的显著性目标检测结果,并且检测速度达到了实时性能。在行人检测数据集上的检测结果表明本算法在其他实际应用问题上也具有较强的泛化能力。 展开更多
关键词 显著性目标检测 深度强化学习 马尔科夫决策过程 卷积神经网络
下载PDF
上一页 1 2 33 下一页 到第
使用帮助 返回顶部