期刊文献+
共找到214篇文章
< 1 2 11 >
每页显示 20 50 100
深度强化学习理论及其应用综述 被引量:67
1
作者 万里鹏 兰旭光 +1 位作者 张翰博 郑南宁 《模式识别与人工智能》 EI CSCD 北大核心 2019年第1期67-81,共15页
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题... 一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨. 展开更多
关键词 深度强化学习 马尔科夫决策过程 探索-利用困境 稀疏奖励
下载PDF
基于Q-learning的虚拟网络功能调度方法 被引量:35
2
作者 王晓雷 陈云杰 +1 位作者 王琛 牛犇 《计算机工程》 CAS CSCD 北大核心 2019年第2期64-69,共6页
针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度... 针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度算法,优化虚拟网络功能的调度顺序和虚拟机选择问题,实现最短网络功能虚拟化调度时间。仿真结果表明,与传统的随机虚拟机选择策略相比,该方法能够有效降低虚拟网络功能调度时间,特别是在大规模网络中调度时间可降低约40%。 展开更多
关键词 网络功能虚拟化 服务功能链 调度模型 马尔科夫决策过程 Q-学习
下载PDF
求解随机需求库存-路径问题的一种算法 被引量:18
3
作者 赵达 李军 马丹祥 《系统工程》 CSCD 北大核心 2006年第5期23-28,共6页
库存-路径问题是研究在供应商管理用户库存策略下,供应商如何合理安排长期库存及配送计划的一类问题,属于NP-hard类问题,也是运筹学领域中研究最活跃的方向之一。本文以零售商系统下随机需求的IRP为研究对象,提出了一种基于马尔科夫决... 库存-路径问题是研究在供应商管理用户库存策略下,供应商如何合理安排长期库存及配送计划的一类问题,属于NP-hard类问题,也是运筹学领域中研究最活跃的方向之一。本文以零售商系统下随机需求的IRP为研究对象,提出了一种基于马尔科夫决策过程与修正的C-W节约算法的启发式分解算法,并给出了相应的数值算例。 展开更多
关键词 库存-路径问题 随机需求 马尔科夫决策过程 随机模拟
下载PDF
基于马尔科夫决策过程的应急资源调度方案的动态优化 被引量:22
4
作者 王炜 刘茂 王丽 《南开大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第3期18-23,共6页
利用马尔科夫决策方法,对突发公共事件下的应急资源调度方案的动态优化过程进行研究,以期找到特定场景下最优应急资源调度方案,保证应急救援行动的时效性.通过实例分析表明,基于马尔科夫决策过程的应急资源调度方案动态优化方法可实现... 利用马尔科夫决策方法,对突发公共事件下的应急资源调度方案的动态优化过程进行研究,以期找到特定场景下最优应急资源调度方案,保证应急救援行动的时效性.通过实例分析表明,基于马尔科夫决策过程的应急资源调度方案动态优化方法可实现应急资源调度方案的动态优化,未来通过采用本方法,可以为突发公共事件下的应急资源动态调度提供依据. 展开更多
关键词 马尔科夫决策过程 应急资源 调度 动态优化
下载PDF
多Agent系统中任务分配问题的分析与建模 被引量:11
5
作者 马巧云 洪流 陈学广 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第1期54-57,共4页
针对多Agent系统(MAS)内外环境变化所产生的不确定性和任务分配序列决策的要求,利用马尔科夫决策过程(MDP)模型对MAS中的动态任务分配问题进行了分析和建模.其中,状态空间由各Agent的当前负载和待分配的任务组成,每一状态下有多种任务... 针对多Agent系统(MAS)内外环境变化所产生的不确定性和任务分配序列决策的要求,利用马尔科夫决策过程(MDP)模型对MAS中的动态任务分配问题进行了分析和建模.其中,状态空间由各Agent的当前负载和待分配的任务组成,每一状态下有多种任务分配方案,利用迭代方法可以获得最佳的任务分配方案以实现系统长期收益最大化的目标.仿真实验表明,MDP模型可以合理地模拟MAS中任务分配的运作过程,并在小规模环境下方便地获取最优任务分配策略. 展开更多
关键词 多AGENT系统 任务分配 马尔科夫决策过程
下载PDF
基于深度强化学习的两阶段显著性目标检测 被引量:18
6
作者 卢笑 曹意宏 +1 位作者 周炫余 王耀南 《电子测量与仪器学报》 CSCD 北大核心 2021年第6期34-42,共9页
为提高复杂场景下的显著性目标检测速度和精度,提出了一种基于深度强化学习的两阶段显著性目标检测方法。该算法由显著性区域定位网络(salient region localization network,SRLN)和显著性目标分割网络(salient object segmentation net... 为提高复杂场景下的显著性目标检测速度和精度,提出了一种基于深度强化学习的两阶段显著性目标检测方法。该算法由显著性区域定位网络(salient region localization network,SRLN)和显著性目标分割网络(salient object segmentation network,SOSN)组成,分别对应显著性区域定位阶段和显著性目标分割阶段。在显著性区域定位阶段,首次提出采用深度强化学习训练智能体通过执行序列动作逐步定位显著性区域。再将其交由分割网络进行第二阶段的精细目标分割。网络结构上,SRLN和SOSN采用共享特征提取网络的方式简化模型和减少参数量,同时针对该两阶段检测框架提出了一种分治的训练策略。在公开的显著性目标检测数据集上的实验结果表明,无论是简单或复杂场景的图像,该算法能够快速有效的剔除干扰信息,获得准确的显著性目标检测结果,并且检测速度达到了实时性能。在行人检测数据集上的检测结果表明本算法在其他实际应用问题上也具有较强的泛化能力。 展开更多
关键词 显著性目标检测 深度强化学习 马尔科夫决策过程 卷积神经网络
下载PDF
计及多种储能协调运行的数据中心实时能量管理 被引量:18
7
作者 吴云芸 方家琨 +4 位作者 艾小猛 薛熙臻 胡伟 沈煜 文劲宇 《电力自动化设备》 EI CSCD 北大核心 2021年第10期82-89,共8页
随着互联网+、云计算的发展,数据中心能耗迅速增加,高能耗和高电费问题日益突出,对数据中心进行能量管理和优化是运营商提升市场竞争力的重要手段。但由于数据负荷、电网电价和新能源出力的不确定性,如何在实时运行时保证数据中心的运... 随着互联网+、云计算的发展,数据中心能耗迅速增加,高能耗和高电费问题日益突出,对数据中心进行能量管理和优化是运营商提升市场竞争力的重要手段。但由于数据负荷、电网电价和新能源出力的不确定性,如何在实时运行时保证数据中心的运行经济性是亟待解决的问题。针对以上问题,考虑数据负荷调度、服务器休眠、多种储能协调运行、与电网交互等因素,建立了数据中心的实时能量管理模型。由于模型中多类型储能和批处理负荷各自的时段间耦合约束都会影响系统全局最优决策,需要分别对其进行解耦,故提出一种基于多维分段线性函数近似值函数的近似动态规划(PLF-ADP)算法的数据中心实时能量管理策略。仿真算例表明,所提多维PLF-ADP算法能够在随机环境下考虑数据中心中多类型储能和批处理负荷的协调运行,得到近似全局最优的实时能量管理策略,保证数据中心运行的经济性。 展开更多
关键词 数据中心 实时能量管理 近似动态规划 批处理负荷 储能协调运行 马尔科夫决策过程
下载PDF
基于运行状态监测与预测的海上风机维护策略 被引量:17
8
作者 刘璐洁 符杨 +1 位作者 马世伟 赵华 《电网技术》 EI CSCD 北大核心 2015年第11期3292-3297,共6页
为了能够最大限度地提高海上风电机组的利用率,降低维护成本,在考虑海上风机运行情况的基础上,对风机状态进行评定和趋势预测,并按照实际需求优化维护计划。首先根据风机状态监测统计数据或典型的n状态左?右无跨越模型,采用马尔科夫状... 为了能够最大限度地提高海上风电机组的利用率,降低维护成本,在考虑海上风机运行情况的基础上,对风机状态进行评定和趋势预测,并按照实际需求优化维护计划。首先根据风机状态监测统计数据或典型的n状态左?右无跨越模型,采用马尔科夫状态转移方程预测风机状态。然后考虑维护动作费用、天气窗口的等待时间及备货期的电价收益损失等因素,以运行寿命内折扣费用最低为准则,建立基于半马尔科夫决策过程的维护策略优化模型,确定任意时刻的维护方式和检测时间间隔。最后,以某海上风机为例,验证分析了该维护策略的有效性和模型的适应性。 展开更多
关键词 海上风机 维护策略 状态预测 马尔科夫决策过程
下载PDF
基于模糊-概率策略实时反馈的虚拟电厂多时间尺度优化调度 被引量:16
9
作者 李翔宇 赵冬梅 《电工技术学报》 EI CSCD 北大核心 2021年第7期1446-1455,共10页
虚拟电厂(VPP)日前计划和日内运行方案是其在内、外部随机性上,实现经济或技术效益的有力保证。提出VPP日前计划-滚动计划-实时调度在内的全时域优化调度框架,建立不同尺度优化模型并通过“多级调度、逐级细化”的思想达到优化鲁棒性。... 虚拟电厂(VPP)日前计划和日内运行方案是其在内、外部随机性上,实现经济或技术效益的有力保证。提出VPP日前计划-滚动计划-实时调度在内的全时域优化调度框架,建立不同尺度优化模型并通过“多级调度、逐级细化”的思想达到优化鲁棒性。在日前计划中,以虚拟电厂最大化市场效益为目标建立模型;在日内优化中,基于马尔科夫决策过程(MDP)融合30min尺度滚动和5min尺度超短期两层优化以减少建模层级。在MDP模型中,建立熵值回馈函数表征滚动优化过程,用以减少因日前预测误差带来的日内运行偏差值;建立模糊-概率策略表征超短期优化过程,用以调节储能荷电状态、均衡其充电与放电能力,最终实现跟踪日前计划的目标,最大化经济效益。最后通过算例计算对所提方案进行了验证。 展开更多
关键词 虚拟电厂 优化调度 多时间尺度 马尔科夫决策过程 模糊-概率策略
下载PDF
基于马尔科夫决策过程的家庭能量管理智能优化策略 被引量:16
10
作者 傅质馨 李潇逸 +1 位作者 朱俊澎 袁越 《电力自动化设备》 EI CSCD 北大核心 2020年第7期141-148,共8页
在迅速发展的通信技术和泛在电力物联网建设的背景下,结合多种信息交互方式和人工智能技术可为提高家庭能量管理的智能化程度提供新的思路。提出一种结合实时信息交互的家庭能量管理智能优化策略。首先,给出了以用户用能费用为基础的马... 在迅速发展的通信技术和泛在电力物联网建设的背景下,结合多种信息交互方式和人工智能技术可为提高家庭能量管理的智能化程度提供新的思路。提出一种结合实时信息交互的家庭能量管理智能优化策略。首先,给出了以用户用能费用为基础的马尔科夫决策过程模型,采用动态规划方法求解模型,重点在家庭用电设备调度过程中考虑实时电价信息和用户的随机行为等不确定因素的影响;在此基础上,结合事件触发机制有效提高家庭能量管理系统的运行效率,进而给出从家庭能量管理控制中心到用电设备的智能优化调度方法;最后,通过仿真算例证实了所提方法的有效性,结果表明其能在减少用户用电费用的同时给出满足用户用电需求的优化用电策略。 展开更多
关键词 家庭能量管理系统 马尔科夫决策过程 随机动态规划 实时电价 泛在电力物联网 智能优化
下载PDF
网络结构自调整的柔性内涵初探 被引量:15
11
作者 程东年 汪斌强 +1 位作者 王保进 张建辉 《通信学报》 EI CSCD 北大核心 2012年第8期214-222,共9页
从微观和定量意义的服务效果对应用要求一致匹配的角度探索了网络重构柔性的内涵,具体地揭示了跟随应用时变要求的时变信道这一可重构网络的核心特征,然后从该时变信道"一致满足"应用要求的目标出发,进一步揭示了重构柔性的&q... 从微观和定量意义的服务效果对应用要求一致匹配的角度探索了网络重构柔性的内涵,具体地揭示了跟随应用时变要求的时变信道这一可重构网络的核心特征,然后从该时变信道"一致满足"应用要求的目标出发,进一步揭示了重构柔性的"渐变跟随"、"着眼整体"、"隐性隔离"和"自主驱动"4个重要内涵,采用指数移动平均、n:m表决、马尔科夫决策和强化学习定量地刻画了效果对要求的稳定偏离和资源调整幅度的最佳顺序决策。 展开更多
关键词 网络体系结构 可重构网络 柔性 马尔科夫决策过程 强化学习
下载PDF
基于深度强化学习的有轨电车信号优先控制 被引量:15
12
作者 王云鹏 郭戈 《自动化学报》 EI CSCD 北大核心 2019年第12期2366-2377,共12页
现有的有轨电车信号优先控制系统存在诸多问题,如无法适应实时交通变化、优化求解较为复杂等.本文提出了一种基于深度强化学习的有轨电车信号优先控制策略.不依赖于交叉口复杂交通建模,采用实时交通信息作为输入,在有轨电车整个通行过... 现有的有轨电车信号优先控制系统存在诸多问题,如无法适应实时交通变化、优化求解较为复杂等.本文提出了一种基于深度强化学习的有轨电车信号优先控制策略.不依赖于交叉口复杂交通建模,采用实时交通信息作为输入,在有轨电车整个通行过程中连续动态调整交通信号.协同考虑有轨电车与社会车辆的通行需求,在尽量保证有轨电车无需停车的同时,降低社会车辆的通行延误.采用深度Q网络算法进行问题求解,并利用竞争架构、双Q网络和加权样本池改善学习性能.基于SUMO的实验表明,该模型能够有效地协同提高有轨电车与社会车辆的通行效率. 展开更多
关键词 有轨电车 信号优先 马尔科夫决策过程 深度强化学习
下载PDF
基于MDP及激励需求响应的电动汽车有序充电控制 被引量:14
13
作者 廖鑫 李婧 +1 位作者 徐佳 宋长平 《电力科学与技术学报》 CAS 北大核心 2021年第5期79-86,共8页
电动汽车充电行为的不确定性及随机性使充电负荷短时间内大量接入电网从而导致较大的负荷波动,同时,电动汽车的无序充电行为,不能在分时电价的条件下保证充电用户的利益。为缓解这些问题带来的负面影响,首先,基于强化学习中马尔科夫决... 电动汽车充电行为的不确定性及随机性使充电负荷短时间内大量接入电网从而导致较大的负荷波动,同时,电动汽车的无序充电行为,不能在分时电价的条件下保证充电用户的利益。为缓解这些问题带来的负面影响,首先,基于强化学习中马尔科夫决策过程(MDP)分析电动汽车的充电行为;然后,构造激励函数引导电动汽车根据电网供电裕度进行充电选择,得出同时满足负荷波动最小和用户花费最小的有序充电策略;最后,通过蒙特卡洛方法模拟电动汽车充电情况。有序充电仿真结果表明,该策略能有效地改善负荷叠加曲线,起到削峰填谷作用,并减少用户充电花费。 展开更多
关键词 电动汽车 有序充电 蒙特卡洛方法 马尔科夫决策过程 激励函数
下载PDF
多机器人系统强化学习研究综述 被引量:14
14
作者 马磊 张文旭 戴朝华 《西南交通大学学报》 EI CSCD 北大核心 2014年第6期1032-1044,共13页
强化学习是实现多机器人对复杂和不确定环境良好适应性的有效手段,是设计智能系统的核心技术之一.从强化学习的基本思想与理论框架出发,针对局部可观测性、计算复杂度和收敛性等方面的固有难题,围绕学习中的通信、策略协商、信度分配和... 强化学习是实现多机器人对复杂和不确定环境良好适应性的有效手段,是设计智能系统的核心技术之一.从强化学习的基本思想与理论框架出发,针对局部可观测性、计算复杂度和收敛性等方面的固有难题,围绕学习中的通信、策略协商、信度分配和可解释性等要点,总结了多机器人强化学习的研究进展和存在的问题;介绍了强化学习在机器人路径规划与避障、无人机、机器人足球和多机器人追逃问题中的应用;最后指出了定性强化学习、分形强化学习、信息融合的强化学习等若干多机器人强化学习的前沿方向和发展趋势. 展开更多
关键词 多机器人系统 强化学习 马尔科夫决策过程 计算复杂度 不确定性
下载PDF
马尔科夫决策过程在多路径冗余传输调度算法中的应用 被引量:12
15
作者 于波 于东 孙建伟 《小型微型计算机系统》 CSCD 北大核心 2012年第4期847-851,共5页
传统网络终端设备通常以单路径连接网络,因此在路径发生异常时通常严重影响数据传输质量.随着重叠网络和异构多接入网络的发展,多路径传输逐渐成为可能.多路径传输中数据发送端的多路径调度算法是研究多路径传输的核心问题.本文提出了... 传统网络终端设备通常以单路径连接网络,因此在路径发生异常时通常严重影响数据传输质量.随着重叠网络和异构多接入网络的发展,多路径传输逐渐成为可能.多路径传输中数据发送端的多路径调度算法是研究多路径传输的核心问题.本文提出了一种基于马尔科夫决策过程的多路径冗余传输调度算法,通过分阶段采用稳态马尔科夫策略并对关键数据进行冗余传输,实现了实时性要求较高的数据传输,提高了数据传输可靠性.仿真实验表明当路径传输质量发生改变时,该调度算法能够正确感知并将数据更多的调度到传输质量较好的路径上,有效降低路径质量变差时对传输的影响.该算法可应用于音、视频等实时业务中,能够有效提高用户使用体验. 展开更多
关键词 马尔科夫决策过程 多路径 冗余传输 调度算法
下载PDF
汽车纵向自动驾驶的因果推理型决策 被引量:12
16
作者 高振海 孙天骏 何磊 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第5期1392-1404,共13页
针对汽车纵向自动驾驶决策过程的因果关联问题,建立了车辆跟驰行为的马尔可夫决策过程模型,利用真实驾驶员驾驶模拟器实验数据与驾驶风险原则确定了模型中的状态集和动作集,并根据车辆的行驶状态设计了相应的回报函数,进而基于增强Q学... 针对汽车纵向自动驾驶决策过程的因果关联问题,建立了车辆跟驰行为的马尔可夫决策过程模型,利用真实驾驶员驾驶模拟器实验数据与驾驶风险原则确定了模型中的状态集和动作集,并根据车辆的行驶状态设计了相应的回报函数,进而基于增强Q学习算法对该模型进行求解,提出了以上决策过程的因果推理机制。最终,通过在随机工况下的仿真测试,验证了该方法的可行性与有效性。 展开更多
关键词 车辆工程 自动驾驶 决策算法 马尔科夫决策过程 增强Q学习算法
原文传递
基于MDP框架的飞行器隐蔽接敌策略 被引量:11
17
作者 徐安 于雷 +2 位作者 寇英信 徐保伟 李战武 《系统工程与电子技术》 EI CSCD 北大核心 2011年第5期1063-1068,共6页
基于近似动态规划(approximate dynamic programming,ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process,MDP)... 基于近似动态规划(approximate dynamic programming,ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process,MDP)的隐蔽接敌策略的强化学习方法;通过态势得分函数对非连续的即时收益函数进行修正,给出了基于ADP方法的策略学习与策略提取方法。分别针对对手在有无信息源支持情况下的不同机动对策进行了仿真验证。仿真结果表明,将ADP方法应用于隐蔽接敌策略的学习是可行的,在不同态势下可获得较为有效的接敌策略。 展开更多
关键词 隐蔽接敌 马尔科夫决策过程 近似动态规划 空战决策 近似值函数
下载PDF
基于深度强化学习的配电网实时电压优化控制方法 被引量:7
18
作者 全欢 彭显刚 +3 位作者 刘涵予 周鹏 吴泽霖 苏浩坤 《电网技术》 EI CSCD 北大核心 2023年第5期2029-2038,共10页
大规模分布式电源的接入使得配电网电压优化控制策略与传统配电网差异较大。针对就地控制中光伏逆变器调压之间缺乏协同的问题,该文提出了一种基于多智能体深度强化学习的配电网实时电压控制方法。首先根据电压控制模型设计了部分可观... 大规模分布式电源的接入使得配电网电压优化控制策略与传统配电网差异较大。针对就地控制中光伏逆变器调压之间缺乏协同的问题,该文提出了一种基于多智能体深度强化学习的配电网实时电压控制方法。首先根据电压控制模型设计了部分可观测的马尔科夫决策过程,然后采用多智能体双延迟深度确定性策略梯度算法求解,根据中心化训练、分散式执行的框架实现光伏逆变器的无功协同控制。该方法能智能决策各个逆变器的无功调节量,且能够根据源荷的随机变化实时给出电压控制策略,具有较好的实时性和控制经济性。最后通过仿真算例验证了所提方法的有效性。 展开更多
关键词 多智能体深度强化学习 马尔科夫决策过程 配电网电压优化控制 光伏逆变器 数据驱动
下载PDF
基于DQN和DDPG算法的交直流配电网多设备协同电压控制方法 被引量:7
19
作者 韩照洋 赵倩宇 +2 位作者 王守相 董逸超 钱广超 《供用电》 2023年第6期18-25,共8页
分布式光伏大规模接入配电网,推动了交直流配电网的发展。然而,这也带来了电压越限问题,限制了光伏高比例接入的进一步发展。为解决此问题,提出一种基于深度Q网络(deep Q-network,DQN)和深度确定性策略梯度算法(deep deterministic poli... 分布式光伏大规模接入配电网,推动了交直流配电网的发展。然而,这也带来了电压越限问题,限制了光伏高比例接入的进一步发展。为解决此问题,提出一种基于深度Q网络(deep Q-network,DQN)和深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)的交直流配电网深度强化学习电压控制方法。首先,构建了交直流配电网电压控制问题的马尔科夫决策过程;接着,在深度强化学习框架中,利用DQN和DDPG设计了2个智能体,基于DQN的智能体用于控制有载调压变压器和电容器组,而基于DDPG的智能体用于控制变流器的有功功率和无功功率;然后,在此基础上提出了一种多智能体的训练方法,通过与环境不断交互,智能体可以更新网络的参数,从而获得最优电压控制策略;最后,通过对改进的IEEE 33节点算例进行仿真,结果表明所提方法能有效降低电压偏差,解决光伏接入导致的电压越限问题,并实现精确快速的电压控制。 展开更多
关键词 分布式光伏 交直流配电网 深度强化学习 马尔科夫决策过程 电压控制
下载PDF
基于深度宽卷积Q网络的行星齿轮箱故障智能诊断方法 被引量:9
20
作者 王辉 徐佳文 严如强 《仪器仪表学报》 EI CAS CSCD 北大核心 2022年第3期109-120,共12页
针对行星齿轮箱故障诊断常依赖较强的专业知识,诊断模型通用性差的问题,基于深度强化学习,提出一种深度宽卷积Q网络的行星齿轮箱故障智能诊断方法。首先将行星齿轮箱的故障诊断分解为序贯决策问题,采用分类马尔科夫决策过程进行描述,并... 针对行星齿轮箱故障诊断常依赖较强的专业知识,诊断模型通用性差的问题,基于深度强化学习,提出一种深度宽卷积Q网络的行星齿轮箱故障智能诊断方法。首先将行星齿轮箱的故障诊断分解为序贯决策问题,采用分类马尔科夫决策过程进行描述,并建立故障诊断模拟环境;其次设计深度宽卷积神经网络作为深度Q网络模型中的动作值网络,增强对环境状态的感知能力;最后模型通过与环境间的不断交互,并依据环境反馈的奖励,自主学习最佳诊断策略,从而完成行星齿轮箱的状态辨识。试验及案例结果表明:该方法能够在多个工况下均可有效、准确地实现行星齿轮箱的智能诊断,诊断准确率均超过99%,增强了诊断模型的泛化性和通用性。 展开更多
关键词 行星齿轮箱 故障诊断 马尔科夫决策过程 卷积神经网络 深度Q网络
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部