期刊文献+
共找到167篇文章
< 1 2 9 >
每页显示 20 50 100
基于分层强化学习的联合作战仿真作战决策算法 被引量:7
1
作者 于博文 吕明 张捷 《火力与指挥控制》 CSCD 北大核心 2021年第10期140-146,共7页
如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作... 如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作战仿真作战决策算法,以空地一体化联合作战为背景进行作战想定,结合自主设计的作战原型系统,分析了武器装备体系作战决策流程,对分层强化学习的层次结构、奖励函数的设计、决策网络结构和训练方法进行了详细说明。通过自主开发的仿真平台对算法的有效性进行验证,为联合作战中指挥决策的适应性机制问题提供较为有效的解决方法和辅助参考价值。 展开更多
关键词 联合作战 作战仿真 作战决策 分层强化学习 近端优化
下载PDF
基于近端强化学习的股价预测方法 被引量:5
2
作者 岑跃峰 张晨光 +1 位作者 岑岗 赵澄 《控制与决策》 EI CSCD 北大核心 2021年第4期967-973,共7页
股价预测一直是金融时间序列研究的热点和难点,采用一种合理有效的股价预测方法对于投资者获取高额收益回报及规避交易风险具有重要的指导意义.通过结合近端策略优化(proximal policy optimization, PPO)和强化学习(reinforcement learn... 股价预测一直是金融时间序列研究的热点和难点,采用一种合理有效的股价预测方法对于投资者获取高额收益回报及规避交易风险具有重要的指导意义.通过结合近端策略优化(proximal policy optimization, PPO)和强化学习(reinforcement learning, RL),将股价预测视为一个时间序列预测问题,提出一种近端强化学习的股价预测方法 (PPORL).此外,在预测方法的基础上引入股票的相对强弱性能和股票均线指标,提出一种能够自动捕捉潜在交易点的量化交易策略,期望在获取高额收益的同时降低交易过程中存在的风险.通过实验对比了长短期记忆网络(long short-term memory, LSTM)和循环神经网络(recurrent neural network, RNN)模型在上证指数(SZZS)、深证成指(SZCZ)和沪深300指数(HS300)上的预测性能和交易决策表现,并利用多种误差评估方法对预测结果进行定量分析,从而验证了PPORL在预测性能和交易决策等方面的有效性和鲁棒性. 展开更多
关键词 股价预测 机器学习 近端优化 强化学习 时间序列 量化交易
原文传递
分叉病变POT-side-POT技术即刻及近期临床疗效分析
3
作者 江晓波 《中外医疗》 2018年第31期13-15,共3页
目的评估分叉病变必要时支架术治疗过程中,主支近端优化-边支扩张-主支近端再优化(POT-side-POT)技术的即刻与近期临床疗效,并对比其与最终对吻球囊扩张(FKBI)技术两种不同方法对冠状动脉分叉病变PCI治疗疗效的影响。方法方便选取2016年... 目的评估分叉病变必要时支架术治疗过程中,主支近端优化-边支扩张-主支近端再优化(POT-side-POT)技术的即刻与近期临床疗效,并对比其与最终对吻球囊扩张(FKBI)技术两种不同方法对冠状动脉分叉病变PCI治疗疗效的影响。方法方便选取2016年6月—2017年11月期间,该院心内科冠心病患者通过冠脉造影证实的138个非左主干分叉病变患者,采用必要时支架术式并出现边支受累(边支血流受限,边支闭塞)分为FKBI组(68例)和POTside-POT组(70例),对比两组患者基线的临床特征,冠脉病变特征以及两组患者QCA参数、术中曝光时间及造影剂使用量。结果两组患者基线的临床特征与冠状动脉病变特征、术前即刻和术后即刻的冠状动脉主支和分支冠状动脉检查定量分析(QCA)均差异无统计学意义(P>0.05)。但POT-side-POT组手术操作时间,手术时间,术中曝光时间及造影剂使用量低于FKBD组,差异有统计学意义(P<0.05)。结论 POT-side-POT技术可以简化手术步骤,减少手术曝光时间及造影剂使用量,即刻与近期临床疗效不劣于FKBD技术,是PCI治疗冠状动脉分叉病变安全、有效、可行的方法。 展开更多
关键词 分叉病变 必要时支架术 最终球囊对吻扩张 近端优化技术
下载PDF
基于深度强化学习的多机协同空战方法研究 被引量:54
4
作者 施伟 冯旸赫 +4 位作者 程光权 黄红蓝 黄金才 刘忠 贺威 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative ... 多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. 展开更多
关键词 多机协同空战 智能决策 深度强化学习 PPO算法 增强机制
下载PDF
基于近端策略优化的作战实体博弈对抗算法 被引量:18
5
作者 张振 黄炎焱 +1 位作者 张永亮 陈天德 《南京理工大学学报》 EI CAS CSCD 北大核心 2021年第1期77-83,共7页
针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的... 针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。 展开更多
关键词 兵棋推演 深度强化学习 监督学习 近端策略优化 稀疏奖励
下载PDF
不确定性环境下基于深度强化学习的综合能源系统动态调度 被引量:17
6
作者 蔺伟山 王小君 +3 位作者 孙庆凯 刘曌 和敬涵 蒲天骄 《电力系统保护与控制》 EI CSCD 北大核心 2022年第18期50-60,共11页
随着综合能源系统中间歇性能源和负荷不确定性的逐步增强,传统的调度方法局限于固定物理模型及参数设定,难以较好地动态响应源荷的随机波动。针对这一问题,提出了一种基于深度强化学习的综合能源系统动态调度方法。首先,以数据驱动方式... 随着综合能源系统中间歇性能源和负荷不确定性的逐步增强,传统的调度方法局限于固定物理模型及参数设定,难以较好地动态响应源荷的随机波动。针对这一问题,提出了一种基于深度强化学习的综合能源系统动态调度方法。首先,以数据驱动方式构建面向综合能源系统的深度强化学习模型,通过智能体与综合能源系统的持续交互,自适应学习调度策略,降低对物理模型的依赖程度。其次,通过添加随机扰动的方式表征源荷不确定性变化特征,针对不确定性变化特征改进深度强化学习模型的状态空间、动作空间、奖励机制以及训练流程等关键环节,并经由近端策略优化算法优化求解,实现了综合能源系统的动态调度决策。最后,通过算例仿真验证了所提方法在不同时间尺度以及不确定性环境下的可行性和有效性。 展开更多
关键词 综合能源系统 动态调度 不确定性 深度强化学习 近端策略优化
下载PDF
基于深度强化学习的能源互联网智能巡检任务分配机制 被引量:16
7
作者 徐思雅 邢逸斐 +3 位作者 郭少勇 杨超 邱雪松 孟洛明 《通信学报》 EI CSCD 北大核心 2021年第5期191-204,共14页
在能源互联网中引入无人机进行电力线路巡查,并借助移动边缘计算技术实现巡检任务的接入和处理,可降低服务成本,提高工作效率。但是,由于无人机数据传输需求和地理位置的动态变化,易造成边缘服务器负载不均衡,致使巡检业务处理时延和网... 在能源互联网中引入无人机进行电力线路巡查,并借助移动边缘计算技术实现巡检任务的接入和处理,可降低服务成本,提高工作效率。但是,由于无人机数据传输需求和地理位置的动态变化,易造成边缘服务器负载不均衡,致使巡检业务处理时延和网络能耗较高。为解决以上问题,提出基于深度强化学习的能源互联网智能巡检任务分配机制。首先,综合考虑无人机和边缘节点的运动轨迹、业务差异化的服务需求、边缘节点有限的服务能力等,建立面向时延、能耗等多目标联合优化的双层边缘网络任务卸载模型。进而,基于Lyapunov优化理论和双时间尺度机制,采用近端策略优化的深度强化学习算法,对固定边缘汇聚层和移动边缘接入层边缘节点间的连接关系和卸载策略进行求解。仿真结果表明,所提机制能够在保证系统稳定的情况下降低服务时延和系统能耗。 展开更多
关键词 巡检无人机 任务卸载 近端策略优化 李雅普诺夫优化 人工智能
下载PDF
基于近端策略优化算法的电化学/氢混合储能系统双层配置及运行优化 被引量:15
8
作者 闫庆友 史超凡 +1 位作者 秦光宇 许传博 《电力建设》 CSCD 北大核心 2022年第8期22-32,共11页
针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求... 针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求解,并考虑了两者间的相互影响,采用强化学习近端策略优化(proximal policy optimization,PPO)算法求解该双层优化模型。以甘肃省某地区的风光数据,通过对比应用多种传统算法求解结果,验证了所用算法在复杂环境下适应度最高且收敛速度最快。研究结果表明,应用该模型最大可降低24%的弃风、弃光率,有效提升系统综合效益。氢储能作为容量型储能配置不受地形因素限制,适用于多样的应用场景,从而为氢储能这一新型储能形态在全国的广泛配置提供了应用示范。 展开更多
关键词 风光消纳 储能配置 双层优化 氢储能 近端策略优化(PPO)算法
原文传递
融合LSTM和PPO算法的移动机器人视觉导航 被引量:15
9
作者 张仪 冯伟 +4 位作者 王卫军 杨之乐 张艳辉 朱子翰 谭勇 《电子测量与仪器学报》 CSCD 北大核心 2022年第8期132-140,共9页
为提高移动机器人在无地图情况下的视觉导航能力,提升导航成功率,提出了一种融合长短期记忆神经网络(long short term memory, LSTM)和近端策略优化算法(proximal policy optimization, PPO)算法的移动机器人视觉导航模型。首先,该模型... 为提高移动机器人在无地图情况下的视觉导航能力,提升导航成功率,提出了一种融合长短期记忆神经网络(long short term memory, LSTM)和近端策略优化算法(proximal policy optimization, PPO)算法的移动机器人视觉导航模型。首先,该模型融合LSTM和PPO算法作为视觉导航的网络模型;其次,通过移动机器人动作,与目标距离,运动时间等因素设计奖励函数,用以训练目标;最后,以移动机器人第一视角获得的RGB-D图像及目标点的极性坐标为输入,以移动机器人的连续动作值为输出,实现无地图的端到端视觉导航任务,并根据推理到达未接受过训练的新目标。对比前序算法,该模型在模拟环境中收敛速度更快,旧目标的导航成功率平均提高17.7%,新目标的导航成功率提高23.3%,具有较好的导航性能。 展开更多
关键词 近端策略优化算法 长短期记忆神经网络 视觉导航
下载PDF
基于深度强化学习近端策略优化的电网无功优化方法 被引量:13
10
作者 张沛 朱驻军 谢桦 《电网技术》 EI CSCD 北大核心 2023年第2期562-570,共9页
新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IE... 新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IEEE39系统开展案例分析,结果表明所提的奖励函数能提高智能体收敛速度,基于强化学习求解的无功优化策略在决策效果和决策时间上优于传统确定性优化算法。 展开更多
关键词 无功优化 新型电力系统 深度强化学习 近端策略优化 数据驱动
下载PDF
计及源荷不确定性的综合能源系统近端策略优化调度 被引量:13
11
作者 雷嘉明 姜爱华 +1 位作者 吴新飞 田君杨 《电力科学与技术学报》 CAS CSCD 北大核心 2023年第5期1-11,共11页
源荷的不确定性一直是综合能源系统优化调度中的难点问题。针对源荷不确定波动问题,提出一种基于数据深度强化学习的近端策略优化调度方法,实现在阶梯式碳交易下,满足用户需求的综合能源系统最优成本和降低碳排放总量的优化调度。首先,... 源荷的不确定性一直是综合能源系统优化调度中的难点问题。针对源荷不确定波动问题,提出一种基于数据深度强化学习的近端策略优化调度方法,实现在阶梯式碳交易下,满足用户需求的综合能源系统最优成本和降低碳排放总量的优化调度。首先,以阶梯式碳交易下计及碳交易费用的系统总成本为目标,建立多类型柔性负荷综合需求响应模型,提高需求响应的响应能力和调度灵活性;然后,在深度强化学习的框架下,设定了该模型的马尔可夫决策过程(Markov decision process,MDP);最后,对不确定性带来的数据变化,使用近端策略优化(proximal policy optimization,PPO)算法求解,引入小批量更新和重要性采样,将每次策略更新的幅度限制在一定范围内,从而保证策略更新的准确性。仿真结果表明,本方法可有效解决源荷不确定性带来的影响,有效降低碳排放总量和系统日平均运行成本。 展开更多
关键词 近端策略优化 阶梯式碳交易 源荷不确定性 电转气 综合能源系统
下载PDF
强化学习算法在超视距空战辅助决策上的应用研究 被引量:13
12
作者 吴宜珈 赖俊 +2 位作者 陈希亮 曹雷 徐鹏 《航空兵器》 CSCD 北大核心 2021年第2期55-61,共7页
针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。 展开更多
关键词 超视距空战 智能决策 人工智能 强化学习 近端策略优化算法 分层强化学习
下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:12
13
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 近端策略优化算法 新能源
下载PDF
基于深度强化学习的三维路径规划算法 被引量:13
14
作者 黄东晋 蒋晨凤 韩凯丽 《计算机工程与应用》 CSCD 北大核心 2020年第15期30-36,共7页
合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态... 合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态空间和动作状态引入长短时记忆网络。通过额外的奖惩函数和好奇心驱动让智能体学会跳跃通过低矮障碍物,避开大型障碍物。利用PPO算法的截断项机制使得规划策略更新的幅度更加优化。实验结果表明,该算法是可行的,能够更加智能合理地选择路线,很好地适应存在多样障碍物的未知环境。 展开更多
关键词 深度强化学习 近端策略优化算法 路径规划 复杂未知场景
下载PDF
基于多智能体强化学习的无人艇协同围捕方法 被引量:10
15
作者 夏家伟 朱旭芳 +2 位作者 张建强 罗亚松 刘忠 《控制与决策》 EI CSCD 北大核心 2023年第5期1438-1447,共10页
针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优... 针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优化(MAPPO)算法建立马尔可夫决策过程框架,结合围捕任务需求分别设计兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数;最后,采用集中式训练、分布式执行的架构完成对围捕策略的训练,训练时采用课程式学习训练技巧,无人艇群共享相同的策略并独立执行动作.仿真实验表明,在无人艇起始数量不同的测试条件下,所提出方法在围捕成功率和时效性上相较于其他算法更具优势.此外,当无人艇节点损毁时,剩余无人艇仍然具备继续执行围捕任务的能力,所提出方法鲁棒性强,具有在真实环境中部署应用的潜力. 展开更多
关键词 无人艇 多智能体 强化学习 深度学习 协同围捕 近端策略优化
原文传递
基于近端策略优化算法的四足机器人步态控制研究 被引量:11
16
作者 张浩昱 熊凯 《空间控制技术与应用》 CSCD 北大核心 2019年第3期53-58,共6页
足式机器人步态控制是机器人研究领域的难点问题,应用强化学习让机器人自主学习策略提供了一种很好的解决思路.基于ROS机器人操作系统搭建了四足机器人仿真平台,将近端策略优化算法用于四足机器人步态控制,并与其他深度强化学习算法进... 足式机器人步态控制是机器人研究领域的难点问题,应用强化学习让机器人自主学习策略提供了一种很好的解决思路.基于ROS机器人操作系统搭建了四足机器人仿真平台,将近端策略优化算法用于四足机器人步态控制,并与其他深度强化学习算法进行了对比分析.仿真实验结果表明,近端策略优化算法在实际应用中具有更好的训练效果. 展开更多
关键词 深度强化学习 近端策略优化 机器人控制
下载PDF
基于终端诱导强化学习的航天器轨道追逃博弈 被引量:9
17
作者 耿远卓 袁利 +1 位作者 黄煌 汤亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. 展开更多
关键词 航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导
下载PDF
基于深度强化学习算法的风光互补可再生能源制氢系统调度方案 被引量:8
18
作者 梁涛 孙博峰 +2 位作者 谭建鑫 曹欣 孙鹤旭 《高电压技术》 EI CAS CSCD 北大核心 2023年第6期2264-2274,共11页
风光可再生能源制备“绿氢”是实现能源低碳化的重要途径,但风能、太阳能的波动性、间歇性等问题会使系统存在“弃风、弃光”现象。为解决该问题,构建了可再生能源并网制氢系统,针对传统CPLEX需要精准预测数据、基于状态控制法的监控策... 风光可再生能源制备“绿氢”是实现能源低碳化的重要途径,但风能、太阳能的波动性、间歇性等问题会使系统存在“弃风、弃光”现象。为解决该问题,构建了可再生能源并网制氢系统,针对传统CPLEX需要精准预测数据、基于状态控制法的监控策略控制效果不够理想的缺点,将协调控制转化为序列决策问题,采用深度强化学习连续近端策略优化算法进行解决。在发电量、负荷等多种因素变化的情况下,设计了适合解决可再生能源制氢系统调度问题的深度强化学习模型(renewable energy to hydrogen-proximal policy optimization,R2H-PPO),经过足够的训练后能够实现在线决策控制,并与日前控制方案和基于状态控制法的监控策略进行了对比,证明所采用方法避免了传统方案的不足,并能有效处理不同时刻、天气、季节的场景。结果证明了所提出的R2H-PPO方法的可行性和有效性。 展开更多
关键词 可再生能源 制氢系统 深度强化学习 近端策略优化 运行优化 R2H-PPO
下载PDF
基于深度强化学习的分布式能源系统运行优化 被引量:9
19
作者 阮应君 侯泽群 +1 位作者 钱凡悦 孟华 《科学技术与工程》 北大核心 2022年第17期7021-7030,共10页
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优... 分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模;其次,深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(distributed proximal policy optimization,DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP);最后,采用历史的数据对智能体进行训练,训练完成的模型可以实现对分布式能源系统的实时优化,并对比了深度Q网络(deep Q network,DQN)算法和LINGO获得的调度策略。结果表明,基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。 展开更多
关键词 深度强化学习 分布式近端策略优化 分布式能源系统 运行优化
下载PDF
基于DPPO的移动采摘机器人避障路径规划及仿真 被引量:8
20
作者 林俊强 王红军 +4 位作者 邹湘军 张坡 李承恩 周益鹏 姚书杰 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1692-1704,共13页
针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题,提出一种基于深度强化学习的自主避障路径规划方法。设定状态空间和动作空间,借助人工势场法设计奖励函数的思想,提出了一种基于碰撞锥避碰检测的障... 针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题,提出一种基于深度强化学习的自主避障路径规划方法。设定状态空间和动作空间,借助人工势场法设计奖励函数的思想,提出了一种基于碰撞锥避碰检测的障碍物惩罚系数设定方法,提高自主避碰能力。构建了虚拟仿真系统,使用分布式近端策略优化算法(distributed proximal policy optimization,DPPO)完成了移动采摘机器人的学习训练并进行实验验证。仿真结果表明:本系统能够快速、稳定的控制虚拟移动采摘机器人自主避障,获得更优的作业路径,为采摘机器人自主导航提供理论与技术支撑。 展开更多
关键词 深度强化学习 近端策略优化 移动采摘机器人 避障 路径规划 人工势场 碰撞锥
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部