期刊文献+
共找到168篇文章
< 1 2 9 >
每页显示 20 50 100
基于分层强化学习的联合作战仿真作战决策算法 被引量:7
1
作者 于博文 吕明 张捷 《火力与指挥控制》 CSCD 北大核心 2021年第10期140-146,共7页
如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作... 如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作战仿真作战决策算法,以空地一体化联合作战为背景进行作战想定,结合自主设计的作战原型系统,分析了武器装备体系作战决策流程,对分层强化学习的层次结构、奖励函数的设计、决策网络结构和训练方法进行了详细说明。通过自主开发的仿真平台对算法的有效性进行验证,为联合作战中指挥决策的适应性机制问题提供较为有效的解决方法和辅助参考价值。 展开更多
关键词 联合作战 作战仿真 作战决策 分层强化学习 优化
下载PDF
基于近端强化学习的股价预测方法 被引量:5
2
作者 岑跃峰 张晨光 +1 位作者 岑岗 赵澄 《控制与决策》 EI CSCD 北大核心 2021年第4期967-973,共7页
股价预测一直是金融时间序列研究的热点和难点,采用一种合理有效的股价预测方法对于投资者获取高额收益回报及规避交易风险具有重要的指导意义.通过结合近端策略优化(proximal policy optimization, PPO)和强化学习(reinforcement learn... 股价预测一直是金融时间序列研究的热点和难点,采用一种合理有效的股价预测方法对于投资者获取高额收益回报及规避交易风险具有重要的指导意义.通过结合近端策略优化(proximal policy optimization, PPO)和强化学习(reinforcement learning, RL),将股价预测视为一个时间序列预测问题,提出一种近端强化学习的股价预测方法 (PPORL).此外,在预测方法的基础上引入股票的相对强弱性能和股票均线指标,提出一种能够自动捕捉潜在交易点的量化交易策略,期望在获取高额收益的同时降低交易过程中存在的风险.通过实验对比了长短期记忆网络(long short-term memory, LSTM)和循环神经网络(recurrent neural network, RNN)模型在上证指数(SZZS)、深证成指(SZCZ)和沪深300指数(HS300)上的预测性能和交易决策表现,并利用多种误差评估方法对预测结果进行定量分析,从而验证了PPORL在预测性能和交易决策等方面的有效性和鲁棒性. 展开更多
关键词 股价预测 机器学习 优化 强化学习 时间序列 量化交易
原文传递
近端优化技术在冠状动脉分叉病变介入治疗中的应用进展 被引量:5
3
作者 伍珩 蔺嫦燕 《中国介入心脏病学杂志》 2020年第4期214-218,共5页
随着冠心病介入治疗技术、介入设备的不断发展,冠状动脉分叉病变(coronary bifurcation lesion,CBL)在经皮冠状动脉介入治疗(percutaneous coronary intervention,PCI)中所占的比例呈现逐年上升的趋势。据欧洲分叉病变学会2016年统计显... 随着冠心病介入治疗技术、介入设备的不断发展,冠状动脉分叉病变(coronary bifurcation lesion,CBL)在经皮冠状动脉介入治疗(percutaneous coronary intervention,PCI)中所占的比例呈现逐年上升的趋势。据欧洲分叉病变学会2016年统计显示,CBL占介入治疗的15%~20%[1]。CBL解剖结构复杂,与非分叉病变相比,CBL介入治疗手术难度大,手术即刻成功率低,术后支架内血栓形成、血管内再狭窄、靶血管血运重建等主要不良心血管事件(major adverse cardiac events,MACE)发生率较非分叉病变高很多。 展开更多
关键词 冠状动脉分叉病变 经皮冠状动脉介入治疗 优化技术
下载PDF
基于PPO的自适应PID控制算法研究
4
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 优化算法 自适应PID整定 机械臂 多智能体
下载PDF
球囊近端优化技术在冠状动脉分叉病变介入治疗中的应用进展
5
作者 刘浩 李栋栋 +4 位作者 高春城 戴慧苗 马文帅 郭万刚 李飞 《心脏杂志》 CAS 2024年第3期329-332,共4页
球囊近端优化技术通过扩张冠状动脉分叉病变分叉嵴近段支架使支架形态更加贴合原血管解剖结构,从而显著改善了支架形态和贴壁,增加了临床获益。但是在临床实践中,该术式对术者有着非常高的技术要求,球囊的选择和定位不当均可导致手术失... 球囊近端优化技术通过扩张冠状动脉分叉病变分叉嵴近段支架使支架形态更加贴合原血管解剖结构,从而显著改善了支架形态和贴壁,增加了临床获益。但是在临床实践中,该术式对术者有着非常高的技术要求,球囊的选择和定位不当均可导致手术失败和远期不良事件的发生。其次在实践中不断演化出基于该技术的多种联合术式,如rePOT技术、POKI技术和PBED技术等。因目前针对这些技术的大型临床研究较少,其在冠状动脉分叉病变的介入治疗中还存在诸多争议。本文通过系统回顾球囊近端优化技术的相关文献,并结合我们的临床经验做综述如下。 展开更多
关键词 冠状动脉 分叉病变 介入治疗 优化技术
下载PDF
基于LSTM–PPO算法的多机空战智能决策及目标分配
6
作者 丁云龙 匡敏驰 +2 位作者 朱纪洪 祝靖宇 乔直 《工程科学学报》 EI CSCD 北大核心 2024年第7期1179-1186,共8页
针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知... 针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知,将归一化和特征融合后的状态信息训练残差网络和价值网络,智能体通过近端优化策略(Proximal policy optimization,PPO)针对当前态势选择最优动作.以威胁评估指标作为分配依据,计算综合威胁度,优先将威胁值最大的战机作为攻击目标.为了验证算法的有效性,在课题组搭建的数字孪生仿真环境中进行4v4多机空战实验.并在相同的实验环境下与其他强化学习主流算法进行比较.实验结果表明,使用LSTM–PPO算法在多机空战中的胜率明显优于其他主流强化学习算法,验证了算法的有效性. 展开更多
关键词 多机空战 智能决策 优化策略 威胁评估 目标分配
下载PDF
时滞影响下压电悬臂梁强化学习振动控制
7
作者 张猛 王晓宇 文浩 《振动与冲击》 EI CSCD 北大核心 2024年第16期77-83,共7页
时滞普遍存在于各种控制系统中,如果忽略控制系统中时滞的影响可能会降低控制器的控制效果,甚至导致发散。因此研究了时滞对强化学习(reinforcement learning,RL)振动控制器性能的影响。首先,利用有限元方法建立了压电悬臂梁的动力学模... 时滞普遍存在于各种控制系统中,如果忽略控制系统中时滞的影响可能会降低控制器的控制效果,甚至导致发散。因此研究了时滞对强化学习(reinforcement learning,RL)振动控制器性能的影响。首先,利用有限元方法建立了压电悬臂梁的动力学模型,通过试验辨识修正了动力学模型参数;进而,仿真分析了不同时滞大小对比例微分控制和基于近端优化策略的RL控制效果的影响;然后,在不同时滞条件下训练了多个RL时滞控制器,并对RL控制效果进行了仿真及试验验证;最后,评估了RL时滞控制器对时滞偏差的鲁棒性。结果显示,RL时滞控制器不仅在所对应的时滞条件下具有良好的控制效果,还对实际时滞偏差有一定容忍范围,具有良好鲁棒性。 展开更多
关键词 强化学习(RL) 优化策略 时滞 振动控制
下载PDF
基于多智能体近端策略优化的多信道动态频谱接入
8
作者 陈平平 张旭 +2 位作者 谢肇鹏 丘毓萍 方毅 《电子学报》 EI CAS CSCD 北大核心 2024年第6期1824-1831,共8页
为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单... 为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单信道接入在多个信道同时空闲时存在的频谱浪费问题,使用多信道接入作为解决方案.同时,多信道接入导致状态空间与动作空间指数增长,计算成本高,学习难度大.为此本文引入MAPPO深度强化学习(Deep Reinforcement Learning,DRL)算法,在复杂环境中高效学习和优化接入策略.通过设计优化MAPPO中观测及奖励等强化学习要素和共享网络参数来保证用户公平.最后,在不同场景下的实验结果表明,所提出的MAPPO-DSA能够学习到近似最优的接入策略,部分场景中的网络吞吐量逼近理论上限,显著优于现有算法,且有效保证用户公平. 展开更多
关键词 动态频谱接入 深度强化学习 多智能体优化 多信道接入
下载PDF
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策
9
作者 王明明 张宝勇 +2 位作者 吴冲 平原 齐俊桐 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2023年第6期627-640,共14页
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角... 研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角度来评估当前情况。然后,以场景评估为指导,进行状态空间、动作空间和实时奖励反馈的设计,简化训练过程。在此基础上,提出了一种利用虚拟自博弈多智能体近端策略的方法,旨在从训练数据的经验缓冲区中推导出优势函数和平均策略。最后,通过对无人机执行红蓝对抗任务的仿真,验证了该方法的有效性和优势所在。 展开更多
关键词 无人机 空战 多智能体优化策略 决策
下载PDF
分叉病变POT-side-POT技术即刻及近期临床疗效分析
10
作者 江晓波 《中外医疗》 2018年第31期13-15,共3页
目的评估分叉病变必要时支架术治疗过程中,主支近端优化-边支扩张-主支近端再优化(POT-side-POT)技术的即刻与近期临床疗效,并对比其与最终对吻球囊扩张(FKBI)技术两种不同方法对冠状动脉分叉病变PCI治疗疗效的影响。方法方便选取2016年... 目的评估分叉病变必要时支架术治疗过程中,主支近端优化-边支扩张-主支近端再优化(POT-side-POT)技术的即刻与近期临床疗效,并对比其与最终对吻球囊扩张(FKBI)技术两种不同方法对冠状动脉分叉病变PCI治疗疗效的影响。方法方便选取2016年6月—2017年11月期间,该院心内科冠心病患者通过冠脉造影证实的138个非左主干分叉病变患者,采用必要时支架术式并出现边支受累(边支血流受限,边支闭塞)分为FKBI组(68例)和POTside-POT组(70例),对比两组患者基线的临床特征,冠脉病变特征以及两组患者QCA参数、术中曝光时间及造影剂使用量。结果两组患者基线的临床特征与冠状动脉病变特征、术前即刻和术后即刻的冠状动脉主支和分支冠状动脉检查定量分析(QCA)均差异无统计学意义(P>0.05)。但POT-side-POT组手术操作时间,手术时间,术中曝光时间及造影剂使用量低于FKBD组,差异有统计学意义(P<0.05)。结论 POT-side-POT技术可以简化手术步骤,减少手术曝光时间及造影剂使用量,即刻与近期临床疗效不劣于FKBD技术,是PCI治疗冠状动脉分叉病变安全、有效、可行的方法。 展开更多
关键词 分叉病变 必要时支架术 最终球囊对吻扩张 优化技术
下载PDF
基于近端策略优化的作战实体博弈对抗算法 被引量:18
11
作者 张振 黄炎焱 +1 位作者 张永亮 陈天德 《南京理工大学学报》 EI CAS CSCD 北大核心 2021年第1期77-83,共7页
针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的... 针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。 展开更多
关键词 兵棋推演 深度强化学习 监督学习 策略优化 稀疏奖励
下载PDF
不确定性环境下基于深度强化学习的综合能源系统动态调度 被引量:17
12
作者 蔺伟山 王小君 +3 位作者 孙庆凯 刘曌 和敬涵 蒲天骄 《电力系统保护与控制》 EI CSCD 北大核心 2022年第18期50-60,共11页
随着综合能源系统中间歇性能源和负荷不确定性的逐步增强,传统的调度方法局限于固定物理模型及参数设定,难以较好地动态响应源荷的随机波动。针对这一问题,提出了一种基于深度强化学习的综合能源系统动态调度方法。首先,以数据驱动方式... 随着综合能源系统中间歇性能源和负荷不确定性的逐步增强,传统的调度方法局限于固定物理模型及参数设定,难以较好地动态响应源荷的随机波动。针对这一问题,提出了一种基于深度强化学习的综合能源系统动态调度方法。首先,以数据驱动方式构建面向综合能源系统的深度强化学习模型,通过智能体与综合能源系统的持续交互,自适应学习调度策略,降低对物理模型的依赖程度。其次,通过添加随机扰动的方式表征源荷不确定性变化特征,针对不确定性变化特征改进深度强化学习模型的状态空间、动作空间、奖励机制以及训练流程等关键环节,并经由近端策略优化算法优化求解,实现了综合能源系统的动态调度决策。最后,通过算例仿真验证了所提方法在不同时间尺度以及不确定性环境下的可行性和有效性。 展开更多
关键词 综合能源系统 动态调度 不确定性 深度强化学习 策略优化
下载PDF
基于深度强化学习的能源互联网智能巡检任务分配机制 被引量:16
13
作者 徐思雅 邢逸斐 +3 位作者 郭少勇 杨超 邱雪松 孟洛明 《通信学报》 EI CSCD 北大核心 2021年第5期191-204,共14页
在能源互联网中引入无人机进行电力线路巡查,并借助移动边缘计算技术实现巡检任务的接入和处理,可降低服务成本,提高工作效率。但是,由于无人机数据传输需求和地理位置的动态变化,易造成边缘服务器负载不均衡,致使巡检业务处理时延和网... 在能源互联网中引入无人机进行电力线路巡查,并借助移动边缘计算技术实现巡检任务的接入和处理,可降低服务成本,提高工作效率。但是,由于无人机数据传输需求和地理位置的动态变化,易造成边缘服务器负载不均衡,致使巡检业务处理时延和网络能耗较高。为解决以上问题,提出基于深度强化学习的能源互联网智能巡检任务分配机制。首先,综合考虑无人机和边缘节点的运动轨迹、业务差异化的服务需求、边缘节点有限的服务能力等,建立面向时延、能耗等多目标联合优化的双层边缘网络任务卸载模型。进而,基于Lyapunov优化理论和双时间尺度机制,采用近端策略优化的深度强化学习算法,对固定边缘汇聚层和移动边缘接入层边缘节点间的连接关系和卸载策略进行求解。仿真结果表明,所提机制能够在保证系统稳定的情况下降低服务时延和系统能耗。 展开更多
关键词 巡检无人机 任务卸载 策略优化 李雅普诺夫优化 人工智能
下载PDF
基于深度强化学习近端策略优化的电网无功优化方法 被引量:13
14
作者 张沛 朱驻军 谢桦 《电网技术》 EI CSCD 北大核心 2023年第2期562-570,共9页
新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IE... 新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IEEE39系统开展案例分析,结果表明所提的奖励函数能提高智能体收敛速度,基于强化学习求解的无功优化策略在决策效果和决策时间上优于传统确定性优化算法。 展开更多
关键词 无功优化 新型电力系统 深度强化学习 策略优化 数据驱动
下载PDF
计及源荷不确定性的综合能源系统近端策略优化调度 被引量:13
15
作者 雷嘉明 姜爱华 +1 位作者 吴新飞 田君杨 《电力科学与技术学报》 CAS CSCD 北大核心 2023年第5期1-11,共11页
源荷的不确定性一直是综合能源系统优化调度中的难点问题。针对源荷不确定波动问题,提出一种基于数据深度强化学习的近端策略优化调度方法,实现在阶梯式碳交易下,满足用户需求的综合能源系统最优成本和降低碳排放总量的优化调度。首先,... 源荷的不确定性一直是综合能源系统优化调度中的难点问题。针对源荷不确定波动问题,提出一种基于数据深度强化学习的近端策略优化调度方法,实现在阶梯式碳交易下,满足用户需求的综合能源系统最优成本和降低碳排放总量的优化调度。首先,以阶梯式碳交易下计及碳交易费用的系统总成本为目标,建立多类型柔性负荷综合需求响应模型,提高需求响应的响应能力和调度灵活性;然后,在深度强化学习的框架下,设定了该模型的马尔可夫决策过程(Markov decision process,MDP);最后,对不确定性带来的数据变化,使用近端策略优化(proximal policy optimization,PPO)算法求解,引入小批量更新和重要性采样,将每次策略更新的幅度限制在一定范围内,从而保证策略更新的准确性。仿真结果表明,本方法可有效解决源荷不确定性带来的影响,有效降低碳排放总量和系统日平均运行成本。 展开更多
关键词 策略优化 阶梯式碳交易 源荷不确定性 电转气 综合能源系统
下载PDF
基于近端策略优化算法的四足机器人步态控制研究 被引量:11
16
作者 张浩昱 熊凯 《空间控制技术与应用》 CSCD 北大核心 2019年第3期53-58,共6页
足式机器人步态控制是机器人研究领域的难点问题,应用强化学习让机器人自主学习策略提供了一种很好的解决思路.基于ROS机器人操作系统搭建了四足机器人仿真平台,将近端策略优化算法用于四足机器人步态控制,并与其他深度强化学习算法进... 足式机器人步态控制是机器人研究领域的难点问题,应用强化学习让机器人自主学习策略提供了一种很好的解决思路.基于ROS机器人操作系统搭建了四足机器人仿真平台,将近端策略优化算法用于四足机器人步态控制,并与其他深度强化学习算法进行了对比分析.仿真实验结果表明,近端策略优化算法在实际应用中具有更好的训练效果. 展开更多
关键词 深度强化学习 策略优化 机器人控制
下载PDF
基于多智能体强化学习的无人艇协同围捕方法 被引量:10
17
作者 夏家伟 朱旭芳 +2 位作者 张建强 罗亚松 刘忠 《控制与决策》 EI CSCD 北大核心 2023年第5期1438-1447,共10页
针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优... 针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优化(MAPPO)算法建立马尔可夫决策过程框架,结合围捕任务需求分别设计兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数;最后,采用集中式训练、分布式执行的架构完成对围捕策略的训练,训练时采用课程式学习训练技巧,无人艇群共享相同的策略并独立执行动作.仿真实验表明,在无人艇起始数量不同的测试条件下,所提出方法在围捕成功率和时效性上相较于其他算法更具优势.此外,当无人艇节点损毁时,剩余无人艇仍然具备继续执行围捕任务的能力,所提出方法鲁棒性强,具有在真实环境中部署应用的潜力. 展开更多
关键词 无人艇 多智能体 强化学习 深度学习 协同围捕 策略优化
原文传递
基于终端诱导强化学习的航天器轨道追逃博弈 被引量:9
18
作者 耿远卓 袁利 +1 位作者 黄煌 汤亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. 展开更多
关键词 航天器追逃 智能博弈 策略优化 奖励函数设计 诱导
下载PDF
基于深度强化学习算法的风光互补可再生能源制氢系统调度方案 被引量:8
19
作者 梁涛 孙博峰 +2 位作者 谭建鑫 曹欣 孙鹤旭 《高电压技术》 EI CAS CSCD 北大核心 2023年第6期2264-2274,共11页
风光可再生能源制备“绿氢”是实现能源低碳化的重要途径,但风能、太阳能的波动性、间歇性等问题会使系统存在“弃风、弃光”现象。为解决该问题,构建了可再生能源并网制氢系统,针对传统CPLEX需要精准预测数据、基于状态控制法的监控策... 风光可再生能源制备“绿氢”是实现能源低碳化的重要途径,但风能、太阳能的波动性、间歇性等问题会使系统存在“弃风、弃光”现象。为解决该问题,构建了可再生能源并网制氢系统,针对传统CPLEX需要精准预测数据、基于状态控制法的监控策略控制效果不够理想的缺点,将协调控制转化为序列决策问题,采用深度强化学习连续近端策略优化算法进行解决。在发电量、负荷等多种因素变化的情况下,设计了适合解决可再生能源制氢系统调度问题的深度强化学习模型(renewable energy to hydrogen-proximal policy optimization,R2H-PPO),经过足够的训练后能够实现在线决策控制,并与日前控制方案和基于状态控制法的监控策略进行了对比,证明所采用方法避免了传统方案的不足,并能有效处理不同时刻、天气、季节的场景。结果证明了所提出的R2H-PPO方法的可行性和有效性。 展开更多
关键词 可再生能源 制氢系统 深度强化学习 策略优化 运行优化 R2H-PPO
下载PDF
面向虚拟数据空间的智能TCP拥塞控制算法 被引量:9
20
作者 王龙翔 董凯 +5 位作者 李小轩 董小社 张兴军 朱正东 王宇菲 张利平 《西安交通大学学报》 EI CAS CSCD 北大核心 2021年第5期83-91,共9页
为优化虚拟数据空间网络传输性能,提出了基于近端策略优化的智能TCP拥塞控制算法TCP-PPO2。将TCP拥塞控制过程抽象为一个可部分观察的马尔可夫决策过程,在该过程中构建一个智能体,与网络环境进行互动。智能体通过观察网络状态特征对拥... 为优化虚拟数据空间网络传输性能,提出了基于近端策略优化的智能TCP拥塞控制算法TCP-PPO2。将TCP拥塞控制过程抽象为一个可部分观察的马尔可夫决策过程,在该过程中构建一个智能体,与网络环境进行互动。智能体通过观察网络状态特征对拥塞窗口长度进行调节,网络环境向智能体反馈奖励值,智能体尝试最大化回合内获得奖励期望值。设计了包括吞吐率、网络时延等网络特征的状态空间,使智能体能够观察到足够多的信息进行决策并且降低性能开销。通过加权算法设计奖励函数,使智能体能够平衡优化吞吐率与时延。通过近端策略优化算法更新智能体模型参数,对过大的参数更新进行截断,将参数更新限制在一定范围内,减少梯度下降过程中出现的振荡,实现训练过程的快速收敛。在NS3模拟器上实现了基于近端策略优化的TCP拥塞控制算法,并与Cubic、HighSpeed和NewReno等主流拥塞控制算法进行了对比,结果表明:TCP-PPO2吞吐率性能可达对比算法的2~3倍以上;80%的采样点时延相比链路最小时延值只增加了4%。 展开更多
关键词 虚拟数据空间 策略优化 拥塞控制 TCP
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部