期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
强化学习算法在超视距空战辅助决策上的应用研究 被引量:13
1
作者 吴宜珈 赖俊 +2 位作者 陈希亮 曹雷 徐鹏 《航空兵器》 CSCD 北大核心 2021年第2期55-61,共7页
针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。 展开更多
关键词 超视距空战 智能决策 人工智能 强化学习 策略优化算法 分层强化学习
下载PDF
融合LSTM和PPO算法的移动机器人视觉导航 被引量:12
2
作者 张仪 冯伟 +4 位作者 王卫军 杨之乐 张艳辉 朱子翰 谭勇 《电子测量与仪器学报》 CSCD 北大核心 2022年第8期132-140,共9页
为提高移动机器人在无地图情况下的视觉导航能力,提升导航成功率,提出了一种融合长短期记忆神经网络(long short term memory, LSTM)和近端策略优化算法(proximal policy optimization, PPO)算法的移动机器人视觉导航模型。首先,该模型... 为提高移动机器人在无地图情况下的视觉导航能力,提升导航成功率,提出了一种融合长短期记忆神经网络(long short term memory, LSTM)和近端策略优化算法(proximal policy optimization, PPO)算法的移动机器人视觉导航模型。首先,该模型融合LSTM和PPO算法作为视觉导航的网络模型;其次,通过移动机器人动作,与目标距离,运动时间等因素设计奖励函数,用以训练目标;最后,以移动机器人第一视角获得的RGB-D图像及目标点的极性坐标为输入,以移动机器人的连续动作值为输出,实现无地图的端到端视觉导航任务,并根据推理到达未接受过训练的新目标。对比前序算法,该模型在模拟环境中收敛速度更快,旧目标的导航成功率平均提高17.7%,新目标的导航成功率提高23.3%,具有较好的导航性能。 展开更多
关键词 策略优化算法 长短期记忆神经网络 视觉导航
下载PDF
基于深度强化学习的三维路径规划算法 被引量:13
3
作者 黄东晋 蒋晨凤 韩凯丽 《计算机工程与应用》 CSCD 北大核心 2020年第15期30-36,共7页
合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态... 合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态空间和动作状态引入长短时记忆网络。通过额外的奖惩函数和好奇心驱动让智能体学会跳跃通过低矮障碍物,避开大型障碍物。利用PPO算法的截断项机制使得规划策略更新的幅度更加优化。实验结果表明,该算法是可行的,能够更加智能合理地选择路线,很好地适应存在多样障碍物的未知环境。 展开更多
关键词 深度强化学习 策略优化算法 路径规划 复杂未知场景
下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:7
4
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 策略优化算法 新能源
下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:5
5
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 策略优化算法 虚拟目标点
下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:1
6
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
下载PDF
基于深度强化学习的模糊作业车间调度问题 被引量:1
7
作者 朱家政 张宏立 +2 位作者 王聪 李新凯 董颖超 《控制与决策》 EI CSCD 北大核心 2024年第2期595-603,共9页
针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种... 针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程;其次,将长短期记忆(LSTM)网络应用于PPO算法的行动者-评论者框架中,以解决传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,通过实验验证了该算法能够取得更好的性能. 展开更多
关键词 深度学习 强化学习 策略优化算法 模糊作业车间调度
原文传递
基于注意力的循环PPO算法及其应用
8
作者 吕相霖 臧兆祥 +1 位作者 李思博 王俊英 《计算机技术与发展》 2024年第1期136-142,共7页
针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信... 针对深度强化学习算法在部分可观测环境中面临信息掌握不足、存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法)。该算法首先通过卷积网络层提取特征;其次采用注意力机制突出状态中重要的关键信息;再次通过LSTM网络提取数据的时域特性;最后基于Actor-Critic结构的PPO算法进行策略学习与训练提升。基于Gym-Minigrid环境设计了两项探索任务的消融与对比实验,实验结果表明ARPPO算法较已有的A2C算法、PPO算法、RPPO算法具有更快的收敛速度,且ARPPO算法在收敛之后具有很强的稳定性,并对存在随机因素的未知环境具备更强的适应力。 展开更多
关键词 深度强化学习 部分可观测 注意力机制 LSTM网络 策略优化算法
下载PDF
基于深度强化学习的园区综合能源系统低碳经济调度
9
作者 杨挺 刘豪 +3 位作者 王静 党兆帅 耿毅男 盆海波 《电网技术》 EI CSCD 北大核心 2024年第9期3604-3613,I0022,I0023,共12页
为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对... 为降低园区综合能源系统的运行成本和碳排放量,同时应对系统不确定性带来的随机波动,提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。首先构建园区阶梯式碳交易模型,将碳交易成本考虑在内对园区综合能源系统低碳经济调度问题进行数学描述;其次将该调度问题表述为马尔可夫决策过程框架,定义系统的观测状态、调度动作和奖励函数;继而采用近端策略优化算法进行低碳经济调度决策。所提方法无需进行负荷预测或不确定性建模,能够对源和荷的随机波动做出实时响应。最后基于多场景多算法进行算例仿真,结果表明所提方法提高系统运行经济性的同时降低了系统碳排放量。 展开更多
关键词 园区综合能源系统 阶梯式碳交易 深度强化学习 策略优化算法 低碳经济调度
下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
10
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 策略优化算法 代理目标函数 状态特征向量
下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法
11
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
下载PDF
基于PPO的异构UUV集群任务分配算法
12
作者 董经纬 姚尧 +2 位作者 冯景祥 李亚哲 尤岳 《舰船科学技术》 北大核心 2024年第12期84-89,共6页
无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,... 无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,针对水下信息缺失、奖励稀少的问题,在近端策略优化算法的基础上加入Curiosity模块,给智能体一种减小环境中不确定性的期望,鼓励UUV探索环境中不可预测的部分,实现UUV集群的最优任务分配。最后的仿真实验表明,相较于传统智能算法,该方法收敛更快,可靠性更强。 展开更多
关键词 任务分配 策略优化算法 集群
下载PDF
基于改进近端策略优化算法控制的应急无人机飞行控制系统研究
13
作者 王进月 尹存珍 +1 位作者 佀庆民 付帅 《科学技术创新》 2024年第14期27-30,共4页
为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准... 为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准确率均大于90%,最高准确率为92%,而k-NN算法的准确率在不同迭代次数上存在一定波动,最高准确率为90%,最低准确率仅为80%。且改进PPO算法和PPO算法的总计算时间成本基本相同,均为1 932.4 s,但改进PPO算法在训练过程中能使损失值收敛得更快。 展开更多
关键词 策略优化算法 维度裁剪技术 准确率 控制性能
下载PDF
深度强化学习之近端策略优化研究 被引量:1
14
作者 金堃 邓向阳 于柯远 《物联网技术》 2023年第7期69-75,共7页
随着信息技术的不断发展,机器的智能化成为热点研究问题。深度学习能有效地提取出环境中的特征信息,强化学习能有效地提出行为策略,将二者进行融合形成深度强化学习是人工智能研究领域的必然趋势,多种深度强化学习算法也随之发展。其中... 随着信息技术的不断发展,机器的智能化成为热点研究问题。深度学习能有效地提取出环境中的特征信息,强化学习能有效地提出行为策略,将二者进行融合形成深度强化学习是人工智能研究领域的必然趋势,多种深度强化学习算法也随之发展。其中近端策略优化算法稳定性好、采样率高,在连续控制问题中有良好表现,在飞行器及机器人控制、机器博弈、无人驾驶等领域得到广泛应用。围绕深度强化学习的发展历程,总结深度强化学习常用算法的分类及各个算法的特点,包括基于值函数的方法、基于策略的方法、基于模型的方法和基于分层的方法,并重点介绍近端策略优化算法的原理、优化路径,涉及加入分布式计算、改进优势函数、分层优化等方向及相关优化算法的适用场景。 展开更多
关键词 策略优化算法 深度学习 强化学习 深度强化学习 马尔可夫决策过程 策略梯度
下载PDF
基于强化学习的固定翼飞机姿态控制方法 被引量:1
15
作者 付宇鹏 邓向阳 +2 位作者 何明 朱子强 张立民 《控制与决策》 EI CSCD 北大核心 2023年第9期2505-2510,共6页
研究基于强化学习的飞机姿态控制方法,控制器输入为飞机纵向和横向状态变量以及姿态误差,输出为升降舵和副翼偏转角度指令,实现不同初始条件下飞机姿态角快速响应,同时避免使用传统PID控制器和不同飞行状态下的参数调节.根据飞机姿态变... 研究基于强化学习的飞机姿态控制方法,控制器输入为飞机纵向和横向状态变量以及姿态误差,输出为升降舵和副翼偏转角度指令,实现不同初始条件下飞机姿态角快速响应,同时避免使用传统PID控制器和不同飞行状态下的参数调节.根据飞机姿态变换特性,通过设置分立的神经网络模型提高算法收敛效率.为贴近实际的固定翼飞机控制,仿真基于JSBSim的F-16飞机空气动力学模型,利用OpenAI gym搭建强化学习仿真环境,以任意角速度、角度和空速作为初始条件,对姿态控制器中的动作网络和评价网络进行训练.仿真结果表明,基于强化学习的姿态控制器响应速度快,动态误差小,并能避免大过载等边界条件. 展开更多
关键词 强化学习 策略优化算法 姿态控制 固定翼 PID JSBSim
原文传递
基于近端策略优化和广义状态相关探索算法的双连续搅拌反应釜系统跟踪控制
16
作者 史洪岩 付国城 潘多涛 《信息与控制》 CSCD 北大核心 2023年第3期343-351,共9页
连续搅拌反应釜(continuous stirring tank reactor,CSTR)是经典的化工设备,被广泛应用于化工过程。由于其具有较强的非线性和时滞性,传统的控制方法无法满足其跟踪控制的精度要求。针对连续搅拌反应釜提出一种基于广义状态相关探索(gen... 连续搅拌反应釜(continuous stirring tank reactor,CSTR)是经典的化工设备,被广泛应用于化工过程。由于其具有较强的非线性和时滞性,传统的控制方法无法满足其跟踪控制的精度要求。针对连续搅拌反应釜提出一种基于广义状态相关探索(generalized state-dependent exploration,gSDE)的近端策略优化(proximal policy optimization,PPO)算法的跟踪控制方法。首先使用机理模型模拟真实环境与PPO智能体进行交互;其次利用gSDE使每个回合的探索更稳定且方差更小,同时保证了探索的效果;最后通过增加反馈奖励的方式,解决环境稀疏奖励的问题,使得智能体学会如何对CSTR进行跟踪控制。将该算法应用于双CSTR系统进行测试。仿真结果表明,该算法对复杂非线性系统的跟踪控制具有训练过程平稳、控制误差小、对干扰的反应迅速等优势。 展开更多
关键词 双连续搅拌反应釜 深度强化学习 非线性系统 策略优化算法 广义状态相关探索
原文传递
基于改进PPO算法的双足机器人自适应行走控制
17
作者 吴万毅 刘芳华 郭文龙 《扬州大学学报(自然科学版)》 CAS 北大核心 2023年第6期44-50,共7页
针对双足机器人在未知环境行走过程中步态不稳的问题,提出了一种基于近端策略优化(proximal policy optimization,PPO)的双足机器人控制方法.首先,构建动作网络和价值网络,引入长短时记忆(long short-term memory,LSTM),以缩小双足机器... 针对双足机器人在未知环境行走过程中步态不稳的问题,提出了一种基于近端策略优化(proximal policy optimization,PPO)的双足机器人控制方法.首先,构建动作网络和价值网络,引入长短时记忆(long short-term memory,LSTM),以缩小双足机器人与未知环境交互时的状态估计值与期望值之间的偏差;其次,在动作网络中引入注意力机制,自适应改变神经网络自主学习的权重系数,以提高学习效率,得到适应不同环境的稳定步态;最后,通过仿真实验验证所提算法的有效性.结果表明:改进后近端策略优化算法的收敛速度更快,学习效率更高,能够有效提高双足机器人自适应行走的稳定性. 展开更多
关键词 策略优化算法 长短时记忆 注意力机制 双足行走机器人 神经网络
下载PDF
基于近端策略优化的高速无人飞行器上升段在线轨迹规划
18
作者 佘智勇 朱彤鸣 刘旺魁 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第3期863-870,共8页
针对高速无人飞行器上升段在线轨迹规划需要实现多约束下在线快速求解的问题,首先搭建了飞行器的运动和动力学模型,给出了轨迹规划所面临的约束条件;并根据约束条件和飞行特性,基于近端策略优化(PPO)策略梯度优化设计了满足任务要求的... 针对高速无人飞行器上升段在线轨迹规划需要实现多约束下在线快速求解的问题,首先搭建了飞行器的运动和动力学模型,给出了轨迹规划所面临的约束条件;并根据约束条件和飞行特性,基于近端策略优化(PPO)策略梯度优化设计了满足任务要求的动作状态空间和奖励评价函数。其次,基于飞行器上升段轨迹规划具有很强时间记忆性的特性,在传统PPO算法基础上引入长短期记忆网络(LSTM)网络结构,利用PPO-LSTM算法解决了高速飞行器上升段在线轨迹规划问题,训练出能够根据飞行器状态实时规划最优攻角策略的模型。最后,根据蒙特卡洛仿真对算法性能进行验证,结果表明,相比于传统PPO和粒子群算法,本文算法终端状态的均方根误差减小了约50%,充分证明了本文算法的优越性和有效性。 展开更多
关键词 导航制导与控制 高速无人飞行器 上升段 轨迹规划 策略优化算法
原文传递
信息非完备下多航天器轨道博弈强化学习方法
19
作者 王英杰 袁利 +2 位作者 汤亮 黄煌 耿远卓 《宇航学报》 EI CAS CSCD 北大核心 2023年第10期1522-1533,共12页
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输... 针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。 展开更多
关键词 航天器 信息非完备 轨道博弈 多智能体强化学习 长短期记忆网络 策略优化算法
下载PDF
基于深度强化学习潜艇攻防对抗训练指挥决策研究 被引量:2
20
作者 郭洪宇 初阳 +1 位作者 刘志 周玉芳 《指挥控制与仿真》 2022年第1期103-111,共9页
潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验。为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体... 潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验。为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(Proximal Policy Optimization,PPO)算法改进机制,开展互博弈对抗和分布式训练,最终实现潜艇在对抗过程中的智能决策,相关技术路线和算法在兵棋对战平台上得到实施和验证,算法改进后的收敛速度和稳定性有了较大提升,可为潜艇智能指挥决策的研究提供技术参考。 展开更多
关键词 智能指挥决策 深度强化学习 策略优化算法 互博弈
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部