期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于LSTM深度强化学习的UAV反应式避障方法 被引量:5
1
作者 杨秀霞 +1 位作者 刘伟 张毅 《飞行力学》 CSCD 北大核心 2022年第4期47-55,62,共10页
针对传统避障方法难以应用于复杂多障碍的不确定环境问题,提出基于长短时记忆神经网络(LSTM)和深度确定性策略梯度算法(DDPG)的UAV反应式避障方法。首先,采用基于速度障碍法的DDPG避障方法给出了UAV在动态环境中的避障策略;其次,引入LST... 针对传统避障方法难以应用于复杂多障碍的不确定环境问题,提出基于长短时记忆神经网络(LSTM)和深度确定性策略梯度算法(DDPG)的UAV反应式避障方法。首先,采用基于速度障碍法的DDPG避障方法给出了UAV在动态环境中的避障策略;其次,引入LSTM神经网络对DDPG避障方法进行改进,解决了该方法无法表示不同数量障碍状态信息的问题;最后,设计障碍变化策略使UAV在随机训练环境中进行学习,实现了UAV在不同环境中迅速避障。在仿真实验中与多种算法进行对比分析,证明了所提算法具有良好的泛化性和有效性。 展开更多
关键词 无人机 长短时记忆神经网路 深度确定性策略梯度算法 反应式避障 不确定环境
原文传递
基于改进深度Q网络的多UAV队形变换策略
2
作者 李洁菁 卢宗汉 +1 位作者 戴邵武 《舰船电子工程》 2024年第6期22-29,共8页
针对传统多UAV编队队形变换方法存在系统结构复杂,计算量大等问题,提出基于改进DQN算法的多UAV队形变换方法。首先,提出基于DQN的多UAV队形变换方法,将多UAV队形变换问题建模为马尔可夫决策过程;其次,利用动态目标点最优分配算法(DTA)... 针对传统多UAV编队队形变换方法存在系统结构复杂,计算量大等问题,提出基于改进DQN算法的多UAV队形变换方法。首先,提出基于DQN的多UAV队形变换方法,将多UAV队形变换问题建模为马尔可夫决策过程;其次,利用动态目标点最优分配算法(DTA)对编队内成员进行目标队形的最优节点分配,从而提高队形变换的效率,加快DQN算法的收敛速度;再次,引入互惠速度障碍法(RVO)导引编队成员在队形变换过程中进行避碰,从而提高DQN算法的学习效率;最后,针对算法规划的航路不平滑导致UAV无法飞行,引入三次均匀B样条插值算法对航路进行平滑处理。在队形变换实验中,相比于基于动态目标分配的DQN算法(DTA-DQN)、基于互惠速度障碍法的DQN算法(RVO-DQN)、传统DQN算法,提出的算法收敛速度分别提升了39.26%、40.31%、50.77%,且平均航程更短。仿真结果表明,提出的算法能够有效提高多UAV队形变换的效率,且算法具有良好的泛化性和实用性。 展开更多
关键词 DQN算法 动态目标点分配 互惠速度障碍法 无人飞行器 队形变换
下载PDF
基于阶段Q学习算法的机器人路径规划 被引量:5
3
作者 杨秀霞 +1 位作者 刘伟 张毅 《兵器装备工程学报》 CSCD 北大核心 2022年第5期197-203,共7页
针对传统Q学习存在收敛速度慢、学习效率低等问题,提出一种基于阶段Q学习的机器人路径规划算法。首先基于环境规模设置每阶段探索步长,减少搜索重复度;其次设置奖励池和奖励阈值确保每一阶段为最优探索;最后组合阶段最优路径为全局最优... 针对传统Q学习存在收敛速度慢、学习效率低等问题,提出一种基于阶段Q学习的机器人路径规划算法。首先基于环境规模设置每阶段探索步长,减少搜索重复度;其次设置奖励池和奖励阈值确保每一阶段为最优探索;最后组合阶段最优路径为全局最优路径。通过仿真实验表明,与传统Q学习算法相比,阶段Q学习算法提高了学习效率,提升算法的收敛速度,使得机器人在复杂环境中能够迅速找到无碰撞路径。 展开更多
关键词 强化学习 机器人 路径规划 Q学习 分阶段最优探索
下载PDF
库存物资重点管理法——ABC分析法 被引量:3
4
作者 《小氮肥》 2003年第8期19-20,共2页
关键词 库存物资 重点管理法 ABC分析法 分类管理
下载PDF
RVO-DDPG算法在多UAV集结航路规划的应用
5
作者 杨秀霞 +1 位作者 刘伟 张毅 《计算机工程与应用》 CSCD 北大核心 2023年第1期308-316,共9页
针对传统智能优化算法处理不确定复杂环境下多UAV集结航路规划存在计算量大、耗时长的问题,提出了一种基于互惠速度障碍法(reciprocal velocity obstacle,RVO)的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。引... 针对传统智能优化算法处理不确定复杂环境下多UAV集结航路规划存在计算量大、耗时长的问题,提出了一种基于互惠速度障碍法(reciprocal velocity obstacle,RVO)的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。引入互惠速度障碍法指导UAV对不确定环境内障碍进行避碰,有效提高了目标actor网络的收敛速度,增强了算法的学习效率。设计了一种基于综合代价的奖励函数,将多UAV航路规划中的多目标优化问题转化为DDPG算法的奖励函数设计问题,该设计有效解决了传统DDPG算法易产生局部最优解的问题。基于Pycharm软件平台通过仿真验证了该算法的性能,并与多种算法进行对比。仿真实验表明,RVO-DDPG算法具有更快的决策速度和更好的实用性。 展开更多
关键词 无人机 航路规划 编队集结 深度确定性策略梯度算法(DDPG) 互惠速度障碍法(RVO)
下载PDF
板式换热器的失效形式及防范措施
6
作者 张长乐 《小氮肥》 2002年第3期21-21,共1页
关键词 板式换热器 失效形式 防范措施 密封 结垢 酸洗
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部