期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
Task assignment in ground-to-air confrontation based on multiagent deep reinforcement learning 被引量:2
1
作者 Jia-yi Liu Gang Wang +2 位作者 Qiang Fu Shao-hua Yue Si-yuan Wang 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第1期210-219,共10页
The scale of ground-to-air confrontation task assignments is large and needs to deal with many concurrent task assignments and random events.Aiming at the problems where existing task assignment methods are applied to... The scale of ground-to-air confrontation task assignments is large and needs to deal with many concurrent task assignments and random events.Aiming at the problems where existing task assignment methods are applied to ground-to-air confrontation,there is low efficiency in dealing with complex tasks,and there are interactive conflicts in multiagent systems.This study proposes a multiagent architecture based on a one-general agent with multiple narrow agents(OGMN)to reduce task assignment conflicts.Considering the slow speed of traditional dynamic task assignment algorithms,this paper proposes the proximal policy optimization for task assignment of general and narrow agents(PPOTAGNA)algorithm.The algorithm based on the idea of the optimal assignment strategy algorithm and combined with the training framework of deep reinforcement learning(DRL)adds a multihead attention mechanism and a stage reward mechanism to the bilateral band clipping PPO algorithm to solve the problem of low training efficiency.Finally,simulation experiments are carried out in the digital battlefield.The multiagent architecture based on OGMN combined with the PPO-TAGNA algorithm can obtain higher rewards faster and has a higher win ratio.By analyzing agent behavior,the efficiency,superiority and rationality of resource utilization of this method are verified. 展开更多
关键词 Ground-to-air confrontation Task assignment General and narrow agents Deep reinforcement learning Proximal policy optimization(ppo)
下载PDF
Efficient and fair PPO-based integrated scheduling method for multiple tasks of SATech-01 satellite
2
作者 Qi SHI Lu LI +5 位作者 Ziruo FANG Xingzi BI Huaqiu LIU Xiaofeng ZHANG Wen CHEN Jinpei YU 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2024年第2期417-430,共14页
SATech-01 is an experimental satellite for space science exploration and on-orbit demonstration of advanced technologies.The satellite is equipped with 16 experimental payloads and supports multiple working modes to m... SATech-01 is an experimental satellite for space science exploration and on-orbit demonstration of advanced technologies.The satellite is equipped with 16 experimental payloads and supports multiple working modes to meet the observation requirements of various payloads.Due to the limitation of platform power supply and data storage systems,proposing reasonable mission planning schemes to improve scientific revenue of the payloads becomes a critical issue.In this article,we formulate the integrated task scheduling of SATech-01 as a multi-objective optimization problem and propose a novel Fair Integrated Scheduling with Proximal Policy Optimization(FIS-PPO)algorithm to solve it.We use multiple decision heads to generate decisions for each task and design the action mask to ensure the schedule meeting the platform constraints.Experimental results show that FIS-PPO could push the capability of the platform to the limit and improve the overall observation efficiency by 31.5%compared to rule-based plans currently used.Moreover,fairness is considered in the reward design and our method achieves much better performance in terms of equal task opportunities.Because of its low computational complexity,our task scheduling algorithm has the potential to be directly deployed on board for real-time task scheduling in future space projects. 展开更多
关键词 Satellite observatories SATech-01 Multi-modes platform Scheduling algorithms Reinforcement learning Proximal Policy optimization(ppo)
原文传递
基于深度强化学习的多机协同空战方法研究 被引量:52
3
作者 施伟 冯旸赫 +4 位作者 程光权 黄红蓝 黄金才 刘忠 贺威 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative ... 多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. 展开更多
关键词 多机协同空战 智能决策 深度强化学习 ppo算法 增强机制
下载PDF
基于近端策略优化算法的电化学/氢混合储能系统双层配置及运行优化 被引量:12
4
作者 闫庆友 史超凡 +1 位作者 秦光宇 许传博 《电力建设》 CSCD 北大核心 2022年第8期22-32,共11页
针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求... 针对电化学储能和氢储能的互补特性,提出了一种包含电化学和氢储能的混合储能系统配置和运行的综合优化模型,并提出了智能算法进行求解。该模型基于双层决策优化问题,将混合储能系统配置及运行2个不同时间维度的问题分上下层进行综合求解,并考虑了两者间的相互影响,采用强化学习近端策略优化(proximal policy optimization,PPO)算法求解该双层优化模型。以甘肃省某地区的风光数据,通过对比应用多种传统算法求解结果,验证了所用算法在复杂环境下适应度最高且收敛速度最快。研究结果表明,应用该模型最大可降低24%的弃风、弃光率,有效提升系统综合效益。氢储能作为容量型储能配置不受地形因素限制,适用于多样的应用场景,从而为氢储能这一新型储能形态在全国的广泛配置提供了应用示范。 展开更多
关键词 风光消纳 储能配置 双层优化 氢储能 近端策略优化(ppo)算法
原文传递
基于深度强化学习的三维路径规划算法 被引量:13
5
作者 黄东晋 蒋晨凤 韩凯丽 《计算机工程与应用》 CSCD 北大核心 2020年第15期30-36,共7页
合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态... 合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态空间和动作状态引入长短时记忆网络。通过额外的奖惩函数和好奇心驱动让智能体学会跳跃通过低矮障碍物,避开大型障碍物。利用PPO算法的截断项机制使得规划策略更新的幅度更加优化。实验结果表明,该算法是可行的,能够更加智能合理地选择路线,很好地适应存在多样障碍物的未知环境。 展开更多
关键词 深度强化学习 近端策略优化算法 路径规划 复杂未知场景
下载PDF
基于终端诱导强化学习的航天器轨道追逃博弈 被引量:6
6
作者 耿远卓 袁利 +1 位作者 黄煌 汤亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. 展开更多
关键词 航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导
下载PDF
基于深度强化学习的无人艇轨迹跟踪算法研究 被引量:4
7
作者 夏家伟 朱旭芳 +1 位作者 罗亚松 吴兆东 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第5期74-80,共7页
针对欠驱动水面无人艇(USV)轨迹跟踪控制问题,提出一种基于近端策略优化(PPO)的深度强化学习轨迹跟踪控制算法.为引导控制器网络的正确收敛,构建基于长短时记忆(LSTM)网络层的深度强化学习控制器,设计了相应的状态空间和收益函数.为增... 针对欠驱动水面无人艇(USV)轨迹跟踪控制问题,提出一种基于近端策略优化(PPO)的深度强化学习轨迹跟踪控制算法.为引导控制器网络的正确收敛,构建基于长短时记忆(LSTM)网络层的深度强化学习控制器,设计了相应的状态空间和收益函数.为增强控制器的鲁棒性,生成轨迹任务数据集来模拟复杂的任务环境,以此作为深度强化学习控制器的训练样本输入.仿真结果表明:所提出的算法能有效收敛,具备扰动环境下的精确跟踪控制能力,有较大的实际应用潜力. 展开更多
关键词 水面无人艇(USV) 轨迹跟踪 深度强化学习(DRL) 近端策略优化(ppo) 轨迹任务数据集
原文传递
基于改进PPO算法的机器人局部路径规划 被引量:5
8
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
下载PDF
基于PPO算法的无人机近距空战自主引导方法 被引量:3
9
作者 邱妍 赵宝奇 +1 位作者 邹杰 刘仲凯 《电光与控制》 CSCD 北大核心 2023年第1期8-14,共7页
针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合... 针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化(PPO)算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合了全连接神经网络的PPO算法(标准PPO算法)和长短时记忆网络的PPO算法(改进PPO算法)模型进行了仿真训练。根据训练的结果可以证明,相比于标准PPO算法,所提的改进PPO算法能够更有效地处理与时间序列高度相关的无人机自主引导任务。 展开更多
关键词 近距空战 近端策略优化 自主引导 长短时记忆网络
下载PDF
面向云网融合SaaS安全的虚拟网络功能映射方法 被引量:7
10
作者 李凌书 邬江兴 《计算机工程》 CAS CSCD 北大核心 2021年第12期30-39,共10页
在云网融合背景下,承载软件即服务(SaaS)业务功能的云基础设施可能横跨多个数据中心和归属网络,难以保证云资源安全可控。为缩短SaaS业务服务的处理时延,设计基于冗余执行和交叉检验的SaaS组合服务模式,并对容器、Hypervisor和云基础设... 在云网融合背景下,承载软件即服务(SaaS)业务功能的云基础设施可能横跨多个数据中心和归属网络,难以保证云资源安全可控。为缩短SaaS业务服务的处理时延,设计基于冗余执行和交叉检验的SaaS组合服务模式,并对容器、Hypervisor和云基础设施的安全威胁进行建模,建立拟态化虚拟网络功能映射模型和安全性优化机制。在此基础上,提出基于近端策略优化的PJM算法。实验结果表明,与CCMF、JEGA和QVNE算法相比,PJM算法在满足安全性约束的条件下,能够降低约12.2%业务端到端时延。 展开更多
关键词 云计算 软件即服务 云网融合 虚拟网络映射 网络空间拟态防御 服务功能链 近端策略优化
下载PDF
基于CNN的深度强化学习算法求解柔性作业车间调度问题
11
作者 李兴洲 李艳武 谢辉 《计算机工程与应用》 CSCD 北大核心 2024年第17期312-320,共9页
在使用深度强化学习(DRL)算法解决柔性作业车间调度(FJSP)问题时,状态和动作的表示具有复杂多变的特性,这导致算法的求解质量不高,为了得到更优解,对状态和动作的表示进一步研究,以最大完工时间最短为优化目标,采用卷积神经网络(CNN)和... 在使用深度强化学习(DRL)算法解决柔性作业车间调度(FJSP)问题时,状态和动作的表示具有复杂多变的特性,这导致算法的求解质量不高,为了得到更优解,对状态和动作的表示进一步研究,以最大完工时间最短为优化目标,采用卷积神经网络(CNN)和近端策略优化(PPO)方法设计了一种深度强化学习算法。针对柔性作业车间环境的复杂性,特别设计了双通道状态表示方法,第一通道表示每道工序选择的机器,第二通道表示每道工序在所选机器上的加工次序。在动作设置中设计了一种机器选择算法,能够根据当前状态选取最佳的机器,搭配深度强化学习算法共同组成动作的选择。通过Brandimarte算例验证表明,该算法具有可行性,比常用深度强化学习算法求解质量更优,在不同规模算例的性能表现更好。 展开更多
关键词 深度强化学习(DRL) 柔性作业车间调度(FJSP) 卷积神经网络(CNN) 近端策略优化(ppo)
下载PDF
基于深度强化学习分层控制的双足机器人多模式步态系统研究
12
作者 徐毓松 上官倩芡 安康 《上海师范大学学报(自然科学版中英文)》 2024年第2期260-267,共8页
提出一种基于深度强化学习(DRL)分层控制的双足机器人多模式步态生成系统.首先采用优势型演员-评论家框架作为高级控制策略,引入近端策略优化(PPO)算法、课程学习(CL)思想对策略进行优化,设计比例-微分(PD)控制器为低级控制器;然后定义... 提出一种基于深度强化学习(DRL)分层控制的双足机器人多模式步态生成系统.首先采用优势型演员-评论家框架作为高级控制策略,引入近端策略优化(PPO)算法、课程学习(CL)思想对策略进行优化,设计比例-微分(PD)控制器为低级控制器;然后定义机器人观测和动作空间进行策略参数化,并根据对称双足行走步态周期性的特点,设计步态周期奖励函数和步进函数;最后通过生成足迹序列,设计多模式任务场景,并在Mujoco仿真平台下验证方法的可行性.结果表明,本方法能够有效提高双足机器人在复杂环境下行走的稳定性以及泛化性. 展开更多
关键词 双足机器人 步态规划 近端策略优化(ppo) 多模式任务 课程学习(CL)
下载PDF
基于强化学习的干扰条件下高速铁路时刻表调整研究 被引量:2
13
作者 庞子帅 王丽雯 彭其渊 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第5期279-289,共11页
研究干扰条件下列车时刻表调整对提高高速铁路实时调度指挥决策水平和行车组织效率具有重要意义。本文基于数据驱动的优化方法研究干扰条件下列车时刻表调整,旨在提升时刻表调整模型实时应用效果。考虑列车运行约束,以列车晚点时间最小... 研究干扰条件下列车时刻表调整对提高高速铁路实时调度指挥决策水平和行车组织效率具有重要意义。本文基于数据驱动的优化方法研究干扰条件下列车时刻表调整,旨在提升时刻表调整模型实时应用效果。考虑列车运行约束,以列车晚点时间最小为目标,基于强化学习近端策略优化(Proximal Policy Optimization,PPO)模型提出列车时刻表实时调整方法。建立列车运行仿真环境,PPO智能体与环境不断交互贪婪搜索使目标函数最优的策略。分别使用随机干扰案例和我国武广高速铁路实际数据中干扰案例测试PPO模型的性能及效率。结果表明:PPO模型优于其他常见的强化学习模型,以及调度员现场决策方案(由历史数据获得),PPO模型至少可减少13%的列车晚点时间;PPO模型收敛速度明显优于其他常用强化学习模型;PPO得到解的质量与最优解仅相差约2%,且相比于得到最优解的速度具有明显提升,使其能更好地应用于实时决策。 展开更多
关键词 铁路运输 时刻表调整 ppo模型 高速列车 列车运行干扰
下载PDF
基于深度强化学习的移动机器人三维路径规划方法
14
作者 马天 席润韬 +3 位作者 吕佳豪 曾奕杰 杨嘉怡 张杰慧 《计算机应用》 CSCD 北大核心 2024年第7期2055-2064,共10页
针对三维未知环境中存在的高复杂度和不确定性的问题,提出一种在有限观测空间优化策略下基于深度强化学习的移动机器人三维路径规划方法。首先,在有限观测空间下采用深度图信息作为智能体的输入,模拟移动受限且未知的复杂三维空间环境;... 针对三维未知环境中存在的高复杂度和不确定性的问题,提出一种在有限观测空间优化策略下基于深度强化学习的移动机器人三维路径规划方法。首先,在有限观测空间下采用深度图信息作为智能体的输入,模拟移动受限且未知的复杂三维空间环境;其次,设计了两阶段离散动作空间下的动作选择策略,包括方向动作和位移动作,以减少搜索步数和时间;最后,在近端策略优化(PPO)算法基础上,添加门控循环单元(GRU)结合历史状态信息,以提升未知环境中搜索策略的稳定性,进而提高规划路径准确度和平滑度。实验结果表明,相较于A2C(Advantage ActorCritic),所提方法的平均搜索时间缩短了49.07%,平均规划路径长度缩短了1.04%,同时能够完成线性时序逻辑约束下的多目标路径规划任务。 展开更多
关键词 深度强化学习 移动机器人 三维路径规划 近端策略优化 深度图
下载PDF
三维空间位置服务中智能语义位置隐私保护方法
15
作者 闵明慧 杨爽 +4 位作者 胥俊怀 李鑫 李世银 肖亮 彭国军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2627-2637,共11页
针对大型医院、商场及其他3维(3D)空间位置服务中敏感语义位置(如药店、书店等)隐私泄露问题,该文研究了基于3D空间地理不可区分性(3D-GI)的智能语义位置隐私保护方法。为摆脱对特定环境和攻击模型的依赖,该文利用强化学习(RL)技术实现... 针对大型医院、商场及其他3维(3D)空间位置服务中敏感语义位置(如药店、书店等)隐私泄露问题,该文研究了基于3D空间地理不可区分性(3D-GI)的智能语义位置隐私保护方法。为摆脱对特定环境和攻击模型的依赖,该文利用强化学习(RL)技术实现对用户语义位置隐私保护策略的动态优化,提出基于策略爬山算法(PHC)的3D语义位置扰动机制。该机制通过诱导攻击者推断较低敏感度的语义位置来减少高敏感语义位置的暴露。为解决复杂3D空间环境下的维度灾难问题,进一步提出基于近端策略优化算法(PPO)的3D语义位置扰动机制,利用神经网络捕获环境特征并采用离线策略梯度方法优化神经网络参数更新,提高语义位置扰动策略选择效率。仿真实验结果表明,所提方法可提升用户的语义位置隐私保护性能和服务体验。 展开更多
关键词 位置服务 3维空间 语义位置隐私 策略爬山 近端策略优化
下载PDF
无人机辅助MEC车辆任务卸载与功率控制近端策略优化算法
16
作者 谭国平 易文雄 +1 位作者 周思源 胡鹤轩 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2361-2371,共11页
无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边... 无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边缘计算架构,考虑无线信道时变特性及车辆高移动性等动态变化特征,构建出基于非正交多址(NOMA)的车载任务卸载与功率控制优化问题模型,然后将该问题建模成马尔可夫决策过程,并提出一种基于近端策略优化(PPO)的分布式深度强化学习算法,使得车辆只需根据自身获取局部信息,自主决策任务卸载量及相关发射功率,从而达到时延与能耗的最佳均衡性能。仿真结果表明,与现有方法相比较,本文所提任务卸载与功率控制近端策略优化方案不仅能够显著获得更优的时延与能耗性能,所提方案平均系统代价性能提升至少13%以上,而且提供一种性能均衡优化方法,能够通过调节用户偏好权重因子,达到系统时延与能耗水平之间的最佳均衡。 展开更多
关键词 无人机辅助计算 移动边缘计算 近端策略优化 深度强化学习 功率控制和任务卸载
下载PDF
一种基于近端策略优化的服务功能链部署算法
17
作者 颜志 禹怀龙 +1 位作者 欧阳博 王耀南 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2869-2878,共10页
针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策... 针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策过程,然后,以最大化服务率和最小化资源消耗为优化目标设置奖励函数,最后,采用近端策略优化方法对服务功能链部署策略求解。仿真实验结果表明,与启发式算法(FFD)和深度确定性策略梯度算法(DDPG)相比,所提算法具有收敛速度快,稳定性高的特点。在满足服务质量的要求下,降低了部署成本,并提高了网络服务可靠性。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 近端策略优化
下载PDF
面向用户移动场景的无人机中继功率分配与轨迹设计
18
作者 颜志 陆元媛 +4 位作者 丁聪 何代钰 欧阳博 杨亮 王耀南 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期1896-1907,共12页
在无人机(UAV)中继通信中,中继无人机的通信资源分配与运动规划是需要重点解决的问题。为了提升无人机中继通信系统的通信效率,该文提出一种基于近端策略优化算法的无人机中继功率分配与轨迹设计联合规划方法。该方法将用户移动场景下... 在无人机(UAV)中继通信中,中继无人机的通信资源分配与运动规划是需要重点解决的问题。为了提升无人机中继通信系统的通信效率,该文提出一种基于近端策略优化算法的无人机中继功率分配与轨迹设计联合规划方法。该方法将用户移动场景下无人机中继功率分配与轨迹设计联合规划问题建模为马尔可夫决策过程,考虑用户位置信息获取不精确的情形,在满足用户中断概率约束的前提下,以中继通信系统的吞吐量最大为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法——近端策略优化算(PPO)法求解,实现中继无人机飞行轨迹优化和中继发射功率合理有效分配。仿真实验结果表明,针对用户随机移动的无人机中继通信场景,该文所提方法与基于随机策略和传统深度确定性策略梯度(DDPG)的方法相比,系统吞吐量分别提升22%和15%。结果表明,所提方法能够有效地提高系统的通信效率。 展开更多
关键词 无人机通信 用户随机移动 无人机轨迹设计 功率分配 通信效率 近端策略优化
下载PDF
万向结构蛇形机器人的设计及控制策略研究 被引量:1
19
作者 李亚鑫 逯云飞 +1 位作者 何梓玮 周政辉 《计算机工程与应用》 CSCD 北大核心 2023年第16期143-149,共7页
为了解决蛇形机器人结构复杂、灵活性不足的问题,设计了一款十字轴式万向关节的蛇形机器人。该蛇形机器人由6个模块单元组成,每个模块上均带有被动轮,通过电机驱动滚珠丝杆上的滑块移动,使连杆带动万向关节偏转,以实现蜿蜒运动。不仅如... 为了解决蛇形机器人结构复杂、灵活性不足的问题,设计了一款十字轴式万向关节的蛇形机器人。该蛇形机器人由6个模块单元组成,每个模块上均带有被动轮,通过电机驱动滚珠丝杆上的滑块移动,使连杆带动万向关节偏转,以实现蜿蜒运动。不仅如此,万向节限位机构的多自由度,保证了蛇形机器人运动的灵活性。同时针对蛇形机器人建模复杂的难题,研究提出了一种基于深度强化学习的控制策略。通过MuJoCo物理引擎搭建出用于学习的交互环境,并采用近端策略优化算法(proximal policy optimization,PPO)训练出最优运动策略以指导机器人动作。使用所设计的机器人模型进行学习训练,仿真实验数据表明,采用PPO算法训练出的运动策略能够在不同摩擦系数的环境下完成直行前进的任务,机器人也具备对于不同的地形环境的适应性。最后通过实物实验验证了这一方案的可行性和稳定性。 展开更多
关键词 蛇形机器人 万向结构 强化学习 近端策略优化算法(ppo)
下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
20
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部