期刊文献+
共找到76篇文章
< 1 2 4 >
每页显示 20 50 100
Deep reinforcement learning for dynamic computation offloading and resource allocation in cache-assisted mobile edge computing systems 被引量:19
1
作者 Samrat Nath Jingxian Wu 《Intelligent and Converged Networks》 2020年第2期181-198,共18页
Mobile Edge Computing(MEC)is one of the most promising techniques for next-generation wireless communication systems.In this paper,we study the problem of dynamic caching,computation offloading,and resource allocation... Mobile Edge Computing(MEC)is one of the most promising techniques for next-generation wireless communication systems.In this paper,we study the problem of dynamic caching,computation offloading,and resource allocation in cache-assisted multi-user MEC systems with stochastic task arrivals.There are multiple computationally intensive tasks in the system,and each Mobile User(MU)needs to execute a task either locally or remotely in one or more MEC servers by offloading the task data.Popular tasks can be cached in MEC servers to avoid duplicates in offloading.The cached contents can be either obtained through user offloading,fetched from a remote cloud,or fetched from another MEC server.The objective is to minimize the long-term average of a cost function,which is defined as a weighted sum of energy consumption,delay,and cache contents’fetching costs.The weighting coefficients associated with the different metrics in the objective function can be adjusted to balance the tradeoff among them.The optimum design is performed with respect to four decision parameters:whether to cache a given task,whether to offload a given uncached task,how much transmission power should be used during offloading,and how much MEC resources to be allocated for executing a task.We propose to solve the problems by developing a dynamic scheduling policy based on Deep Reinforcement Learning(DRL)with the Deep Deterministic Policy Gradient(DDPG)method.A new decentralized DDPG algorithm is developed to obtain the optimum designs for multi-cell MEC systems by leveraging on the cooperations among neighboring MEC servers.Simulation results demonstrate that the proposed algorithm outperforms other existing strategies,such as Deep Q-Network(DQN). 展开更多
关键词 Mobile Edge Computing(MEC) caching computation offloading resource allocation Deep Reinforcement Learning(DRL) Deep Deterministic Policy gradient(ddpg) multi-cell
原文传递
Relevant experience learning:A deep reinforcement learning method for UAV autonomous motion planning in complex unknown environments 被引量:16
2
作者 Zijian HU Xiaoguang GAO +2 位作者 Kaifang WAN Yiwei ZHAI Qianglong WANG 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2021年第12期187-204,共18页
Unmanned Aerial Vehicles(UAVs)play a vital role in military warfare.In a variety of battlefield mission scenarios,UAVs are required to safely fly to designated locations without human intervention.Therefore,finding a ... Unmanned Aerial Vehicles(UAVs)play a vital role in military warfare.In a variety of battlefield mission scenarios,UAVs are required to safely fly to designated locations without human intervention.Therefore,finding a suitable method to solve the UAV Autonomous Motion Planning(AMP)problem can improve the success rate of UAV missions to a certain extent.In recent years,many studies have used Deep Reinforcement Learning(DRL)methods to address the AMP problem and have achieved good results.From the perspective of sampling,this paper designs a sampling method with double-screening,combines it with the Deep Deterministic Policy Gradient(DDPG)algorithm,and proposes the Relevant Experience Learning-DDPG(REL-DDPG)algorithm.The REL-DDPG algorithm uses a Prioritized Experience Replay(PER)mechanism to break the correlation of continuous experiences in the experience pool,finds the experiences most similar to the current state to learn according to the theory in human education,and expands the influence of the learning process on action selection at the current state.All experiments are applied in a complex unknown simulation environment constructed based on the parameters of a real UAV.The training experiments show that REL-DDPG improves the convergence speed and the convergence result compared to the state-of-the-art DDPG algorithm,while the testing experiments show the applicability of the algorithm and investigate the performance under different parameter conditions. 展开更多
关键词 Autonomous Motion Planning(AMP) Deep Deterministic Policy gradient(ddpg) Deep Reinforcement Learning(DRL) Sampling method UAV
原文传递
Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs 被引量:12
3
作者 LI Yue QIU Xiaohui +1 位作者 LIU Xiaodong XIA Qunli 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2020年第4期734-742,共9页
The ever-changing battlefield environment requires the use of robust and adaptive technologies integrated into a reliable platform. Unmanned combat aerial vehicles(UCAVs) aim to integrate such advanced technologies wh... The ever-changing battlefield environment requires the use of robust and adaptive technologies integrated into a reliable platform. Unmanned combat aerial vehicles(UCAVs) aim to integrate such advanced technologies while increasing the tactical capabilities of combat aircraft. As a research object, common UCAV uses the neural network fitting strategy to obtain values of attack areas. However, this simple strategy cannot cope with complex environmental changes and autonomously optimize decision-making problems. To solve the problem, this paper proposes a new deep deterministic policy gradient(DDPG) strategy based on deep reinforcement learning for the attack area fitting of UCAVs in the future battlefield. Simulation results show that the autonomy and environmental adaptability of UCAVs in the future battlefield will be improved based on the new DDPG algorithm and the training process converges quickly. We can obtain the optimal values of attack areas in real time during the whole flight with the well-trained deep network. 展开更多
关键词 attack area neural network deep deterministic policy gradient(ddpg) unmanned combat aerial vehicle(UCAV)
下载PDF
Deep reinforcement learning for online scheduling of photovoltaic systems with battery energy storage systems
4
作者 Yaze Li Jingxian Wu Yanjun Pan 《Intelligent and Converged Networks》 EI 2024年第1期28-41,共14页
A new online scheduling algorithm is proposed for photovoltaic(PV)systems with battery-assisted energy storage systems(BESS).The stochastic nature of renewable energy sources necessitates the employment of BESS to bal... A new online scheduling algorithm is proposed for photovoltaic(PV)systems with battery-assisted energy storage systems(BESS).The stochastic nature of renewable energy sources necessitates the employment of BESS to balance energy supplies and demands under uncertain weather conditions.The proposed online scheduling algorithm aims at minimizing the overall energy cost by performing actions such as load shifting and peak shaving through carefully scheduled BESS charging/discharging activities.The scheduling algorithm is developed by using deep deterministic policy gradient(DDPG),a deep reinforcement learning(DRL)algorithm that can deal with continuous state and action spaces.One of the main contributions of this work is a new DDPG reward function,which is designed based on the unique behaviors of energy systems.The new reward function can guide the scheduler to learn the appropriate behaviors of load shifting and peak shaving through a balanced process of exploration and exploitation.The new scheduling algorithm is tested through case studies using real world data,and the results indicate that it outperforms existing algorithms such as Deep Q-learning.The online algorithm can efficiently learn the behaviors of optimum non-casual off-line algorithms. 展开更多
关键词 photovoltaic(PV) battery energy storage system(BESS) Markov decision process(MDP) deep deterministic policy gradient(ddpg)
原文传递
On‑Ramp Merging for Highway Autonomous Driving:An Application of a New Safety Indicator in Deep Reinforcement Learning 被引量:2
5
作者 Guofa Li Weiyan Zhou +2 位作者 Siyan Lin Shen Li Xingda Qu 《Automotive Innovation》 EI CSCD 2023年第3期453-465,共13页
This paper proposes an improved decision-making method based on deep reinforcement learning to address on-ramp merging challenges in highway autonomous driving.A novel safety indicator,time difference to merging(TDTM)... This paper proposes an improved decision-making method based on deep reinforcement learning to address on-ramp merging challenges in highway autonomous driving.A novel safety indicator,time difference to merging(TDTM),is introduced,which is used in conjunction with the classic time to collision(TTC)indicator to evaluate driving safety and assist the merging vehicle in finding a suitable gap in traffic,thereby enhancing driving safety.The training of an autonomous driving agent is performed using the Deep Deterministic Policy Gradient(DDPG)algorithm.An action-masking mechanism is deployed to prevent unsafe actions during the policy exploration phase.The proposed DDPG+TDTM+TTC solution is tested in on-ramp merging scenarios with different driving speeds in SUMO and achieves a success rate of 99.96%without significantly impacting traffic efficiency on the main road.The results demonstrate that DDPG+TDTM+TTC achieved a higher on-ramp merging success rate of 99.96%compared to DDPG+TTC and DDPG. 展开更多
关键词 Autonomous driving On-ramp merging Deep reinforcement learning Action-masking mechanism Deep Deterministic Policy gradient(ddpg)
原文传递
A DDPG-based solution for optimal consensus of continuous-time linear multi-agent systems
6
作者 LI Ye LIU ZhongXin +2 位作者 LAN Ge SADER Malika CHEN ZengQiang 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2023年第8期2441-2453,共13页
Modeling a system in engineering applications is a time-consuming and labor-intensive task,as system parameters may change with temperature,component aging,etc.In this paper,a novel data-driven model-free optimal cont... Modeling a system in engineering applications is a time-consuming and labor-intensive task,as system parameters may change with temperature,component aging,etc.In this paper,a novel data-driven model-free optimal controller based on deep deterministic policy gradient(DDPG)is proposed to address the problem of continuous-time leader-following multi-agent consensus.To deal with the problem of the dimensional explosion of state space and action space,two different types of neural nets are utilized to fit them instead of the time-consuming state iteration process.With minimal energy consumption,the proposed controller achieves consensus only based on the consensus error and does not require any initial admissible policies.Besides,the controller is self-learning,which means it can achieve optimal control by learning in real time as the system parameters change.Finally,the proofs of convergence and stability,as well as some simulation experiments,are provided to verify the algorithm’s effectiveness. 展开更多
关键词 leader-following consensus optimal control reinforcement learning deep deterministic policy gradient(ddpg)
原文传递
基于深度强化学习的自适应不确定性经济调度 被引量:58
7
作者 彭刘阳 孙元章 +2 位作者 徐箭 廖思阳 杨丽 《电力系统自动化》 EI CSCD 北大核心 2020年第9期33-42,共10页
当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体... 当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体不确定性进行精确建模显得尤为困难。针对这一问题,引入深度强化学习中深度确定性策略梯度算法,避免对复杂的不确定性进行建模,利用其与环境交互、根据反馈学习改进策略的机制,自适应不确定性的变化。为确保算法适用性,进行了模型泛化方法的设计,针对算法稳定性问题进行了感知-学习比例调整和改进经验回放的机制设计。算例结果表明,所提方法能在自适应系统不确定性的基础上,实现任意场景下的电力系统动态经济调度。 展开更多
关键词 间歇性电源 不确定性 动态经济调度 深度强化学习 深度确定性策略梯度算法
下载PDF
基于双层深度强化学习的园区综合能源系统多时间尺度优化管理 被引量:10
8
作者 陈明昊 孙毅 谢志远 《电工技术学报》 EI CSCD 北大核心 2023年第7期1864-1881,共18页
园区综合能源系统(PIES)的能源转换结构复杂性、新能源出力与多能负荷的不确定性以及不同能源系统管理时间尺度的差异性,是阻碍PIES实现高效管理与经济效益优化的主要原因。该文提出了一种基于双层深度强化学习的园区综合能源系统多时... 园区综合能源系统(PIES)的能源转换结构复杂性、新能源出力与多能负荷的不确定性以及不同能源系统管理时间尺度的差异性,是阻碍PIES实现高效管理与经济效益优化的主要原因。该文提出了一种基于双层深度强化学习的园区综合能源系统多时间尺度优化管理方法。该方法面向包含燃气、热力、电力三种能源的园区综合能源系统模型,构建上、下两层深度确定性策略梯度(DDPG)管理模型,分别以0.5h和5min为长短时间尺度滚动制定燃气与热力系统、电力系统的管理方案。仿真结果表明,所提方法不仅能有效克服深度强化学习算法在训练过程中出现“维数灾难”情况,还能以差异化时间尺度滚动制定PIES的不同能源系统管理方案,并优化其总体经济效益。 展开更多
关键词 综合能源系统 深度强化学习 深度确定性策略梯度(ddpg) 经济效益 储能 管理
下载PDF
基于深度强化学习的二连杆机械臂运动控制方法 被引量:14
9
作者 王建平 王刚 +1 位作者 毛晓彬 马恩琪 《计算机应用》 CSCD 北大核心 2021年第6期1799-1804,共6页
针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现... 针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。 展开更多
关键词 深度强化学习 二连杆机械臂 运动控制 奖罚机制 深度确定性策略梯度算法
下载PDF
基于深度强化学习的UAV航路自主引导机动控制决策算法 被引量:12
10
作者 张堃 李珂 +2 位作者 时昊天 张振冲 刘泽坤 《系统工程与电子技术》 EI CSCD 北大核心 2020年第7期1567-1574,共8页
针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控... 针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控制决策函数与状态动作值函数,生成最优决策网络,开展仿真验证。仿真结果表明,该算法实现了UAV在任意位置/姿态的初始条件下,向航路目标点的自主飞行,可有效提高UAV机动控制的自主性。 展开更多
关键词 自主引导 机动控制决策 MARKOV决策过程 深度确定性策略梯度法 深度强化学习
下载PDF
基于深度强化学习DDPG算法的投资组合管理 被引量:11
11
作者 齐岳 黄硕华 《计算机与现代化》 2018年第5期93-99,共7页
将深度强化学习技术应用于投资组合管理,采用深度强化学习中的深度确定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法,通过限制单只股票的投资权重,分散风险,并采用丢弃算法(Dropout),即在训练模型时随机丢弃节点,解决过拟... 将深度强化学习技术应用于投资组合管理,采用深度强化学习中的深度确定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法,通过限制单只股票的投资权重,分散风险,并采用丢弃算法(Dropout),即在训练模型时随机丢弃节点,解决过拟合问题。以中国股市为例,选取16只中证100指数成分股作为风险资产进行实验。结果表明,本文基于深度强化学习方法构建的投资组合,在实验期间的价值增幅显著高于对照组(等权重组合),2年达到65%,约为对照组的2.5倍,表明了本文方法的有效性。而且通过进一步实验,表明了当用于训练的数据离测试数据时间越近,则本文构建的投资组合表现越好。 展开更多
关键词 深度强化学习 深度确定性策略梯度 投资组合管理
下载PDF
采用分类经验回放的深度确定性策略梯度方法 被引量:9
12
作者 时圣苗 刘全 《自动化学报》 EI CAS CSCD 北大核心 2022年第7期1816-1823,共8页
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差... 深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能. 展开更多
关键词 连续控制任务 深度确定性策略梯度 经验回放 分类经验回放
下载PDF
仿驾驶员DDPG汽车纵向自动驾驶决策方法 被引量:10
13
作者 高振海 闫相同 +1 位作者 高菲 孙天骏 《汽车工程》 EI CSCD 北大核心 2021年第12期1737-1744,共8页
汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前... 汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前使用强化学习和深度强化学习的决策方法大多通过设计安全性、舒适性、经济性相关公式构建奖励函数,得到的决策策略与人类驾驶员相比仍然存在较大差距。针对以上问题,本文使用驾驶员数据通过BP神经网络拟合设计奖励函数,使用深度强化学习DDPG算法,建立了一种仿驾驶员的纵向自动驾驶决策方法。最终通过仿真测试验证了该方法的有效性和与驾驶员行为的一致性。 展开更多
关键词 自动驾驶 决策算法 深度强化学习 深度确定性策略梯度
下载PDF
基于DDPG算法的双轮腿机器人运动控制研究 被引量:6
14
作者 陈恺丰 田博睿 +4 位作者 李和清 赵晨阳 陆祖兴 李新德 邓勇 《系统工程与电子技术》 EI CSCD 北大核心 2023年第4期1144-1151,共8页
轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic... 轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的双轮腿机器人控制方法。首先,分析了双轮腿机器人模型及其模糊动力学模型;然后,使用DDPG算法生成双轮腿机器人在崎岖地面的运动控制策略;最后,为了验证控制器性能,分别进行了3组运动控制对比实验。仿真实验表明,在缺少地面状况先验知识的条件下,采用DDPG算法生成的运动控制策略实现了双轮腿式机器人在崎岖地面快速稳定运动的功能,其平均速度相比双轮机器人提高了约29.2%,姿态角偏移峰值相比双足机器人分别减小了约43.9%、66%、50%。 展开更多
关键词 运动控制 强化学习 轮腿机器人 深度确定性策略梯度算法
下载PDF
基于DDPG算法的变体飞行器自主变形决策 被引量:7
15
作者 桑晨 郭杰 +2 位作者 唐胜景 王肖 王子瑶 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第5期910-919,共10页
针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长... 针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长和后掠角变形动力学方程,设计DDPG算法学习步骤;针对对称和不对称变形条件下的变形策略进行学习训练。仿真结果表明:所提算法可以快速收敛,变形误差保持在3%以内,训练好的神经网络提高了变体飞行器对不同飞行任务的适应性,可以在不同的飞行环境中获得最佳的飞行性能。 展开更多
关键词 变体飞行器 自主变形决策 深度强化学习 深度确定性策略梯度(ddpg)算法 动力学分析
下载PDF
基于深度强化学习的自适应虚拟机整合方法 被引量:9
16
作者 余显 李振宇 +3 位作者 孙胜 张广兴 刁祖龙 谢高岗 《计算机研究与发展》 EI CSCD 北大核心 2021年第12期2783-2797,共15页
能耗限制的服务质量优化问题一直以来都是数据中心虚拟机资源管理所面临的巨大挑战之一.尽管现有的工作通过虚拟机整合技术一定程度上降低了能耗和提升了系统服务质量,但这些方法通常难以实现长期最优的管理目标,并且容易受到业务场景... 能耗限制的服务质量优化问题一直以来都是数据中心虚拟机资源管理所面临的巨大挑战之一.尽管现有的工作通过虚拟机整合技术一定程度上降低了能耗和提升了系统服务质量,但这些方法通常难以实现长期最优的管理目标,并且容易受到业务场景变化的影响,面临变更困难以及管理成本高等难题.针对数据中心虚拟机资源管理存在的能耗和服务质量长期最优难保证以及策略调整灵活性差的问题,提出了一种基于深度强化学习的自适应虚拟机整合方法(deep reinforcement learning-based adaptive virtual machine consolidation method,RA-VMC).该方法利用张量化状态表示、确定性动作输出、卷积神经网络和加权奖赏机制构建了从数据中心系统状态到虚拟机迁移策略的端到端决策模型;设计自动化状态生成机制和反向梯度限定机制以改进深度确定性策略梯度算法,加快虚拟机迁移决策模型的收敛速度并且保证近似最优的管理性能.基于真实虚拟机负载数据的仿真实验结果表明:与开源云平台中流行的虚拟机整合方法相比,该方法能够有效地降低能耗和提高系统的服务质量. 展开更多
关键词 数据中心 虚拟机资源管理 虚拟机整合 强化学习 深度确定性策略梯度
下载PDF
结合注意力机制与深度强化学习的超短期光伏功率预测 被引量:4
17
作者 丁正凯 傅启明 +4 位作者 陈建平 陆悠 吴宏杰 方能炜 邢镔 《计算机应用》 CSCD 北大核心 2023年第5期1647-1654,共8页
针对传统光伏(PV)功率预测模型受功率随机波动性影响以及易忽略重要信息导致预测精度低的问题,将注意力机制分别与深度确定性策略梯度(DDPG)和循环确定性策略梯度(RDPG)相结合提出了ADDPG和ARDPG模型,并在此基础上提出一个PV功率预测框... 针对传统光伏(PV)功率预测模型受功率随机波动性影响以及易忽略重要信息导致预测精度低的问题,将注意力机制分别与深度确定性策略梯度(DDPG)和循环确定性策略梯度(RDPG)相结合提出了ADDPG和ARDPG模型,并在此基础上提出一个PV功率预测框架。首先,将原始PV功率数据以及气象数据标准化,并将PV功率预测问题建模为马尔可夫决策过程(MDP),历史功率数据和当前气象数据则作为MDP的状态;然后,将注意力机制加入DDPG和RDPG的Actor网络,赋予状态中各个分量不同的权重来突出重要且关键的信息,并通过深度强化学习智能体和历史数据的交互来学习数据中的关键信息;最后,求解MDP问题得到最优的策略,作出准确的预测。在DKASC、Alice Springs光伏系统数据上的实验结果表明,ADDPG和ARDPG在均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)上均取得了最优结果。可见,所提模型能够有效提高PV功率的预测精度,也可以推广到其他预测领域如电网预测、风力发电预测等。 展开更多
关键词 深度强化学习 注意力机制 光伏功率预测 深度确定性策略梯度 循环确定性策略梯度
下载PDF
基于深度强化学习的端到端无人机避障决策 被引量:6
18
作者 张云燕 魏瑶 +1 位作者 刘昊 杨尧 《西北工业大学学报》 EI CAS CSCD 北大核心 2022年第5期1055-1064,共10页
针对传统无人机避障算法需要构建离线三维地图以及速度控制不连续、速度方向选择受限的问题,基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的深度强化学习算法,对无人机连续型动作输出的端到端避障决策方法展开研... 针对传统无人机避障算法需要构建离线三维地图以及速度控制不连续、速度方向选择受限的问题,基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的深度强化学习算法,对无人机连续型动作输出的端到端避障决策方法展开研究。建立了基于DDPG算法的端到端决策控制模型,该模型可以根据感知得到的连续状态信息输出连续控制变量即无人机避障动作;在UE4+Airsim的平台下进行了训练验证表明该模型可以实现端到端的无人机避障决策,与数据来源相同的三维向量场直方图(three dimensional vector field histogram, 3DVFH)避障算法模型进行了对比分析,实验表明DDPG算法对无人机的避障轨迹有更好的优化效果。 展开更多
关键词 无人机 避障 ddpg 强化学习
下载PDF
基于深度强化学习的车辆自主避撞决策控制模型 被引量:7
19
作者 李文礼 张友松 +2 位作者 韩迪 钱洪 石晓辉 《汽车安全与节能学报》 CAS CSCD 北大核心 2021年第2期201-209,共9页
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的... 为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的动作空间,以安全性、舒适性和效率因素为多目标奖励函数的端到端的车辆自主避撞决策模型。利用Matlab/Simulink构建的DDPG算法与交通环境的交互模型,通过了前车静止(CCRs)和前车制动(CCRb)场景测试。结果表明:本决策算法具有很好的收敛性,引入加速度和冲击度的极限值,在实现车辆有效避撞的同时,兼顾乘坐舒适性,且性能优于模糊控制。 展开更多
关键词 车辆安全 自主避撞 深度确定性策略梯度(ddpg) 控制模型 多目标奖励函数
下载PDF
采用DDPG的双足机器人自学习步态规划方法 被引量:7
20
作者 周友行 赵晗妘 +2 位作者 刘汉江 李昱泽 肖雨琴 《计算机工程与应用》 CSCD 北大核心 2021年第6期254-259,共6页
为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案。把双足机器人多关节自由度控制问题转化为非线性函数的... 为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案。把双足机器人多关节自由度控制问题转化为非线性函数的多目标优化求解问题,采用DDPG算法来求解。为解决全局逼近网络求解过程收敛慢的问题,采用径向基(RBF)神经网络进行非线性函数值的计算,并采用梯度下降算法更新神经网络权值,采用SumTree来筛选优质样本。通过ROS、Gazebo、Tensorflow的联合仿真平台对双足机器人进行了模拟学习训练。经数据仿真验证,改进后的DDPG算法平均达到最大累积奖励的时间提前了45.7%,成功率也提升了8.9%,且经训练后的关节姿态角度具有更好的平滑度。 展开更多
关键词 双足机器人 步态规划 深度确定性策略梯度算法(ddpg) 径向基函数(RBF)神经网络 SumTree Gazebo
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部