期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于改进优先经验重放算法的游戏控制研究 被引量:3
1
作者 赵文仓 吴建辉 《甘肃科学学报》 2018年第2期15-19,共5页
为了使得高优先级被重放的概率进一步得到提升,并得到更重视最大优先级的函数表达式,对以往的研究中运用随机经验重放算法和一般的优先经验重放算法确定经验重放的优先级进行对比。通过改变优先级到概率的映射函数,利用小车爬山游戏模... 为了使得高优先级被重放的概率进一步得到提升,并得到更重视最大优先级的函数表达式,对以往的研究中运用随机经验重放算法和一般的优先经验重放算法确定经验重放的优先级进行对比。通过改变优先级到概率的映射函数,利用小车爬山游戏模型表明改进优先经验重放算法可以使智能体快速的学习到最优的游戏策略,并可以大幅减少完成游戏所用的时间。结果表明新算法使游戏学习最优策略的速度提高了49.28%。 展开更多
关键词 深度强化学习 经验重放 映射函数 优先级 游戏策略
下载PDF
稀疏奖励下基于MADDPG算法的多智能体协同 被引量:1
2
作者 许诺 杨振伟 《现代计算机》 2020年第15期47-51,共5页
深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出... 深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出一种基于群体目标状态的奖励函数。针对这种奖励函数下,奖励值稀疏,影响学习速率,将基于优先级的经验重放方法扩展至多智能体领域,提高样本利用率,挖掘训练潜能。最后在合作导航场景中进行仿真实验,验证方法的有效性。 展开更多
关键词 深度强化学习 多智能体 稀疏奖励 经验重放
下载PDF
深度强化学习算法分析与对比研究
3
作者 程鑫瑶 《网络安全技术与应用》 2021年第11期33-34,共2页
随着经济社会的发展,人工智能技术也得到了快速发展,深度强化学习融入了深度学习的感知能力和强化学习的决策能力,特别是在对运动控制问题的处理上,潜力非凡。本文分析了深度强化学习算法,通过分析探寻深度强化学习在现实生产中应用的... 随着经济社会的发展,人工智能技术也得到了快速发展,深度强化学习融入了深度学习的感知能力和强化学习的决策能力,特别是在对运动控制问题的处理上,潜力非凡。本文分析了深度强化学习算法,通过分析探寻深度强化学习在现实生产中应用的可能性。 展开更多
关键词 人工智能 深度强化学习 奖励机制 经验重放 对比
原文传递
时变多参数不确定性下室内环境的节能控制
4
作者 赵建豪 宋华 +1 位作者 南新元 蔡鑫 《河北科技大学学报》 CAS 北大核心 2024年第6期597-608,共12页
为解决当前室内环境受多种时变参数影响不确定性较大,且现有控制设备无法根据室内环境对工作功率进行自适应调节造成的能源浪费问题,采用在深度确定性策略梯度(deep deterministic policy gradient,DDPG)中融入优先经验重放(prioritized... 为解决当前室内环境受多种时变参数影响不确定性较大,且现有控制设备无法根据室内环境对工作功率进行自适应调节造成的能源浪费问题,采用在深度确定性策略梯度(deep deterministic policy gradient,DDPG)中融入优先经验重放(prioritized experience replay,PER)的方法,合理优化控制设备功率,对室内空气质量(indoor air quality,IAQ)和热舒适度进行控制。结果表明:DDPG-PER算法能够在冬夏两季不同室外空气质量条件下,结合多时变参数,将室内环境控制在要求范围之内;与定风量控制系统相比,能源成本降低了13.30%,用户全年可节约2000元左右电费。研究结果对中国“碳中和”策略和绿色低碳建筑行业的发展具有一定的参考价值。 展开更多
关键词 环境质量监测与评价 强化学习 深度确定性策略梯度 优先经验重放 节能控制
下载PDF
基于深度强化学习的不确定作业车间调度方法
5
作者 吴新泉 燕雪峰 +1 位作者 魏明强 关东海 《数据采集与处理》 CSCD 北大核心 2024年第6期1517-1531,共15页
作业车间调度是具有非确定性多项式(Non-deterministic polynomial,NP)难的经典组合优化问题。在作业车间调度中,通常假设调度环境信息已知且在调度过程中保持不变,然而实际调度过程往往受到诸多不确定因素影响(如机器故障、工序变化)... 作业车间调度是具有非确定性多项式(Non-deterministic polynomial,NP)难的经典组合优化问题。在作业车间调度中,通常假设调度环境信息已知且在调度过程中保持不变,然而实际调度过程往往受到诸多不确定因素影响(如机器故障、工序变化)。本文提出基于混合优先经验重放的近端策略优化(Proximal policy optimization with hybrid prioritized experience replay,HPER-PPO)调度算法,用于求解不确定条件下的作业车间调度问题。将作业车间调度问题建模为马尔科夫决策过程,设计作业车间的状态特征、回报函数、动作空间和调度策略网络。为了提高深度强化学习模型的收敛性,提出一种新的混合优先经验重放模型训练方法。在标准数据集和基于标准数据集生成的数据集上评估了提出的调度方法,结果表明:在静态调度试验中,本文提出的调度模型比现有的深度强化学习方法和优先调度规则取得了更精确的结果。在动态调度试验中,针对作业车间的工序不确定性,本文所提出的调度模型可以在合理的时间内获得更精确的调度结果。 展开更多
关键词 作业车间调度 深度强化学习 近端策略优化 优先经验重放
下载PDF
COURIER:基于非抢占式优先排队和优先经验重放DRL的边缘计算任务调度与卸载方法
6
作者 杨秀文 崔允贺 +2 位作者 钱清 郭春 申国伟 《计算机科学》 CSCD 北大核心 2024年第5期293-305,共13页
边缘计算(Edge Computing,EC)将计算、存储等资源部署在网络边缘,以满足业务对时延和能耗的要求。计算卸载是EC中的关键技术之一。现有的计算卸载方法在估计任务排队时延时使用M/M/1/∞/∞/FCFS或M/M/n/∞/∞/FCFS排队模型,未考虑高时... 边缘计算(Edge Computing,EC)将计算、存储等资源部署在网络边缘,以满足业务对时延和能耗的要求。计算卸载是EC中的关键技术之一。现有的计算卸载方法在估计任务排队时延时使用M/M/1/∞/∞/FCFS或M/M/n/∞/∞/FCFS排队模型,未考虑高时延敏感型任务的优先执行问题,使得一些对时延要求不敏感的计算任务长期占用计算资源,导致系统的时延开销过大。此外,现有的经验重放方法大多采用随机采样方式,该方式不能区分经验的优劣,造成经验利用率低,神经网络收敛速度慢。基于确定性策略深度强化学习(Deep Reinforcement Learning,DRL)的计算卸载方法存在智能体对环境的探索能力弱和鲁棒性低等问题,降低了求解计算卸载问题的精度。为解决以上问题,考虑边缘计算中多任务移动设备、多边缘服务器的计算卸载场景,以最小化系统时延和能耗联合开销为目标,研究任务调度与卸载决策问题,并提出了基于非抢占式优先排队和优先经验重放DRL的计算卸载方法(Computation Offloading qUeuing pRioritIzed Experience Replay DRL,COURIER)。COURIER针对任务调度问题,设计了非抢占式优先排队模型(M/M/n/∞/∞/NPR)以优化任务的排队时延;针对卸载决策问题,基于软演员-评论家(Soft Actor Critic,SAC)提出了优先经验重放SAC的卸载决策机制,该机制在目标函数中加入信息熵,使智能体采取随机策略,同时优化机制中的经验采样方式以加快网络的收敛速度。仿真实验结果表明,COURIER能有效降低EC系统时延和能耗联合开销。 展开更多
关键词 边缘计算 计算卸载 非抢占式优先排队 信息熵 深度强化学习 优先经验重放
下载PDF
基于线性动态跳帧的深度双Q网络 被引量:2
7
作者 陈松 章晓芳 +3 位作者 章宗长 刘全 吴金金 闫岩 《计算机学报》 EI CSCD 北大核心 2019年第11期2561-2573,共13页
深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,在深度Q网络及其改进算法中基本使用静态的跳帧方法,即动作被重复执行固定的次数.另外,优先级经验重放是对均匀采样的一种改进,然而目前各个研究仅将样本的时间... 深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,在深度Q网络及其改进算法中基本使用静态的跳帧方法,即动作被重复执行固定的次数.另外,优先级经验重放是对均匀采样的一种改进,然而目前各个研究仅将样本的时间差分误差作为评价优先级的标准.针对这两个问题,该文提出一种基于线性动态跳帧和改进的优先级经验重放的深度双Q网络.该算法使得跳帧率成为一个可动态学习的参数,跳帧率随网络输出Q值的大小线性增长,Agent将根据当前状态和动作来动态地确定一个动作被重复执行的次数,并利用经验池中样本的每个动作的跳帧率和样本的时间差分误差共同决定样本的优先级.最后在Atari 2600游戏中进行实验,结果表明该算法相比于传统动态跳帧和优先级经验重放算法具有更优的效果. 展开更多
关键词 深度强化学习 深度Q网络 动态跳帧 优先级经验重放
下载PDF
结合DDPG与优先数据剪枝的样本处理方法 被引量:1
8
作者 向卉 刘建明 《计算机仿真》 北大核心 2021年第6期428-433,共6页
针对深度确定性策略梯度算法(DDPG)中的经验回放机制,提出了一种综合了高优先级数据重播和高相似度数据剪枝,并对送入网络训练的样本数据进行处理的方法。针对先进先出存储方法和重放缓冲区中随机采样方式造成经验回放效率较低的问题,... 针对深度确定性策略梯度算法(DDPG)中的经验回放机制,提出了一种综合了高优先级数据重播和高相似度数据剪枝,并对送入网络训练的样本数据进行处理的方法。针对先进先出存储方法和重放缓冲区中随机采样方式造成经验回放效率较低的问题,提出了解决方案:选择高优先级样本送入网络进行训练,同时移除缓冲区中的相似度较高的样本并保留一些罕见的样本。通过相关实验表明,方法不仅可以在更短的训练时间内达到更好的性能,而且可以加快训练过程,提高学习稳定性和长期记忆能力。 展开更多
关键词 深度确定性策略梯度算法 重播缓冲区 数据剪枝 优先级经验重放
下载PDF
改进深度强化学习算法的计算卸载策略
9
作者 葛海波 弓海文 +2 位作者 宋兴 李顺 孙奥 《西安邮电大学学报》 2021年第6期9-16,共8页
为了降低移动边缘计算(Mobile Edge Computing,MEC)系统的成本、提高计算效率,提出了一种改进深度强化学习算法的计算卸载策略。在任务卸载执行的时延中引入排队时延的计算,利用优先经验重放(Prioritized Experience Replay,PER)方法对... 为了降低移动边缘计算(Mobile Edge Computing,MEC)系统的成本、提高计算效率,提出了一种改进深度强化学习算法的计算卸载策略。在任务卸载执行的时延中引入排队时延的计算,利用优先经验重放(Prioritized Experience Replay,PER)方法对历史经验赋予优先级,优先采样高优先级的经验,以提高学习效率,快速、准确地做出合理卸载决策。仿真结果表明,与相关经典策略对比,改进算法的计算效率较高,系统总成本较低。 展开更多
关键词 移动边缘计算 卸载决策 排队时延 深度强化学习 优先经验重放
下载PDF
基于角色分类的多智能体经验共享重放方法研究
10
作者 赵星懋 李智 《产业科技创新》 2022年第2期22-23,共2页
近年来多智能体强化学习发展迅猛,解决了许多序列决策问题。针对多智能体强化学习合作场景下,智能体联合动作状态空间搜索困难、经验数据利用效率低、价值函数收敛缓慢等问题,提出了全新的基于角色分类的优先经验重放共享RC-PSER(Role C... 近年来多智能体强化学习发展迅猛,解决了许多序列决策问题。针对多智能体强化学习合作场景下,智能体联合动作状态空间搜索困难、经验数据利用效率低、价值函数收敛缓慢等问题,提出了全新的基于角色分类的优先经验重放共享RC-PSER(Role Classification Prioritized Shared Experience Replay)方法。RC-PSER主要有两个优势:一是通过优先经验重放方法提取高价值的数据供网络学习;二是通过基于角色分类的经验共享,将各个智能体采取的动作表征聚类后对智能体角色进行划分。实验表明,RC-PSER方法比主流的经验重放[1][2]机制包括UER(Uniform Experience Replay)、PER(Prioritized Experience Replay)、PSER(Prioritized Shared Experience Replay)与值函数分解的深度强化学习算法结合后表现得更好。 展开更多
关键词 多智能体强化学习 优先经验共享重放 值函数分解 经验分享
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部