期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的电子政务云动态化任务调度方法
1
作者 龙宇杰 修熙 +3 位作者 黄庆 黄晓勉 李莹 吴维刚 《计算机应用研究》 CSCD 北大核心 2024年第6期1797-1802,共6页
电子政务云中心的任务调度一直是个复杂的问题。大多数现有的任务调度方法依赖于专家知识,通用性不强,无法处理动态的云环境,通常会导致云中心的资源利用率降低和服务质量下降,任务的完工时间变长。为此,提出了一种基于演员评论家(actor... 电子政务云中心的任务调度一直是个复杂的问题。大多数现有的任务调度方法依赖于专家知识,通用性不强,无法处理动态的云环境,通常会导致云中心的资源利用率降低和服务质量下降,任务的完工时间变长。为此,提出了一种基于演员评论家(actor-critic,A2C)算法的深度强化学习调度方法。首先,actor网络参数化策略根据当前系统状态选择调度动作,同时critic网络对当前系统状态给出评分;然后,使用梯度上升的方式来更新actor策略网络,其中使用了critic网络的评分来计算动作的优劣;最后,使用了两个真实的业务数据集进行模拟实验。结果显示,与经典的策略梯度算法以及五个启发式任务调度方法相比,该方法可以提高云数据中心的资源利用率并缩短离线任务的完工时间,能更好地适应动态的电子政务云环境。 展开更多
关键词 电子政务 云计算 任务调度 深度强化学习 演员评论家算法
下载PDF
联邦强化学习文献综述 被引量:1
2
作者 李骏琪 邵俊 蔺静茹 《金融科技时代》 2021年第10期87-89,共3页
深度学习技术能够快速有效地从大量历史数据中学习规律和模式,但很多实际应用场景无法提供足够的训练数据,且要求模型对外部环境的变化快速作出反应。近一年来,联邦强化学习的发展为解决以上行业痛点带来了新思路,联邦强化学习不仅可以... 深度学习技术能够快速有效地从大量历史数据中学习规律和模式,但很多实际应用场景无法提供足够的训练数据,且要求模型对外部环境的变化快速作出反应。近一年来,联邦强化学习的发展为解决以上行业痛点带来了新思路,联邦强化学习不仅可以在隐私保护的条件下扩大样本数据,而且训练出的智能体可以跟随外部环境的变化作出合适的决策,比传统监督学习具有更好的泛化性和自适应性。本文总结了近一年来联邦强化学习的研究成果,包括基于深度Q学习算法和演员评论家算法的联邦强化学习算法,并从联邦模式、隐私保护和应用场景3方面展望其未来的研究方向。 展开更多
关键词 联邦强化学习 隐私保护 深度Q学习算法 演员评论家算法
下载PDF
基于深度强化学习的柔性作业车间调度方法
3
作者 崔雪艳 万烂军 +1 位作者 赵昊鑫 李长云 《制造技术与机床》 北大核心 2023年第12期165-170,共6页
由于传统的调度方法在求解大规模柔性作业车间调度问题中存在短视性、计算时间过长和算法参数难以确定等问题,因此提出了一种有效求解大规模柔性作业车间调度问题的深度强化学习方法。首先,将柔性作业车间调度问题转化为一个多智能体马... 由于传统的调度方法在求解大规模柔性作业车间调度问题中存在短视性、计算时间过长和算法参数难以确定等问题,因此提出了一种有效求解大规模柔性作业车间调度问题的深度强化学习方法。首先,将柔性作业车间调度问题转化为一个多智能体马尔科夫决策过程。然后,构建一个用于求解柔性作业车间调度问题的演员评论家模型,演员网络根据状态输出调度规则,智能体根据调度规则选择合适的工序,评论家网络根据状态和奖励对演员网络的动作进行评估。最后,采用不同规模的柔性作业车间调度问题实例验证该方法的性能。实验结果表明,该方法的求解质量优于启发式调度规则,求解效率优于元启发式算法。 展开更多
关键词 柔性作业车间调度 深度强化学习 马尔科夫决策过程 演员评论家算法
下载PDF
基于改进强化学习的移动机器人动态避障方法 被引量:5
4
作者 徐建华 邵康康 +1 位作者 王佳惠 刘学聪 《中国惯性技术学报》 EI CSCD 北大核心 2023年第1期92-99,共8页
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯... 针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。 展开更多
关键词 移动机器人 动态避障 强化学习 柔性演员评论家算法 卷积神经网络
下载PDF
基于改进柔性演员评论家算法的研究 被引量:2
5
作者 胡仕柯 赵海军 《太原师范学院学报(自然科学版)》 2021年第3期48-52,共5页
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更... 针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更佳的收敛速度与稳定性. 展开更多
关键词 深度强化学习 柔性演员评论家算法 内在好奇心 样本利用效率
下载PDF
一种基于部分可观察马尔可夫决策过程的股票交易策略
6
作者 黄福威 张宁 《东莞理工学院学报》 2023年第1期43-50,共8页
近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,... 近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,并采用长短期记忆网络和优势演员评论家算法来构建股票交易策略。通过在道琼斯工业平均指数成份股数据集上进行实验,实验结果表明本文所设计的股票交易策略构建方法可以挖掘隐藏在历史数据中的有效信息,获得稳定且有效的交易策略。 展开更多
关键词 股票交易 部分可观察马尔可夫决策过程 优势演员评论家算法
下载PDF
雾无线接入网中面向时延的协作缓存策略
7
作者 江帆 韩少江 +1 位作者 刘磊 陈艺洋 《西安邮电大学学报》 2023年第2期1-9,共9页
为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模... 为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模型,并利用区域用户的偏好模型预测每个雾接入节点(Fog-Access Point,F-AP)服务区域内的局部内容流行度。为了提高边缘节点存储空间的利用率,考虑F-AP以及用户设备(User Equipment,UE)间的协作缓存,以最小化用户获取请求内容的平均下载时延为目标,根据获得的内容流行度分布,优化热门内容的缓存位置。将所提策略与参考策略、贪婪缓存策略和随机缓存策略等3种策略相比,仿真结果表明,所提策略能够实现更低的平均内容下载时延。 展开更多
关键词 雾无线接入网 协作缓存 异步优势演员评论家算法 平均下载时延
下载PDF
基于自适应多目标强化学习的服务集成方法
8
作者 郭潇 李春山 +1 位作者 张宇跃 初佃辉 《计算机应用》 CSCD 北大核心 2022年第11期3500-3505,共6页
当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性... 当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性。针对上述问题,提出一种基于自适应多目标强化学习的服务集成方法,该方法在异步优势演员评论家(A3C)算法的框架下引入多目标优化策略,从而在满足用户需求的同时保证IoS生态系统的健康发展。所提方法可以根据遗憾值对多目标值集成权重进行动态调整,改善多目标强化学习中子目标值不平衡的现象。在真实大规模服务环境下进行了服务集成验证,实验结果表明所提方法相对于传统机器学习方法在大规模服务环境下求解速度更快;相较于权重固定的强化学习(RL),各目标的求解质量更均衡。 展开更多
关键词 服务集成 强化学习 异步优势演员评论家算法 多目标优化 自适应权重
下载PDF
基于多域联合的无人机集群认知抗干扰算法 被引量:11
9
作者 刘春玲 刘敏提 丁元明 《计算机工程》 CAS CSCD 北大核心 2020年第12期193-200,共8页
为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于St... 为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于Stackelberg博弈理论,利用功率域压制中度干扰等级的信道干扰信号,减少切换信道的时间开销。通过引入簇头协助的方法,解决由于单个智能体局部频谱感知能力较弱而导致信道决策成功率较低的问题。仿真结果表明,相比QL-AJ算法与AC-AJ算法,该算法能够给出簇内最佳节点个数,提高接收信号信干噪比,且网络整体抗干扰性能较好。 展开更多
关键词 认知抗干扰算法 优势演员-评论家算法 STACKELBERG博弈 无人机集群 分布式网络
下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:7
10
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:1
11
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
下载PDF
基于柔性演员-评论家算法的决策规划协同研究 被引量:1
12
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
下载PDF
顾及路口压力的A2C交通信号调控
13
作者 张蕾 郭全盛 +1 位作者 林建新 李建武 《计算机仿真》 北大核心 2023年第9期120-124,139,共6页
对城市道路交通进行有效地智能化调控,可以缓解拥堵,缩短出行时间,维护社会稳定,有重要的理论价值和实际意义。为此提出顾及路口压力的多智能体Actor-Critic算法。先设计缓解路口压力的强化学习策略,构建基于深度神经网络的多智能体Acto... 对城市道路交通进行有效地智能化调控,可以缓解拥堵,缩短出行时间,维护社会稳定,有重要的理论价值和实际意义。为此提出顾及路口压力的多智能体Actor-Critic算法。先设计缓解路口压力的强化学习策略,构建基于深度神经网络的多智能体Actor-Critic模型,通过Actor-Critic算法生成行动并做出判别。在SUMO(Simulation of Urban Mobility)平台上模拟交通网络,与三种传统交通信号调控算法进行对比。实验结果表明,所提方法使车辆到达数量提升了12%、车辆平均速度提升了5%,优于其它基准算法。 展开更多
关键词 交通信号控制 强化学习 演员-评论家算法 深度神经网络
下载PDF
一种基于强化学习的商业建筑能量管理方法
14
作者 杨雯婷 郁进明 《物联网技术》 2023年第9期94-97,共4页
在智能建筑的能源管理中,为了最大限度地降低建筑能源成本,在保持建筑内管道水力平衡的同时,需要有效控制供暖、通风和空调(HVAC)系统并尽可能减少能源消耗。该文综合考虑商业建筑中储能、空调、水力单元调度,设计独立可控的HVAC系统,... 在智能建筑的能源管理中,为了最大限度地降低建筑能源成本,在保持建筑内管道水力平衡的同时,需要有效控制供暖、通风和空调(HVAC)系统并尽可能减少能源消耗。该文综合考虑商业建筑中储能、空调、水力单元调度,设计独立可控的HVAC系统,在减少建筑暖通空调的能源成本的同时,保证居住者的热舒适度。本文将水力平衡与热舒适度约束下的系统成本最小化问题建立为非凸优化问题,并进一步转化为马尔可夫决策问题;为了解决系统中的不确定性,提出了基于“演员-评论家”的深度强化学习算法来学习最优调度策略。数值仿真表明,与基线算法相比,该算法能降低9.15%的系统成本。 展开更多
关键词 强化学习 能量管理 智能建筑 HVAC 非凸优化 演员-评论家算法
下载PDF
一种平衡探索和利用的优先经验回放方法 被引量:1
15
作者 张佳能 李辉 +1 位作者 吴昊霖 王壮 《计算机科学》 CSCD 北大核心 2022年第5期179-185,共7页
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采... 经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。 展开更多
关键词 强化学习 经验回放 优先采样 利用 探索 演员-评论家算法
下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
16
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
下载PDF
一种新的基于强化学习改进SAR的无人机路径规划
17
作者 周文娟 张超群 +3 位作者 汤卫东 易云恒 刘文武 秦唯栋 《控制与决策》 EI CSCD 北大核心 2024年第4期1203-1211,共9页
搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是,SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设... 搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是,SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设计SAR的局部搜索和全局搜索操作,并增加路径调整操作,采用异步优势演员评论家算法(A3C)训练强化学习模型使得SAR个体获得自适应选择算子的能力.所有智能体在威胁区数量、位置和大小均随机生成的动态环境中训练,进而从每个动作的贡献、不同威胁区下规划出的路径长度和每个个体的执行操作序列3个方面对训练好的模型进行探索性实验.实验结果表明,RLSAR比标准SAR、差分进化算法、松鼠搜索算法具有更高的收敛速度,能够在随机生成的三维动态环境中成功地为无人机规划出更加经济且安全有效的可行路径,表明所提出算法可作为一种有效的无人机路径规划方法. 展开更多
关键词 强化学习 搜索与救援优化算法 异步优势演员-评论家算法 路径规划 路径调整 无人机
原文传递
基于深度强化学习的机械臂多模混合控制
18
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
19
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部