期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于自回归预测模型的深度注意力强化学习方法 被引量:17
1
作者 梁星星 冯旸赫 +3 位作者 黄金才 王琦 马扬 刘忠 《软件学报》 EI CSCD 北大核心 2020年第4期948-966,共19页
近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的... 近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果. 展开更多
关键词 注意力机制 深度强化学习 actor-critic算法 变分自动编码 混合密度网络-循环神经网络
下载PDF
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:8
2
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
3
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
下载PDF
基于深度强化对抗学习的图像增强方法 被引量:5
4
作者 郭业才 周腾威 《扬州大学学报(自然科学版)》 CAS 北大核心 2020年第2期42-46,51,共6页
针对Exposure框架图像增强模型的增强结果存在过曝、颜色失真等问题,提出critic正则化相对对抗优势行动者-评论家(relativistic adversarial advantage actor-critic with critic-regulatization,RA3C-CR)框架.通过引入相对均值生成对... 针对Exposure框架图像增强模型的增强结果存在过曝、颜色失真等问题,提出critic正则化相对对抗优势行动者-评论家(relativistic adversarial advantage actor-critic with critic-regulatization,RA3C-CR)框架.通过引入相对均值生成对抗网络对强化学习框架中的奖励函数进行近似建模,增强生成对抗网络判别器的鉴别能力.同时,将行动者-评论家(actor-critic,AC)算法中价值网络的目标函数作为策略梯度算法的惩罚项约束策略网络的学习行为,以提升算法的稳定性和表现能力.实验结果表明,该框架能较好地还原出图像的真实颜色分布,增强图像在主观效果与客观指标上均优于对比方法. 展开更多
关键词 图像增强 深度强化学习 actor-critic算法 critic正则化 生成对抗网络
下载PDF
Actor-critic框架下的二次指派问题求解方法
5
作者 李雪源 韩丛英 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第2期275-284,共10页
二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完... 二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完全图并构造相应的关联图,从而将设施和地点的指派任务转化为关联图上的节点选择任务,基于actor-critic框架,提出一种全新的求解算法ACQAP。首先,利用多头注意力机制构造策略网络,处理来自图卷积神经网络的节点表征向量;然后,通过actor-critic算法预测每个节点被作为最优节点输出的概率;最后,依据该概率在可行时间内输出满足目标奖励函数的动作决策序列。该算法摆脱人工设计,且适用于不同规模的输入,更加灵活可靠。实验结果表明,在QAPLIB实例上,本算法在精度媲美传统启发式算法的前提下,迁移泛化能力更强;同时相对于NGM等基于学习的算法,求解的指派费用与最优解之间的偏差最小,且在大部分实例中,偏差均小于20%。 展开更多
关键词 二次指派问题 图卷积神经网络 深度强化学习 多头注意力机制 actor-critic算法
下载PDF
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制 被引量:4
6
作者 马丽新 刘晨 刘磊 《应用数学和力学》 CSCD 北大核心 2022年第1期104-114,共11页
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数... 研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性. 展开更多
关键词 分数阶多自主体系统 actor-critic算法 最优主-从一致性 事件触发 间歇
下载PDF
一种基于强化学习的口令猜解模型
7
作者 李小玲 吴昊天 +1 位作者 周涛 鲁辉 《计算机科学》 CSCD 北大核心 2023年第1期334-341,共8页
口令猜解是口令安全研究的重要方向之一。基于生成式对抗网络(Generative Adversarial Network,GAN)的口令猜解是近几年提出的一种新方法,其通过判别器对生成口令的评判结果来指导生成器的更新,进而生成口令猜测集。然而由于判别器对生... 口令猜解是口令安全研究的重要方向之一。基于生成式对抗网络(Generative Adversarial Network,GAN)的口令猜解是近几年提出的一种新方法,其通过判别器对生成口令的评判结果来指导生成器的更新,进而生成口令猜测集。然而由于判别器对生成器的指导不足,现有的基于GAN的口令猜解模型的猜解效率较低。针对这个问题,提出了一种基于强化学习Actor-Critic算法改进的GAN口令猜解模型AC-Pass。AC-Pass模型通过Critic网络和判别器输出的奖赏共同指导Actor网络每一时间步生成策略的更新,实现了对口令序列生成过程的强化指导。将AC-Pass模型应用到RockYou,LinkedIn和CSDN口令集进行实验,并与PCFG模型、已有基于GAN的口令猜解模型PassGAN和seqGAN进行比较。实验结果表明,无论是同源测试集还是异源测试集,AC-Pass模型在9×10^(8)猜测集上的口令破解率均高于PassGAN和seqGAN;且当测试集与训练集之间的口令空间分布差异较大时,AC-Pass表现出了优于PCFG的口令猜解性能;另外,AC-Pass模型有较大的口令输出空间,其破解率随着口令猜测集的增大而提高。 展开更多
关键词 口令猜解 深度学习 强化学习 actor-critic算法 生成式对抗网络
下载PDF
基于强化学习的非线性主动悬架系统的最优控制
8
作者 张皓涵 崔明月 《烟台大学学报(自然科学与工程版)》 CAS 2023年第4期384-392,共9页
为了改善车辆性能和乘客舒适性,针对带有非线性阻尼的1/4汽车主动悬架系统,提出了一种基于在线迭代算法的最优控制策略。首先根据所建立的非线性模型给出了合理的代价函数,并利用最优控制理论设计了初始最优控制策略。然后为了处理求解... 为了改善车辆性能和乘客舒适性,针对带有非线性阻尼的1/4汽车主动悬架系统,提出了一种基于在线迭代算法的最优控制策略。首先根据所建立的非线性模型给出了合理的代价函数,并利用最优控制理论设计了初始最优控制策略。然后为了处理求解HJB方程的困难,借助于强化学习的Actor-Critic框架构造了一种新颖的策略在线学习HJB方程的近似解,同时为提高系统的鲁棒性,在Actor-Critic更新率中增加了泄漏项。最后通过稳定性分析表明所提策略可通过调节参数使状态收敛到零的充分小邻域,同时使代价函数达到最优。 展开更多
关键词 非线性主动悬架 强化学习 最优控制 actor-critic算法
下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术
9
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
下载PDF
带最大熵修正的行动者评论家算法 被引量:5
10
作者 姜玉斌 刘全 胡智慧 《计算机学报》 EI CSCD 北大核心 2020年第10期1897-1908,共12页
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大... 在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性. 展开更多
关键词 强化学习 深度学习 行动者评论家算法 最大熵 策略梯度
下载PDF
基于多层注意力机制—柔性AC算法的机器人路径规划 被引量:5
11
作者 韩金亮 任海菁 +2 位作者 吴淞玮 蒋欣欣 刘凤凯 《计算机应用研究》 CSCD 北大核心 2020年第12期3650-3655,共6页
针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔... 针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔性AC算法。将其用于解决动态未知环境下的机器人路径规划问题,可增强行动者的策略梯度鲁棒性并降低评论家的回归误差,实现机器人路径规划最优方案的快速收敛。实验结果表明,该算法有效克服机器人路径规划的局部最优,具有计算速度快、稳定收敛的优点。 展开更多
关键词 行动者—评论家算法 注意力机制 深度强化学习 机器人路径规划
下载PDF
基于InfoLSGAN和AC算法的滚动轴承剩余寿命预测 被引量:5
12
作者 于广滨 卓识 +1 位作者 于军 刘可 《航空动力学报》 EI CAS CSCD 北大核心 2020年第6期1212-1221,共10页
为解决小样本和噪声干扰下滚动轴承剩余寿命(RUL)预测准确率低的问题,提出一种基于信息最小二乘生成对抗网络(information least squares generative adversarial network,InfoLSGAN)和行动者-评论家(actor-critic,AC)算法的滚动轴承剩... 为解决小样本和噪声干扰下滚动轴承剩余寿命(RUL)预测准确率低的问题,提出一种基于信息最小二乘生成对抗网络(information least squares generative adversarial network,InfoLSGAN)和行动者-评论家(actor-critic,AC)算法的滚动轴承剩余寿命预测方法。将堆叠降噪自动编码器、信息生成对抗网络和最小二乘生成对抗网络相结合,构建InfoLSGAN,自动地从噪声数据中提取可解释的鲁棒特征,解决梯度消失问题;采用基于AC的训练算法训练InfoLSGAN,减少训练时间,加快收敛速度;根据训练后的InfoLSGAN,利用softmax分类器预测测试样本中滚动轴承的剩余寿命。通过滚动轴承加速疲劳寿命试验验证该方法的有效性。试验结果证明,当信噪比等于0时,该方法对滚动轴承测试样本的寿命预测准确率至少提高了10%。在小样本情况下,滚动轴承剩余寿命预测的平均准确率达95.84%。 展开更多
关键词 滚动轴承 剩余寿命预测 信息最小二乘 生成对抗网络 行动者-评论家算法 堆叠降噪自动编码器
原文传递
基于深度强化学习的柔性作业车间调度方法
13
作者 崔雪艳 万烂军 +1 位作者 赵昊鑫 李长云 《制造技术与机床》 北大核心 2023年第12期165-170,共6页
由于传统的调度方法在求解大规模柔性作业车间调度问题中存在短视性、计算时间过长和算法参数难以确定等问题,因此提出了一种有效求解大规模柔性作业车间调度问题的深度强化学习方法。首先,将柔性作业车间调度问题转化为一个多智能体马... 由于传统的调度方法在求解大规模柔性作业车间调度问题中存在短视性、计算时间过长和算法参数难以确定等问题,因此提出了一种有效求解大规模柔性作业车间调度问题的深度强化学习方法。首先,将柔性作业车间调度问题转化为一个多智能体马尔科夫决策过程。然后,构建一个用于求解柔性作业车间调度问题的演员评论家模型,演员网络根据状态输出调度规则,智能体根据调度规则选择合适的工序,评论家网络根据状态和奖励对演员网络的动作进行评估。最后,采用不同规模的柔性作业车间调度问题实例验证该方法的性能。实验结果表明,该方法的求解质量优于启发式调度规则,求解效率优于元启发式算法。 展开更多
关键词 柔性作业车间调度 深度强化学习 马尔科夫决策过程 演员评论家算法
下载PDF
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:1
14
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
下载PDF
基于PPO的机械臂控制研究方法 被引量:1
15
作者 郭坤 武曲 张义 《电脑知识与技术》 2021年第4期222-225,共4页
目前应用于机械臂控制中有许多不同的算法,如传统的自适应PD控制、模糊自适应控制等,这些大多需要基于数学模型。也有基于强化学习的控制方法,如:DQN(Deep Q Network)、Sarsa等。但这些强化学习算法在连续高维的动作空间中存在学习效率... 目前应用于机械臂控制中有许多不同的算法,如传统的自适应PD控制、模糊自适应控制等,这些大多需要基于数学模型。也有基于强化学习的控制方法,如:DQN(Deep Q Network)、Sarsa等。但这些强化学习算法在连续高维的动作空间中存在学习效率不高、回报奖励设置困难、控制效果不佳等问题。论文对基于PPO(Proximal Policy Optimization近端策略优化)算法实现任意位置的机械臂抓取应用进行研究,并将实验数据与Actor-Critic(演员-评论家)算法的进行对比,验证了使用PPO算法的控制效果良好,学习效率较高且稳定。 展开更多
关键词 强化学习 机械臂 近端策略优化算法 actor-critic算法 离线学习
下载PDF
基于深度强化学习的二维不规则多边形排样方法 被引量:1
16
作者 曾焕荣 商慧亮 《计算机系统应用》 2022年第2期168-175,共8页
本文将深度强化学习应用于二维不规则多边形的排样问题中,使用质心到轮廓距离将多边形的形状特征映射到一维向量当中,对于在随机产生的多边形中实现了1%以内的压缩损失.给定多边形零件序列,本文使用多任务的深度强化学习模型对不规则排... 本文将深度强化学习应用于二维不规则多边形的排样问题中,使用质心到轮廓距离将多边形的形状特征映射到一维向量当中,对于在随机产生的多边形中实现了1%以内的压缩损失.给定多边形零件序列,本文使用多任务的深度强化学习模型对不规则排样件的顺序以及旋转角度进行预测,得到优于标准启发式算法5%–10%的排样效果,并在足够次数的采样后得到优于优化后的遗传算法的结果,能够在最短时间内得到一个较优的初始解,具有一定的泛化能力. 展开更多
关键词 排样优化问题 组合优化问题 深度强化学习 编码器-解码器结构 行动家-评论家算法
下载PDF
基于分层强化学习的无人机空战多维决策 被引量:7
17
作者 张建东 王鼎涵 +3 位作者 杨啟明 史国庆 陆屹 张耀中 《兵工学报》 EI CAS CSCD 北大核心 2023年第6期1547-1563,共17页
针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现... 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合Soft Actor-Critic算法和专家经验训练和建立元策略组,并改进传统的Option-Critic算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。 展开更多
关键词 无人机空战 多维决策 分层强化学习 Soft actor-critic算法 Option-critic算法
下载PDF
基于多域联合的无人机集群认知抗干扰算法 被引量:11
18
作者 刘春玲 刘敏提 丁元明 《计算机工程》 CAS CSCD 北大核心 2020年第12期193-200,共8页
为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于St... 为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于Stackelberg博弈理论,利用功率域压制中度干扰等级的信道干扰信号,减少切换信道的时间开销。通过引入簇头协助的方法,解决由于单个智能体局部频谱感知能力较弱而导致信道决策成功率较低的问题。仿真结果表明,相比QL-AJ算法与AC-AJ算法,该算法能够给出簇内最佳节点个数,提高接收信号信干噪比,且网络整体抗干扰性能较好。 展开更多
关键词 认知抗干扰算法 优势演员-评论家算法 STACKELBERG博弈 无人机集群 分布式网络
下载PDF
基于SAC算法的移动机器人智能路径规划 被引量:2
19
作者 杨来义 毕敬 苑海涛 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1726-1736,共11页
为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,路径规划表现差的问题。为使机器人快速... 为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,路径规划表现差的问题。为使机器人快速躲避障碍物且到达目标,设计合理的奖励函数,使用动态的状态归一化和优先级经验技术。为评估该算法性能,构建基于Pygame的仿真环境。将所提算法与近端策略优化(proximal policy optimization,PPO)算法进行比较。实验结果表明:所提算法的累计奖励能够得到显著提高,并且具有更强的鲁棒性。 展开更多
关键词 深度强化学习 路径规划 SAC(soft actor-critic)算法 连续奖励函数 移动机器人
下载PDF
基于知识辅助深度强化学习的巡飞弹组动态突防决策
20
作者 孙浩 黎海青 +2 位作者 梁彦 马超雄 吴翰 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3161-3176,共16页
巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控... 巡飞弹组(Loitering Munition Group,LMG)突防控制决策是提高巡飞弹群组作战自主性与智能性的关键。针对存在截击拦截器和临机防空火力区的动态环境中弹组突防机动指令在线生成困难的问题,提出一种基于知识辅助强化学习方法的LMG突防控制决策算法。结合领域知识、规则知识改进状态空间和回报函数设计提高算法泛化能力与训练收敛速度。构建基于软动作-评价方法的LMG突防控制决策框架,以提高算法探索效率。利用专家经验和模仿学习方法改善多弹多威胁带来的解空间狭窄、算法初始高效训练经验匮乏的问题。实验结果表明,新算法能够在动态环境中实时生成有效的突防机动指令,相较于对比方法效果更好,验证了算法的有效性。 展开更多
关键词 巡飞弹组 知识辅助深度强化学习 Soft actor-critic算法 动态环境突防 控制决策
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部