期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
1
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 sac算法 路径规划 奖励函数
下载PDF
煤矿井下掘进机器人路径规划方法研究 被引量:1
2
作者 张旭辉 郑西利 +4 位作者 杨文娟 李语阳 麻兵 董征 陈鑫 《煤田地质与勘探》 EI CAS CSCD 北大核心 2024年第4期152-163,共12页
针对煤矿非全断面巷道条件下掘进机器人移机难度大、效率低下等问题,分析了煤矿井下非结构化环境特征及掘进机器人运动特性,提出了基于深度强化学习的掘进机器人机身路径规划方法。利用深度相机将巷道环境实时重建,在虚拟环境中建立掘... 针对煤矿非全断面巷道条件下掘进机器人移机难度大、效率低下等问题,分析了煤矿井下非结构化环境特征及掘进机器人运动特性,提出了基于深度强化学习的掘进机器人机身路径规划方法。利用深度相机将巷道环境实时重建,在虚拟环境中建立掘进机器人与巷道环境的碰撞检测模型,并使用层次包围盒法进行虚拟环境碰撞检测,形成巷道边界受限下的避障策略。考虑到掘进机器人形体大小且路径规划过程目标单一,在传统SAC算法的基础上引入后见经验回放技术,提出HER-SAC算法,该算法通过环境初始目标得到的轨迹扩展目标子集,以增加训练样本、提高训练速度。在此基础上,基于奖惩机制建立智能体,根据掘进机器人运动特性定义其状态空间与动作空间,在同一场景下分别使用3种算法对智能体进行训练,综合平均奖励值、最高奖励值、达到最高奖励值的步数以及鲁棒性4项性能指标进行对比分析。为进一步验证所提方法的可靠性,采用虚实结合的方式,通过调整目标位置设置2种实验场景进行掘进机器人的路径规划,并将传统SAC算法和HER-SAC算法的路径结果进行对比。结果表明:相较于PPO算法和SAC算法,HER-SAC算法收敛速度更快、综合性能达到最优;在2种实验场景下,HER-SAC算法相比传统SAC算法规划出的路径更加平滑、路径长度更短、路径终点与目标位置的误差在3.53 cm以内,能够有效地完成移机路径规划任务。该方法为煤矿掘进机器人的自主移机控制奠定了理论基础,为煤矿掘进设备自动化提供了新方法。 展开更多
关键词 掘进机器人 路径规划 深度强化学习 智能体 虚实结合 改进sac算法 煤矿
下载PDF
稳定且受限的新强化学习SAC算法
3
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 Q值高估 sac算法
下载PDF
神经网络架构轻量化搜索的飞行器控制律自学习方法
4
作者 王昭磊 王露荻 +3 位作者 路坤锋 禹春梅 李晓敏 林平 《宇航学报》 EI CAS CSCD 北大核心 2024年第5期762-769,共8页
针对在运用Soft actor-critic(SAC)强化学习算法实现复杂的飞行器控制律自学习过程中,超参数设定高度依赖于人工经验进而造成设计难度大的问题,提出一种基于神经网络架构轻量化搜索策略的飞行器控制律自学习方法。该方法在将神经网络架... 针对在运用Soft actor-critic(SAC)强化学习算法实现复杂的飞行器控制律自学习过程中,超参数设定高度依赖于人工经验进而造成设计难度大的问题,提出一种基于神经网络架构轻量化搜索策略的飞行器控制律自学习方法。该方法在将神经网络架构设计问题转化为图拓扑生成问题的基础上,结合LSTM循环神经网络的图拓扑生成算法、基于权重共享的深度强化学习参数轻量化训练与评估机制,以及基于策略梯度的图拓扑生成器参数学习算法,给出了一种面向深度强化学习的轻量化自动搜索框架,实现了SAC训练算法中神经网络架构超参数的自动优化,进而完成了控制律的自学习。以三维空间返回着陆控制为例,验证了所提方法的有效性和实用性。 展开更多
关键词 飞行器 控制律自学习 自动机器学习 网络架构搜索 sac强化学习
下载PDF
基于ASP-SAC算法的列车自动驾驶速度控制
5
作者 刘伯鸿 卢田 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第7期2637-2648,共12页
随着经济建设的绿色转型以及人工智能的快速发展,城市轨道交通已成为居民日常出行的重要方式,在保障安全性、高效性和准点性的前提下,列车运行的节能性和舒适性需求也越来越被关注。合理的运行策略能够有效实现多种目标需求下的列车自... 随着经济建设的绿色转型以及人工智能的快速发展,城市轨道交通已成为居民日常出行的重要方式,在保障安全性、高效性和准点性的前提下,列车运行的节能性和舒适性需求也越来越被关注。合理的运行策略能够有效实现多种目标需求下的列车自动驾驶速度控制,强化学习作为一种智能决策方法,能够有效解决这一控制问题。首先,通过综合分析技术、安全性和乘客体验等方面的因素,基于专家经验动作划分和状态信息熵将软演员-评论家(SAC)改进为动作状态经验优先软演员-评论家(ASP-SAC)方法,用于研究列车自动驾驶速度控制问题。其次,将问题马尔可夫形式化,搭建了列车运行环境,确定了状态空间、动作空间以及基于目标控制的奖励函数。最后,以北京地铁亦庄线的一段区间数据为例进行试验,对ASP-SAC方法进行验证并与其他一些算法在相同环境下进行性能优劣比较。研究结果表明:该方法对于多目标控制需求下的列车自动驾驶速度控制问题具有可行性,与未改进前相比算法效率提高22.73%,与PPO算法相比提高29.17%,改进效果良好。同时,列车运行时在安全性、舒适性无误的情况下,准时性、精确性和节能性都强于SAC、DQN、PPO以及PID算法,其中能耗分别减少3.64%、5.62%、4.38%、7.35%,控制效果良好。此外,该方法亦具备鲁棒性,在列车自动驾驶速度控制方面具有一定的优越性和可参考性。 展开更多
关键词 列车自动驾驶 多目标控制 强化学习 ASP-sac算法 速度控制
下载PDF
基于SAC算法的多源信息融合机械臂控制方法
6
作者 权双璐 郭艳婕 +4 位作者 费逢宇 瑜熙敬 宋小云 辛顺恒 王超 《自动化应用》 2024年第5期52-54,共3页
融合多源传感器信息可实现机械臂的精准控制。提出了一种基于深度强化学习的多源信息融合控制方法,设计并搭建了可实现多源信息融合的机械臂控制实验平台,融合视觉、触觉、编码器3种模态信息,并选取学习效率较高的SAC算法实现机械臂自... 融合多源传感器信息可实现机械臂的精准控制。提出了一种基于深度强化学习的多源信息融合控制方法,设计并搭建了可实现多源信息融合的机械臂控制实验平台,融合视觉、触觉、编码器3种模态信息,并选取学习效率较高的SAC算法实现机械臂自主精准控制。在实验平台上,开展了3个由易到难的机械臂运动控制任务,以验证所提多源信息融合机械臂控制方案的有效性。 展开更多
关键词 机械臂 多源信息融合 深度强化学习 sac算法
下载PDF
对抗条件下基于SAC-Lagrangian的UAV智能规划
7
作者 岳龙飞 杨任农 +4 位作者 闫孟达 赵小茹 左家亮 刘会亮 张明元 《电光与控制》 CSCD 北大核心 2024年第8期1-7,共7页
无人机因其低成本、可消耗、分布部署、敏捷灵活的优势,在多个民用领域大放异彩。但受其智能化程度限制,如何在复杂对抗条件下自主安全完成任务仍存在巨大挑战。针对目前无人机任务规划存在的智能性和安全性问题,提出一种基于安全强化... 无人机因其低成本、可消耗、分布部署、敏捷灵活的优势,在多个民用领域大放异彩。但受其智能化程度限制,如何在复杂对抗条件下自主安全完成任务仍存在巨大挑战。针对目前无人机任务规划存在的智能性和安全性问题,提出一种基于安全强化学习算法的无人机智能规划方法(SAC-Lagrangian)。考虑了雷达威胁、禁飞区安全约束和地导对抗条件,将任务规划问题建模为约束马尔可夫决策过程(CMDP),通过拉格朗日乘子法变为对偶问题,采用最大熵柔性行动者-评论家(SAC)算法近似求解最优策略,保证了智能体在遵守安全约束条件下最大化期望回报。仿真结果表明,与其他基线算法相比,所提方法能在保证任务性能的同时确保安全性,适应动态变化的场景,任务完成率达到96%,因此,具有高效、鲁棒和安全的优势。 展开更多
关键词 无人机 安全强化学习 sac-Lagrangian 智能任务规划 鲁棒性
下载PDF
基于SAC算法的矿山应急救援智能车快速避障控制 被引量:6
8
作者 单麒源 张智豪 +1 位作者 张耀心 余宗祥 《黑龙江科技大学学报》 CAS 2021年第1期14-20,共7页
针对传统反应式避障算法存在灵活度差及普适性不足的问题,提出Soft Actor-Critic深度强化学习算法的快速避障方法。通过分析SAC算法的框架及更新策略,采用ROS和RVIZ搭建实验仿真环境,优化SAC算法的状态输入,利用灾后中部车场、下部车场... 针对传统反应式避障算法存在灵活度差及普适性不足的问题,提出Soft Actor-Critic深度强化学习算法的快速避障方法。通过分析SAC算法的框架及更新策略,采用ROS和RVIZ搭建实验仿真环境,优化SAC算法的状态输入,利用灾后中部车场、下部车场虚拟环境对智能体分别进行训练和验证。结果表明,SAC算法优化后,GPU计算速度和算法添加噪声会导致智能体奖励值出现波动,但最终奖励值趋于稳定,改善了优化前越训练奖励值越低的问题,使避障性能大幅度提升,为实现矿山应急救援智能车快速避障控制提供研究基础。 展开更多
关键词 矿山应急救援 深度强化学习 反应式避障 sac算法
下载PDF
基于SAC算法的移动机器人智能路径规划 被引量:2
9
作者 杨来义 毕敬 苑海涛 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1726-1736,共11页
为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,路径规划表现差的问题。为使机器人快速... 为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,路径规划表现差的问题。为使机器人快速躲避障碍物且到达目标,设计合理的奖励函数,使用动态的状态归一化和优先级经验技术。为评估该算法性能,构建基于Pygame的仿真环境。将所提算法与近端策略优化(proximal policy optimization,PPO)算法进行比较。实验结果表明:所提算法的累计奖励能够得到显著提高,并且具有更强的鲁棒性。 展开更多
关键词 深度强化学习 路径规划 sac(soft actor-critic)算法 连续奖励函数 移动机器人
下载PDF
基于强化学习与种群博弈的近距空战决策
10
作者 王宝来 高显忠 +1 位作者 谢涛 侯中喜 《航空学报》 EI CAS CSCD 北大核心 2024年第12期169-184,共16页
随着人工智能与无人机(UAV)技术的发展,近距空战智能决策得到了世界各国的广泛关注。针对传统强化学习在解决近距空战智能决策问题时存在过拟合与策略循环等问题,提出了一种基于种群博弈的空战智能决策模型训练范式。通过构建由多个无... 随着人工智能与无人机(UAV)技术的发展,近距空战智能决策得到了世界各国的广泛关注。针对传统强化学习在解决近距空战智能决策问题时存在过拟合与策略循环等问题,提出了一种基于种群博弈的空战智能决策模型训练范式。通过构建由多个无人机智能体组成的种群,并为每个智能体赋予不同奖励权重系数,实现了无人机智能体多样化的风险偏好。种群中不同风险偏好的智能体模型相互进行对抗训练,能够有效避免过拟合和策略循环问题。在训练过程中,每个无人机智能体根据与不同对手策略的对抗结果自适应地优化奖励权重系数。在数值仿真实验中,种群博弈训练中的智能体5与智能体3分别以88%和85%的胜率击败了专家系统对抗训练和自博弈训练得到的智能决策模型,算法性能得到有效验证。此外,通过进一步实验表明了种群博弈训练范式中权重系数动态调整的必要性,并在异构机型上验证了所提训练范式的通用性。 展开更多
关键词 近距空战 智能决策 强化学习 种群博弈 sac算法
原文传递
基于分层强化学习的机械臂复杂操作技能学习方法 被引量:1
11
作者 孟子晗 高翔 +1 位作者 刘元归 马陈昊 《现代电子技术》 2023年第19期116-124,共9页
在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫... 在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫模型,将复杂操作任务分解为多个简单的子任务;其次,对每个子任务运用SAC算法进行技能学习,得到每个子任务的最优策略;最后,根据底层得到的子任务最优策略,上层通过基于最大熵目标的改进强化学习算法学习复杂操作技能。实验结果表明,所提方法能有效实现机械臂复杂操作技能的学习、再现与泛化,并在性能上优于其他传统强化学习算法。 展开更多
关键词 机械臂 复杂操作任务 分层强化学习 子目标 自回归隐马尔可夫模型 sac算法
下载PDF
基于最近双经验SAC算法的无人分队控制研究
12
作者 李海川 阳周明 +2 位作者 王洋 崔新悦 王娜 《火力与指挥控制》 CSCD 北大核心 2023年第6期70-75,83,共7页
针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明... 针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的SAC算法相比传统SAC算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成功率。 展开更多
关键词 深度强化学习 sac算法 最近双经验池回放 无人分队行为决策
下载PDF
基于深度强化学习的智能对手自主空战决策技术
13
作者 杨凯达 杨兴昊 刘钊 《火力与指挥控制》 CSCD 北大核心 2023年第10期27-33,共7页
为提升空战训练对手的智能性与自主性,提升空战训练效果。针对空战战术训练智能对手自主空战决策问题,提出一种基于深度强化学习的智能体训练方法,采用最大熵强化学习(SAC)算法平衡策略探索与利用的优势,引入自博弈和多智能体联盟训练... 为提升空战训练对手的智能性与自主性,提升空战训练效果。针对空战战术训练智能对手自主空战决策问题,提出一种基于深度强化学习的智能体训练方法,采用最大熵强化学习(SAC)算法平衡策略探索与利用的优势,引入自博弈和多智能体联盟训练方法提升空战智能体策略的多样性和鲁棒性。针对一对一近距格斗空战场景建立智能博弈框架及奖励函数,仿真结果表明,基于零经验训练得到的智能体能够有效自主机动决策并实施近距导弹攻击,产生较好的战术效果,证明该方法在一对一近距格斗空战智能体训练中的有效性。 展开更多
关键词 自主空战决策 智能对手 强化学习 sac
下载PDF
基于SAC模型的改进遗传算法求解TSP问题 被引量:14
14
作者 陈斌 刘卫国 《计算机科学与探索》 CSCD 北大核心 2021年第9期1680-1693,共14页
遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算... 遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算法对环境进行初始化,使用改进后的交叉与变异运算作为agent的动作空间,将种群的进化过程视为一个整体,以最大化种群进化过程的累计奖励为目标,结合当前种群个体适应度情况,采用基于SAC的策略梯度算法,生成控制种群进化的动作策略,合理运用遗传算法的全局和局部搜索能力,优化种群的进化过程,平衡种群收敛速度与遗传操作次数之间的关系。对TSPLIB实例的实验结果表明,改进的遗传算法可有效地避免陷入局部最优解,在提高种群收敛速度的同时,减少寻优过程的迭代次数。 展开更多
关键词 强化学习 遗传算法(GA) 旅行商问题(TSP) 深度策略梯度 soft actor-critic(sac)模型
下载PDF
基于柔性演员-评论家算法的自适应巡航控制研究 被引量:4
15
作者 赵克刚 石翠铎 +2 位作者 梁志豪 李梓棋 王玉龙 《汽车技术》 CSCD 北大核心 2023年第3期26-34,共9页
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数... 针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。 展开更多
关键词 自适应巡航控制 柔性演员-评论家 可迁移性 深度强化学习
下载PDF
融合注意力机制与SAC算法的虚拟电厂多能流低碳调度
16
作者 俞晓荣 徐青山 +1 位作者 杜璞良 王冬 《电力工程技术》 北大核心 2024年第5期233-246,共14页
虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难... 虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。 展开更多
关键词 虚拟电厂(VPP) 多能流 改进碳交易机制 深度强化学习 注意力机制(AM) 柔性动作评价(sac)算法
下载PDF
基于多智能体柔性演员-评论家学习的服务功能链部署算法 被引量:2
17
作者 唐伦 李师锐 +1 位作者 杜雨聪 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第8期2893-2901,共9页
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SF... 针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SFC端到端时延和网络资源预留阈值约束。其次,将随机优化问题转化为马尔可夫决策过程(MDP),实现SFC动态部署和资源的均衡调度,还进一步提出基于业务分工的多决策者编排方案。最后,在分布式多智能体系统中采用柔性演员-评论家(SAC)算法以增强探索能力,并引入了中央注意力机制和优势函数,能够动态和有选择性地关注获取更大部署回报的信息。仿真结果表明,所提算法可以实现负载惩罚、时延和部署成本的优化,并随业务请求量的增加能更好地扩展。 展开更多
关键词 网络功能虚拟化 服务功能链 柔性演员-评论家学习 多智能体强化学习
下载PDF
融合三支多属性决策与SAC的兵棋推演智能决策技术
18
作者 彭莉莎 孙宇祥 +1 位作者 薛宇凡 周献中 《系统工程与电子技术》 EI CSCD 北大核心 2024年第7期2310-2322,共13页
近年来,将深度强化学习技术用于兵棋推演的智能对抗策略生成受到广泛关注。针对强化学习决策模型采样率低、训练收敛慢以及智能体博弈胜率低的问题,提出一种融合三支多属性决策(three-way multiple attribute decision making,TWMADM)... 近年来,将深度强化学习技术用于兵棋推演的智能对抗策略生成受到广泛关注。针对强化学习决策模型采样率低、训练收敛慢以及智能体博弈胜率低的问题,提出一种融合三支多属性决策(three-way multiple attribute decision making,TWMADM)与强化学习的智能决策技术。基于经典软表演者-批评家(soft actor-critic,SAC)算法开发兵棋智能体,利用TWMADM方法评估对方算子的威胁情况,并将该威胁评估结果以先验知识的形式引入到SAC算法中规划战术决策。在典型兵棋推演系统中开展博弈对抗实验,结果显示所提算法可有效加快训练收敛速度,提升智能体的对抗策略生成效率和博弈胜率。 展开更多
关键词 兵棋推演 三支多属性决策 软表演者-批评家 强化学习 智能决策
下载PDF
基于强化学习的电磁悬浮型磁浮列车悬浮控制 被引量:1
19
作者 胡轲珽 徐俊起 +1 位作者 刘志刚 林国斌 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第3期332-340,共9页
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计... 为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。 展开更多
关键词 电磁悬浮(EMS)型磁浮列车 悬浮控制 强化学习控制 软演员-评论家(sac)智能体 奖励函数设计
下载PDF
基于SAC深度强化学习算法的充电枪寻孔策略研究
20
作者 徐建明 陈阜 董建伟 《高技术通讯》 CAS 2023年第1期63-71,共9页
针对机器人自动化充电任务中的寻孔操作,研究基于柔性行动者评价者(SAC)深度强化学习算法的机器人寻孔策略。设计一个基于actor-critic框架、以枪头位姿、接触力信息为输入、末端枪头坐标系XY平面动作为输出的策略控制器。该策略控制器... 针对机器人自动化充电任务中的寻孔操作,研究基于柔性行动者评价者(SAC)深度强化学习算法的机器人寻孔策略。设计一个基于actor-critic框架、以枪头位姿、接触力信息为输入、末端枪头坐标系XY平面动作为输出的策略控制器。该策略控制器共有5个神经网络,分别为actor网络、2个目标critic网络、2个critic网络;actor网络负责输出寻孔动作,目标critic网络负责输出下一寻孔状态下寻孔动作的价值评估,critic网络负责输出当前寻孔状态下寻孔动作的价值评估。基于double-Q trick方法使用2个目标critic网络输出价值中的较小值和2个critic网络输出价值中的较小值来分别更新critic网络和actor网络,以训练策略控制器。采用力位混合控制结构,将actor网络输出的XY平面位移动作转换成期望平动速度,与Z轴力跟踪导纳控制输出的期望速度合成机器人期望速度引导充电枪寻孔。仿真和实验验证了所提方法的有效性。 展开更多
关键词 机器人寻孔 深度强化学习 柔性行动者评价者(sac)算法 神经网络 力控制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部