期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于强化学习的多段连续体机器人轨迹规划
1
作者 刘宜成 杨迦凌 +1 位作者 梁斌 陈章 《电子测量技术》 北大核心 2024年第5期61-69,共9页
针对多段连续体机器人的轨迹规划问题,提出了一种基于深度确定性策略梯度强化学习的轨迹规划算法。首先,基于分段常曲率假设方法,建立连续体机器人的关节角速度和末端位姿的正向运动学模型。然后,采用强化学习算法,将机械臂的当前位姿... 针对多段连续体机器人的轨迹规划问题,提出了一种基于深度确定性策略梯度强化学习的轨迹规划算法。首先,基于分段常曲率假设方法,建立连续体机器人的关节角速度和末端位姿的正向运动学模型。然后,采用强化学习算法,将机械臂的当前位姿和目标位姿等信息作为状态输入,将机械臂的关节角速度作为智能体的输出动作,设置合理的奖励函数,引导机器人从初始位姿向目标位姿移动。最后,在MATLAB中搭建仿真系统,仿真结果表明,强化学习算法成功对多段连续体机器人进行轨迹规划,控制连续体机器人的末端平稳运动到目标位姿。 展开更多
关键词 连续体机器人 轨迹规划 强化学习 位姿控制 奖励引导
下载PDF
基于深度强化学习的无人驾驶路径规划研究
2
作者 赵天亮 张小俊 +1 位作者 张明路 陈建文 《河北工业大学学报》 CAS 2024年第4期21-30,共10页
针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时出现收敛不稳定、学习效率低等问题,提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG_DDPG)算法。该算法在回合内创建优秀... 针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时出现收敛不稳定、学习效率低等问题,提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG_DDPG)算法。该算法在回合内创建优秀经验集合,便于指导智能汽车充分利用过往有效信息,得到稳定的控制策略;采用基于奖励的优先经验回放机制,打破数据之间的关联性,提高数据的利用率,减少搜索过程的盲目性,提高算法的收敛稳定性。基于ROS(Robot Operating System)操作系统对算法进行了验证。在Gazebo建模软件中,设计了智能汽车模型以及障碍物环境,利用决策算法规划智能汽车的安全行驶路径。数据结果验证了RG_DDPG算法在处理路径规划任务的有效性,相比于DDPG算法,改进后智能汽车的车速能够提升60.5%,获取奖励提升一倍多,算法的收敛稳定性更好。最后通过实车实验验证了该算法的实用性。 展开更多
关键词 智能汽车 无人驾驶 路径规划 深度确定性策略梯度 奖励指导
下载PDF
改进深度确定性策略梯度的决策算法研究 被引量:1
3
作者 陈建文 张小俊 张明路 《汽车实用技术》 2022年第1期28-31,共4页
为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深... 为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深度确定性策略梯度算法随机探索的盲目性,提高智能车学习效率。然后在回合间基于奖励筛选优秀轨迹,便于指导智能车对复杂空间的探索,得到稳定的控制策略。最后,在开源智能驾驶仿真环境进行仿真。实验结果表明改进后的深度确定性策略梯度算法性能优于原来的算法,训练效率和收敛稳定性均得到有效提升。 展开更多
关键词 路径规划 决策控制 深度确定性策略梯度 奖励指导 优先经验回放
下载PDF
基于强化学习的艾灸机器人温度控制策略研究 被引量:1
4
作者 张博 黄山 +2 位作者 张浛芮 李应昆 涂海燕 《电子测量技术》 北大核心 2022年第24期60-66,共7页
针对传统PID控制算法在艾灸机器人温度控制中存在参数辨识复杂、适应性差等问题,将强化学习引入到艾灸机器人温控领域中,提出了一种改进强化学习算法。首先,通过多物理场仿真软件和神经网络联合搭建智能体离线训练仿真环境,以解决智能... 针对传统PID控制算法在艾灸机器人温度控制中存在参数辨识复杂、适应性差等问题,将强化学习引入到艾灸机器人温控领域中,提出了一种改进强化学习算法。首先,通过多物理场仿真软件和神经网络联合搭建智能体离线训练仿真环境,以解决智能体在线训练效率低下的问题;然后,提出一种结合奖励引导和余弦退火策略的改进强化学习算法,提高算法的收敛性和成功率;最后,将仿真环境训练后的模型迁移到真实环境进行实验验证。实验结果表明,温度超调量为0.2℃,稳态温度保持在43.1℃±0.4℃内,改进后的强化学习算法相比于传统PID控制算法的温度控制能力更好。 展开更多
关键词 艾灸机器人 温度控制 强化学习 奖励引导 余弦退火
下载PDF
考虑用户偏好的奖励机制下共享单车分流停车引导策略研究
5
作者 彭芃 贾顺平 《山东科学》 CAS 2022年第6期123-130,共8页
为缓解共享单车停车空间不足导致的乱停乱放问题,提出共享单车停车分流引导策略,并根据用户行为选择设置相应的奖励措施。设计叙述性偏好问卷调查,获取用户行为选择偏好数据,运用Logit模型进行分析并构建激励共享单车用户分流停车的奖... 为缓解共享单车停车空间不足导致的乱停乱放问题,提出共享单车停车分流引导策略,并根据用户行为选择设置相应的奖励措施。设计叙述性偏好问卷调查,获取用户行为选择偏好数据,运用Logit模型进行分析并构建激励共享单车用户分流停车的奖励机制;构建以企业成本最小和转移停车需求最大为目标的多目标优化模型,提出引导用户分流停车的策略。以西三旗永泰庄地铁站为例检验了该策略的实际可操作性,结果表明策略用户接受度达60%,预计成功转移58.33%的过量停车需求。该策略能够在一定程度上缓解由于停车空间不足导致的共享单车停车问题,可以为共享单车停车管理提供有效指导。 展开更多
关键词 城市交通 共享单车停车 用户偏好 奖励机制 引导策略
下载PDF
基于终端诱导强化学习的航天器轨道追逃博弈 被引量:6
6
作者 耿远卓 袁利 +1 位作者 黄煌 汤亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. 展开更多
关键词 航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导
下载PDF
考虑奖励机制的电动汽车充电优化引导策略 被引量:2
7
作者 张建宏 赵兴勇 王秀丽 《电网与清洁能源》 CSCD 北大核心 2024年第1期102-108,118,共8页
随着电动汽车(electric vehicle,EV)的大规模推广,其无序充电严重威胁电网的安全稳定运行,积极引导EV用户参与充电优化策略,对于提高电网的安全稳定性具有重要意义。为此,基于充电优化管理调度思路,提出一种考虑奖励机制的EV充电优化引... 随着电动汽车(electric vehicle,EV)的大规模推广,其无序充电严重威胁电网的安全稳定运行,积极引导EV用户参与充电优化策略,对于提高电网的安全稳定性具有重要意义。为此,基于充电优化管理调度思路,提出一种考虑奖励机制的EV充电优化引导策略,在分时电价的基础上,计入用户在降低电网负荷波动中的奖励机制,考虑充电位置固定、不确定用户的出行需求,确定EV的充电时间及充电位置,达到用户满意度最高的目的;利用EV动态响应的实时优化算法,对所提的优化调度模型进行求解。仿真结果验证了所提策略的有效性和可行性,该优化调度策略不仅能有效改善负荷低谷时段集中充电形成新的负荷高峰的问题,而且可明显降低用户的充电成本及电网负荷波动。 展开更多
关键词 电动汽车 充电控制 负荷波动 奖励机制 优化引导策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部