检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到7篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于强化学习的多段连续体机器人轨迹规划: 1; 作者刘宜成杨迦凌 +1 位作者梁斌陈章《电子测量技术》北大核心 2024年第5期61-69,共9页; 针对多段连续体机器人的轨迹规划问题,提出了一种基于深度确定性策略梯度强化学习的轨迹规划算法。首先,基于分段常曲率假设方法,建立连续体机器人的关节角速度和末端位姿的正向运动学模型。然后,采用强化学习算法,将机械臂的当前位姿... 展开更多; 关键词连续体机器人轨迹规划强化学习位姿控制奖励引导; 下载PDF 职称材料

基于深度强化学习的无人驾驶路径规划研究: 2; 作者赵天亮张小俊 +1 位作者张明路陈建文《河北工业大学学报》 CAS 2024年第4期21-30,共10页; 针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时出现收敛不稳定、学习效率低等问题,提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG_DDPG)算法。该算法在回合内创建优秀... 展开更多; 关键词智能汽车无人驾驶路径规划深度确定性策略梯度奖励指导; 下载PDF 职称材料

改进深度确定性策略梯度的决策算法研究被引量：1: 3; 作者陈建文张小俊张明路《汽车实用技术》 2022年第1期28-31,共4页; 为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深... 展开更多; 关键词路径规划决策控制深度确定性策略梯度奖励指导优先经验回放; 下载PDF 职称材料

基于强化学习的艾灸机器人温度控制策略研究被引量：1: 4; 作者张博黄山 +2 位作者张浛芮李应昆涂海燕《电子测量技术》北大核心 2022年第24期60-66,共7页; 针对传统PID控制算法在艾灸机器人温度控制中存在参数辨识复杂、适应性差等问题,将强化学习引入到艾灸机器人温控领域中,提出了一种改进强化学习算法。首先,通过多物理场仿真软件和神经网络联合搭建智能体离线训练仿真环境,以解决智能... 展开更多; 关键词艾灸机器人温度控制强化学习奖励引导余弦退火; 下载PDF 职称材料

考虑用户偏好的奖励机制下共享单车分流停车引导策略研究: 5; 作者彭芃贾顺平《山东科学》 CAS 2022年第6期123-130,共8页; 为缓解共享单车停车空间不足导致的乱停乱放问题,提出共享单车停车分流引导策略,并根据用户行为选择设置相应的奖励措施。设计叙述性偏好问卷调查,获取用户行为选择偏好数据,运用Logit模型进行分析并构建激励共享单车用户分流停车的奖... 展开更多; 关键词城市交通共享单车停车用户偏好奖励机制引导策略; 下载PDF 职称材料

基于终端诱导强化学习的航天器轨道追逃博弈被引量：6: 6; 作者耿远卓袁利 +1 位作者黄煌汤亮《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页; 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 展开更多; 关键词航天器追逃智能博弈近端策略优化奖励函数设计终端诱导; 下载PDF 职称材料

考虑奖励机制的电动汽车充电优化引导策略被引量：2: 7; 作者张建宏赵兴勇王秀丽《电网与清洁能源》 CSCD 北大核心 2024年第1期102-108,118,共8页; 随着电动汽车(electric vehicle,EV)的大规模推广,其无序充电严重威胁电网的安全稳定运行,积极引导EV用户参与充电优化策略,对于提高电网的安全稳定性具有重要意义。为此,基于充电优化管理调度思路,提出一种考虑奖励机制的EV充电优化引... 展开更多; 关键词电动汽车充电控制负荷波动奖励机制优化引导策略; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部