期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的工业机器人避障路径规划方法 被引量:11
1
作者 李文彪 《制造业自动化》 CSCD 北大核心 2022年第1期127-130,共4页
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低。提出基于深度强化学习的工业机器人避障路径规划方法。利用传感器,探测机器人与障碍物和目标点之... 常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低。提出基于深度强化学习的工业机器人避障路径规划方法。利用传感器,探测机器人与障碍物和目标点之间的距离方位,构成状态空间,定义机器人避障决策奖赏函数,包括机器人与目标点的方位奖赏、距离奖赏、到达奖赏、每个避障动作奖赏,将状态空间信息输入神经网络,通过深度强化学习,输出下一时刻奖赏值最大的避障动作,形成最优避障路径。选择工厂厂房作为测试环境,改变障碍物数量和位置,布置工业机器人移动的简单场景和复杂场景,实验结果表明,设计方法减少了避障路径规划时间和长度,提高了规划成功率。 展开更多
关键词 深度强化学习 工业机器人 避障路径 距离方位 奖赏函数 BP神经网络
下载PDF
基于深度强化学习的移动机器人视觉图像分级匹配算法 被引量:2
2
作者 李晓峰 任杰 李东 《吉林大学学报(理学版)》 CAS 北大核心 2023年第1期127-135,共9页
针对传统移动机器人视觉图像分级匹配算法只能完成粗匹配,导致最终匹配精度较低、匹配时间较长等问题,提出一种基于深度强化学习的移动机器人视觉图像分级匹配算法.首先,利用深度强化学习网络结构中的策略网络和价值网络,共同指导浮动... 针对传统移动机器人视觉图像分级匹配算法只能完成粗匹配,导致最终匹配精度较低、匹配时间较长等问题,提出一种基于深度强化学习的移动机器人视觉图像分级匹配算法.首先,利用深度强化学习网络结构中的策略网络和价值网络,共同指导浮动图像按正确方向移至参考图像;其次,在粗匹配过程中通过设计奖赏函数,实现颜色特征粗匹配;最后,在粗匹配基础上,利用改进尺度不变特征变换算法提取待匹配的图像局部特征,按相似度进行移动机器人视觉图像分级匹配.实验结果表明,该算法可有效实现图像的粗匹配与精匹配,在不同视角与尺度情况下特征检测的稳定性均较高,匹配精度高、时间短,匹配后的图像质量较好,提高了移动机器人的实际应用效果. 展开更多
关键词 深度强化学习 移动机器人 视觉图像 粗匹配 精匹配 奖赏函数
下载PDF
基于深度Q网络的海上环境智能路径规划
3
作者 李鹏程 周远国 杨国卿 《电子测量技术》 北大核心 2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研... 深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。 展开更多
关键词 改进深度Q网络 海上模拟仿真环境 航海优先级 奖赏函数
下载PDF
基于分层强化学习的机器人自主避障算法仿真
4
作者 安燕霞 郑晓霞 《计算机仿真》 2024年第4期397-401,共5页
智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化... 智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化学习算法的机器人自主避障方法。结合机器人的移动速度、角速度等相关信息,建立运动学模型,分别确立局部和全局坐标系。通过坐标转换,采集机器人和障碍物信息,构建分层强化学习整体架构,分为环境信息交互、子任务选择和根任务协作三个层次。将Q学习方法作为强化学习策略,设定Q函数值更新规则。通过笛卡尔乘积形式表示环境状态信息,选取合理的奖赏函数,提高学习效率,通过赋予Q值最大化的方式控制机器人最佳动作,实现自主避障。实验测试结果验证了上述方法能够精准躲避静态和动态障碍物,计算复杂度较低,可避免陷入局部最优。 展开更多
关键词 机器人 分层强化学习 自主避障 学习策略 奖赏函数
下载PDF
空中传感器网络中负载均衡的地理路由协议 被引量:1
5
作者 黄鑫权 刘爱军 +1 位作者 梁小虎 王桁 《计算机科学》 CSCD 北大核心 2022年第2期342-352,共11页
针对多跳空中传感器网络(Aerial Sensor Network,ASN)中的负载不均衡问题,提出了强化学习(Reinforcement Learning,RL)理论辅助的队列高效地理路由(Reinforcement-Learning Based Queue-Efficient Geographic Routing,RLQE-GR)协议。RLQ... 针对多跳空中传感器网络(Aerial Sensor Network,ASN)中的负载不均衡问题,提出了强化学习(Reinforcement Learning,RL)理论辅助的队列高效地理路由(Reinforcement-Learning Based Queue-Efficient Geographic Routing,RLQE-GR)协议。RLQE-GR协议首先将ASN路由问题抽象为强化学习(RL)任务,其中每个无人机抽象为一个RL状态,而数据包的每跳成功转发则抽象为一个RL动作。其次,RLQE-GR协议中引入了新的奖赏函数来评估每次动作,该奖赏函数的值不仅与无人机节点地理位置和每跳链路质量相关,而且与无人机节点的可用路由队列长度密切相关。然后,根据所设计的奖赏函数,RLQE-GR协议利用Q函数分布式地更新每个动作的长期累积奖赏值(Q值),并使得每个节点根据本地Q值的大小采用贪婪策略转发数据包。最后,为了使全网的Q值快速收敛且最小化收敛过程中造成的路由性能损失,RLQE-GR采用周期性信标机制对Q值进行迭代更新。当Q值收敛时,RLQE-GR协议能够实现可靠有效的多跳数据传输性能。与现有地理路由协议相比,所提协议在转发数据包的同时考虑了节点之间的相对距离、每跳链路质量和中间节点路由队列利用率。这使得RLQE-GR协议能够在保证路由跳数以及数据包重传次数的限制下,实现ASN的负载均衡。此外,利用强化学习理论,所提协议可以实现近乎最优的路由性能。 展开更多
关键词 空中传感器网络 地理路由协议 强化学习 奖赏函数 信标机制
下载PDF
基于相对熵的元逆强化学习方法 被引量:2
6
作者 吴少波 傅启明 +2 位作者 陈建平 吴宏杰 陆悠 《计算机科学》 CSCD 北大核心 2021年第9期257-263,共7页
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任... 针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提算法与REIRL算法应用于经典的Gridworld和Object World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数。 展开更多
关键词 逆强化学习 元学习 奖赏函数 相对熵 梯度下降
下载PDF
基于行动分值的强化学习与奖赏优化 被引量:1
7
作者 陈启军 肖云伟 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第4期531-536,共6页
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提... 针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提高学习的性能.以行动分值为基础,使用了指数函数和对数函数,动态确定奖赏值与折扣系数,加快行为者选择最优动作.从走迷宫的计算机仿真程序可以看出,新算法显著减少了行为者在收敛前尝试中执行的动作次数,提高了收敛速度. 展开更多
关键词 强化学习 行动分值 Q算法 奖赏函数
下载PDF
一种多Agent系统频谱接入算法 被引量:1
8
作者 康俊丽 郭坤祺 +1 位作者 曹亚兰 王思璇 《无线通信技术》 2015年第4期7-12,共6页
针对无线频谱资源日益稀缺,然而某些频段资源的利用率又很低,本文在认知用户进行独立学习的基础上提出一种分布式多Agent动态协作的频谱接入新算法,该算法中各智能体独立进行学习获取自己的Q值并共享,并提出实施协作策略。
关键词 强化学习 Q值 奖赏函数 信噪比
下载PDF
改进Q-Learning的WRSN充电路径规划算法
9
作者 刘洋 王军 吴云鹏 《太赫兹科学与电子信息学报》 2022年第4期393-401,共9页
针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后... 针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后对路径规划问题进行数学建模和目标约束条件设置,将移动充电车抽象为一个智能体(Agent),确定其状态集和动作集,合理改进ε-greedy策略进行动作选择,并选择相关性能参数设计奖赏函数,最后通过迭代学习不断探索状态空间环境,自适应得到最优充电路径。仿真结果证明:该充电路径规划算法能够快速收敛,且与同类型经典算法相比,改进的Q-Learning充电算法在网络寿命、节点平均充电次数和能量利用率等方面具有一定优势。 展开更多
关键词 无线传感器网络 改进Q-Learning 充电路径规划 ε-greedy策略 奖赏函数
下载PDF
一种基于启发式奖赏函数的分层强化学习方法 被引量:11
10
作者 刘全 闫其粹 +2 位作者 伏玉琛 胡道京 龚声蓉 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2352-2358,共7页
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还... 针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度. 展开更多
关键词 分层强化学习 试错 启发式奖赏函数 俄罗斯方块 “维数灾”
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部