期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度强化学习的工业机器人避障路径规划方法
被引量:
11
1
作者
李文彪
《制造业自动化》
CSCD
北大核心
2022年第1期127-130,共4页
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低。提出基于深度强化学习的工业机器人避障路径规划方法。利用传感器,探测机器人与障碍物和目标点之...
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低。提出基于深度强化学习的工业机器人避障路径规划方法。利用传感器,探测机器人与障碍物和目标点之间的距离方位,构成状态空间,定义机器人避障决策奖赏函数,包括机器人与目标点的方位奖赏、距离奖赏、到达奖赏、每个避障动作奖赏,将状态空间信息输入神经网络,通过深度强化学习,输出下一时刻奖赏值最大的避障动作,形成最优避障路径。选择工厂厂房作为测试环境,改变障碍物数量和位置,布置工业机器人移动的简单场景和复杂场景,实验结果表明,设计方法减少了避障路径规划时间和长度,提高了规划成功率。
展开更多
关键词
深度强化学习
工业机器人
避障路径
距离方位
奖赏
函数
BP神经网络
下载PDF
职称材料
基于深度强化学习的移动机器人视觉图像分级匹配算法
被引量:
2
2
作者
李晓峰
任杰
李东
《吉林大学学报(理学版)》
CAS
北大核心
2023年第1期127-135,共9页
针对传统移动机器人视觉图像分级匹配算法只能完成粗匹配,导致最终匹配精度较低、匹配时间较长等问题,提出一种基于深度强化学习的移动机器人视觉图像分级匹配算法.首先,利用深度强化学习网络结构中的策略网络和价值网络,共同指导浮动...
针对传统移动机器人视觉图像分级匹配算法只能完成粗匹配,导致最终匹配精度较低、匹配时间较长等问题,提出一种基于深度强化学习的移动机器人视觉图像分级匹配算法.首先,利用深度强化学习网络结构中的策略网络和价值网络,共同指导浮动图像按正确方向移至参考图像;其次,在粗匹配过程中通过设计奖赏函数,实现颜色特征粗匹配;最后,在粗匹配基础上,利用改进尺度不变特征变换算法提取待匹配的图像局部特征,按相似度进行移动机器人视觉图像分级匹配.实验结果表明,该算法可有效实现图像的粗匹配与精匹配,在不同视角与尺度情况下特征检测的稳定性均较高,匹配精度高、时间短,匹配后的图像质量较好,提高了移动机器人的实际应用效果.
展开更多
关键词
深度强化学习
移动机器人
视觉图像
粗匹配
精匹配
奖赏
函数
下载PDF
职称材料
基于深度Q网络的海上环境智能路径规划
3
作者
李鹏程
周远国
杨国卿
《电子测量技术》
北大核心
2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研...
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。
展开更多
关键词
改进深度Q网络
海上模拟仿真环境
航海优先级
奖赏
函数
下载PDF
职称材料
基于分层强化学习的机器人自主避障算法仿真
4
作者
安燕霞
郑晓霞
《计算机仿真》
2024年第4期397-401,共5页
智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化...
智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化学习算法的机器人自主避障方法。结合机器人的移动速度、角速度等相关信息,建立运动学模型,分别确立局部和全局坐标系。通过坐标转换,采集机器人和障碍物信息,构建分层强化学习整体架构,分为环境信息交互、子任务选择和根任务协作三个层次。将Q学习方法作为强化学习策略,设定Q函数值更新规则。通过笛卡尔乘积形式表示环境状态信息,选取合理的奖赏函数,提高学习效率,通过赋予Q值最大化的方式控制机器人最佳动作,实现自主避障。实验测试结果验证了上述方法能够精准躲避静态和动态障碍物,计算复杂度较低,可避免陷入局部最优。
展开更多
关键词
机器人
分层强化学习
自主避障
学习策略
奖赏
函数
下载PDF
职称材料
空中传感器网络中负载均衡的地理路由协议
被引量:
1
5
作者
黄鑫权
刘爱军
+1 位作者
梁小虎
王桁
《计算机科学》
CSCD
北大核心
2022年第2期342-352,共11页
针对多跳空中传感器网络(Aerial Sensor Network,ASN)中的负载不均衡问题,提出了强化学习(Reinforcement Learning,RL)理论辅助的队列高效地理路由(Reinforcement-Learning Based Queue-Efficient Geographic Routing,RLQE-GR)协议。RLQ...
针对多跳空中传感器网络(Aerial Sensor Network,ASN)中的负载不均衡问题,提出了强化学习(Reinforcement Learning,RL)理论辅助的队列高效地理路由(Reinforcement-Learning Based Queue-Efficient Geographic Routing,RLQE-GR)协议。RLQE-GR协议首先将ASN路由问题抽象为强化学习(RL)任务,其中每个无人机抽象为一个RL状态,而数据包的每跳成功转发则抽象为一个RL动作。其次,RLQE-GR协议中引入了新的奖赏函数来评估每次动作,该奖赏函数的值不仅与无人机节点地理位置和每跳链路质量相关,而且与无人机节点的可用路由队列长度密切相关。然后,根据所设计的奖赏函数,RLQE-GR协议利用Q函数分布式地更新每个动作的长期累积奖赏值(Q值),并使得每个节点根据本地Q值的大小采用贪婪策略转发数据包。最后,为了使全网的Q值快速收敛且最小化收敛过程中造成的路由性能损失,RLQE-GR采用周期性信标机制对Q值进行迭代更新。当Q值收敛时,RLQE-GR协议能够实现可靠有效的多跳数据传输性能。与现有地理路由协议相比,所提协议在转发数据包的同时考虑了节点之间的相对距离、每跳链路质量和中间节点路由队列利用率。这使得RLQE-GR协议能够在保证路由跳数以及数据包重传次数的限制下,实现ASN的负载均衡。此外,利用强化学习理论,所提协议可以实现近乎最优的路由性能。
展开更多
关键词
空中传感器网络
地理路由协议
强化学习
奖赏
函数
信标机制
下载PDF
职称材料
基于相对熵的元逆强化学习方法
被引量:
2
6
作者
吴少波
傅启明
+2 位作者
陈建平
吴宏杰
陆悠
《计算机科学》
CSCD
北大核心
2021年第9期257-263,共7页
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任...
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提算法与REIRL算法应用于经典的Gridworld和Object World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数。
展开更多
关键词
逆强化学习
元学习
奖赏
函数
相对熵
梯度下降
下载PDF
职称材料
基于行动分值的强化学习与奖赏优化
被引量:
1
7
作者
陈启军
肖云伟
《同济大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2007年第4期531-536,共6页
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提...
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提高学习的性能.以行动分值为基础,使用了指数函数和对数函数,动态确定奖赏值与折扣系数,加快行为者选择最优动作.从走迷宫的计算机仿真程序可以看出,新算法显著减少了行为者在收敛前尝试中执行的动作次数,提高了收敛速度.
展开更多
关键词
强化学习
行动分值
Q算法
奖赏
函数
下载PDF
职称材料
一种多Agent系统频谱接入算法
被引量:
1
8
作者
康俊丽
郭坤祺
+1 位作者
曹亚兰
王思璇
《无线通信技术》
2015年第4期7-12,共6页
针对无线频谱资源日益稀缺,然而某些频段资源的利用率又很低,本文在认知用户进行独立学习的基础上提出一种分布式多Agent动态协作的频谱接入新算法,该算法中各智能体独立进行学习获取自己的Q值并共享,并提出实施协作策略。
关键词
强化学习
Q值
奖赏
函数
信噪比
下载PDF
职称材料
改进Q-Learning的WRSN充电路径规划算法
9
作者
刘洋
王军
吴云鹏
《太赫兹科学与电子信息学报》
2022年第4期393-401,共9页
针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后...
针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后对路径规划问题进行数学建模和目标约束条件设置,将移动充电车抽象为一个智能体(Agent),确定其状态集和动作集,合理改进ε-greedy策略进行动作选择,并选择相关性能参数设计奖赏函数,最后通过迭代学习不断探索状态空间环境,自适应得到最优充电路径。仿真结果证明:该充电路径规划算法能够快速收敛,且与同类型经典算法相比,改进的Q-Learning充电算法在网络寿命、节点平均充电次数和能量利用率等方面具有一定优势。
展开更多
关键词
无线传感器网络
改进Q-Learning
充电路径规划
ε-greedy策略
奖赏
函数
下载PDF
职称材料
一种基于启发式奖赏函数的分层强化学习方法
被引量:
11
10
作者
刘全
闫其粹
+2 位作者
伏玉琛
胡道京
龚声蓉
《计算机研究与发展》
EI
CSCD
北大核心
2011年第12期2352-2358,共7页
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还...
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度.
展开更多
关键词
分层强化学习
试错
启发式
奖赏
函数
俄罗斯方块
“维数灾”
下载PDF
职称材料
题名
基于深度强化学习的工业机器人避障路径规划方法
被引量:
11
1
作者
李文彪
机构
广州华商学院数据科学学院
出处
《制造业自动化》
CSCD
北大核心
2022年第1期127-130,共4页
文摘
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低。提出基于深度强化学习的工业机器人避障路径规划方法。利用传感器,探测机器人与障碍物和目标点之间的距离方位,构成状态空间,定义机器人避障决策奖赏函数,包括机器人与目标点的方位奖赏、距离奖赏、到达奖赏、每个避障动作奖赏,将状态空间信息输入神经网络,通过深度强化学习,输出下一时刻奖赏值最大的避障动作,形成最优避障路径。选择工厂厂房作为测试环境,改变障碍物数量和位置,布置工业机器人移动的简单场景和复杂场景,实验结果表明,设计方法减少了避障路径规划时间和长度,提高了规划成功率。
关键词
深度强化学习
工业机器人
避障路径
距离方位
奖赏
函数
BP神经网络
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于深度强化学习的移动机器人视觉图像分级匹配算法
被引量:
2
2
作者
李晓峰
任杰
李东
机构
黑龙江外国语学院信息工程系
哈尔滨体育学院体育教育训练学院
哈尔滨工业大学计算机科学与技术学院
出处
《吉林大学学报(理学版)》
CAS
北大核心
2023年第1期127-135,共9页
基金
黑龙江省自然科学基金(批准号:LH2021F040)。
文摘
针对传统移动机器人视觉图像分级匹配算法只能完成粗匹配,导致最终匹配精度较低、匹配时间较长等问题,提出一种基于深度强化学习的移动机器人视觉图像分级匹配算法.首先,利用深度强化学习网络结构中的策略网络和价值网络,共同指导浮动图像按正确方向移至参考图像;其次,在粗匹配过程中通过设计奖赏函数,实现颜色特征粗匹配;最后,在粗匹配基础上,利用改进尺度不变特征变换算法提取待匹配的图像局部特征,按相似度进行移动机器人视觉图像分级匹配.实验结果表明,该算法可有效实现图像的粗匹配与精匹配,在不同视角与尺度情况下特征检测的稳定性均较高,匹配精度高、时间短,匹配后的图像质量较好,提高了移动机器人的实际应用效果.
关键词
深度强化学习
移动机器人
视觉图像
粗匹配
精匹配
奖赏
函数
Keywords
deep reinforcement learning
mobile robot
visual image
coarse matching
fine matching
reward function
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于深度Q网络的海上环境智能路径规划
3
作者
李鹏程
周远国
杨国卿
机构
西安科技大学通信与信息工程学院
杭州电子科技大学电子信息学院
出处
《电子测量技术》
北大核心
2024年第5期77-84,共8页
基金
国家自然科学基金(61801009)
陕西省自然科学基金面上项目(2024JC-YBMS-556)资助。
文摘
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。
关键词
改进深度Q网络
海上模拟仿真环境
航海优先级
奖赏
函数
Keywords
improved deep Q-Network
maritime simulation environment
navigational priority
reward function
分类号
TP242.6 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于分层强化学习的机器人自主避障算法仿真
4
作者
安燕霞
郑晓霞
机构
晋中信息学院智能工程学院
太原理工大学航空航天学院
出处
《计算机仿真》
2024年第4期397-401,共5页
基金
山西省“1331工程”资助,山西省2021年教改课题(J2021952)
山西省十四五规划课题(GH-220338)。
文摘
智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化学习算法的机器人自主避障方法。结合机器人的移动速度、角速度等相关信息,建立运动学模型,分别确立局部和全局坐标系。通过坐标转换,采集机器人和障碍物信息,构建分层强化学习整体架构,分为环境信息交互、子任务选择和根任务协作三个层次。将Q学习方法作为强化学习策略,设定Q函数值更新规则。通过笛卡尔乘积形式表示环境状态信息,选取合理的奖赏函数,提高学习效率,通过赋予Q值最大化的方式控制机器人最佳动作,实现自主避障。实验测试结果验证了上述方法能够精准躲避静态和动态障碍物,计算复杂度较低,可避免陷入局部最优。
关键词
机器人
分层强化学习
自主避障
学习策略
奖赏
函数
Keywords
Robot
Hierarchical reinforcement learning
Autonomous obstacle avoidance
Learning strategies
Reward function
分类号
TP27 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
空中传感器网络中负载均衡的地理路由协议
被引量:
1
5
作者
黄鑫权
刘爱军
梁小虎
王桁
机构
陆军工程大学通信工程学院天基信息系统教研室
出处
《计算机科学》
CSCD
北大核心
2022年第2期342-352,共11页
基金
国家自然科学基金(61671476,61901516)
江苏省自然科学基金(BK20180578)
中国博士后科学基金(2019M651648)。
文摘
针对多跳空中传感器网络(Aerial Sensor Network,ASN)中的负载不均衡问题,提出了强化学习(Reinforcement Learning,RL)理论辅助的队列高效地理路由(Reinforcement-Learning Based Queue-Efficient Geographic Routing,RLQE-GR)协议。RLQE-GR协议首先将ASN路由问题抽象为强化学习(RL)任务,其中每个无人机抽象为一个RL状态,而数据包的每跳成功转发则抽象为一个RL动作。其次,RLQE-GR协议中引入了新的奖赏函数来评估每次动作,该奖赏函数的值不仅与无人机节点地理位置和每跳链路质量相关,而且与无人机节点的可用路由队列长度密切相关。然后,根据所设计的奖赏函数,RLQE-GR协议利用Q函数分布式地更新每个动作的长期累积奖赏值(Q值),并使得每个节点根据本地Q值的大小采用贪婪策略转发数据包。最后,为了使全网的Q值快速收敛且最小化收敛过程中造成的路由性能损失,RLQE-GR采用周期性信标机制对Q值进行迭代更新。当Q值收敛时,RLQE-GR协议能够实现可靠有效的多跳数据传输性能。与现有地理路由协议相比,所提协议在转发数据包的同时考虑了节点之间的相对距离、每跳链路质量和中间节点路由队列利用率。这使得RLQE-GR协议能够在保证路由跳数以及数据包重传次数的限制下,实现ASN的负载均衡。此外,利用强化学习理论,所提协议可以实现近乎最优的路由性能。
关键词
空中传感器网络
地理路由协议
强化学习
奖赏
函数
信标机制
Keywords
Aerial sensor network
Geographic routing protocol
Reinforcement learning
Reward function
Beacon mechanism
分类号
TN915.04 [电子电信—通信与信息系统]
TP212.9 [电子电信—信息与通信工程]
下载PDF
职称材料
题名
基于相对熵的元逆强化学习方法
被引量:
2
6
作者
吴少波
傅启明
陈建平
吴宏杰
陆悠
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
出处
《计算机科学》
CSCD
北大核心
2021年第9期257-263,共7页
基金
国家自然科学基金项目(61876217,61876121,61772357,61750110519,61772355,61702055,61672371)
江苏省重点研发计划项目(BE2017663)。
文摘
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提算法与REIRL算法应用于经典的Gridworld和Object World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数。
关键词
逆强化学习
元学习
奖赏
函数
相对熵
梯度下降
Keywords
Inverse reinforcement learning
Meta-learning
Reward function
Relative entropy
Gradient decent
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于行动分值的强化学习与奖赏优化
被引量:
1
7
作者
陈启军
肖云伟
机构
同济大学控制科学与工程系
出处
《同济大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2007年第4期531-536,共6页
基金
国家自然科学基金资助项目(60643001)
教育部新世纪优秀人才计划和上海市曙光计划项目(04SG22)
文摘
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提高学习的性能.以行动分值为基础,使用了指数函数和对数函数,动态确定奖赏值与折扣系数,加快行为者选择最优动作.从走迷宫的计算机仿真程序可以看出,新算法显著减少了行为者在收敛前尝试中执行的动作次数,提高了收敛速度.
关键词
强化学习
行动分值
Q算法
奖赏
函数
Keywords
reinforcement learning
action values
Q algorithm
reward functions
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种多Agent系统频谱接入算法
被引量:
1
8
作者
康俊丽
郭坤祺
曹亚兰
王思璇
机构
江苏大学计算机科学与通信工程学院
出处
《无线通信技术》
2015年第4期7-12,共6页
文摘
针对无线频谱资源日益稀缺,然而某些频段资源的利用率又很低,本文在认知用户进行独立学习的基础上提出一种分布式多Agent动态协作的频谱接入新算法,该算法中各智能体独立进行学习获取自己的Q值并共享,并提出实施协作策略。
关键词
强化学习
Q值
奖赏
函数
信噪比
Keywords
reinforcement learning
Q value
reward function
signal to noise ratio
分类号
TN929.5 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
改进Q-Learning的WRSN充电路径规划算法
9
作者
刘洋
王军
吴云鹏
机构
苏州科技大学电子与信息工程学院
中国科学院长春光学精密机械与物理研究所
出处
《太赫兹科学与电子信息学报》
2022年第4期393-401,共9页
基金
江苏省研究生科研创新资助项目(KYCX17_2060)
近地面探测技术重点实验室资助项目(TCGZ2018A005)
文摘
针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Learning的无线可充电传感器网络的充电路径规划算法。基站根据网络内各节点能耗信息进行充电任务调度,之后对路径规划问题进行数学建模和目标约束条件设置,将移动充电车抽象为一个智能体(Agent),确定其状态集和动作集,合理改进ε-greedy策略进行动作选择,并选择相关性能参数设计奖赏函数,最后通过迭代学习不断探索状态空间环境,自适应得到最优充电路径。仿真结果证明:该充电路径规划算法能够快速收敛,且与同类型经典算法相比,改进的Q-Learning充电算法在网络寿命、节点平均充电次数和能量利用率等方面具有一定优势。
关键词
无线传感器网络
改进Q-Learning
充电路径规划
ε-greedy策略
奖赏
函数
Keywords
Wireless Sensor Network
improved Q-Learning
charging path planning
ε-greedy strategy
reward function
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于启发式奖赏函数的分层强化学习方法
被引量:
11
10
作者
刘全
闫其粹
伏玉琛
胡道京
龚声蓉
机构
苏州大学计算机科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第12期2352-2358,共7页
基金
国家自然科学基金项目(60873116
61070223
+4 种基金
61070122)
江苏省自然科学基金项目(BK2008161
BK2009116)
江苏省高校自然科学研究基金项目(09KJA520002)
江苏省现代企业信息化应用支撑软件工程技术研究开发中心基金项目(SX200804)
文摘
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度.
关键词
分层强化学习
试错
启发式
奖赏
函数
俄罗斯方块
“维数灾”
Keywords
hierarchical reinforcement learning
trial-and-error
heuristic reward function
Tetris
curse of dimensionality
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度强化学习的工业机器人避障路径规划方法
李文彪
《制造业自动化》
CSCD
北大核心
2022
11
下载PDF
职称材料
2
基于深度强化学习的移动机器人视觉图像分级匹配算法
李晓峰
任杰
李东
《吉林大学学报(理学版)》
CAS
北大核心
2023
2
下载PDF
职称材料
3
基于深度Q网络的海上环境智能路径规划
李鹏程
周远国
杨国卿
《电子测量技术》
北大核心
2024
0
下载PDF
职称材料
4
基于分层强化学习的机器人自主避障算法仿真
安燕霞
郑晓霞
《计算机仿真》
2024
0
下载PDF
职称材料
5
空中传感器网络中负载均衡的地理路由协议
黄鑫权
刘爱军
梁小虎
王桁
《计算机科学》
CSCD
北大核心
2022
1
下载PDF
职称材料
6
基于相对熵的元逆强化学习方法
吴少波
傅启明
陈建平
吴宏杰
陆悠
《计算机科学》
CSCD
北大核心
2021
2
下载PDF
职称材料
7
基于行动分值的强化学习与奖赏优化
陈启军
肖云伟
《同济大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2007
1
下载PDF
职称材料
8
一种多Agent系统频谱接入算法
康俊丽
郭坤祺
曹亚兰
王思璇
《无线通信技术》
2015
1
下载PDF
职称材料
9
改进Q-Learning的WRSN充电路径规划算法
刘洋
王军
吴云鹏
《太赫兹科学与电子信息学报》
2022
0
下载PDF
职称材料
10
一种基于启发式奖赏函数的分层强化学习方法
刘全
闫其粹
伏玉琛
胡道京
龚声蓉
《计算机研究与发展》
EI
CSCD
北大核心
2011
11
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部