期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度Q网络的海上环境智能路径规划
1
作者
李鹏程
周远国
杨国卿
《电子测量技术》
北大核心
2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研...
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。
展开更多
关键词
改进
深度
q
网络
海上模拟仿真环境
航海优先级
奖赏函数
下载PDF
职称材料
双足机器人步态控制的深度强化学习方法
被引量:
8
2
作者
冯春
张祎伟
+2 位作者
黄成
姜文彪
武之炜
《计算机集成制造系统》
EI
CSCD
北大核心
2021年第8期2341-2349,共9页
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足...
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。
展开更多
关键词
双足机器人
步态控制
深度
强化学习
智能体
操作—评论
改进
深度
q
网络
算法
下载PDF
职称材料
基于改进深度Q网络算法的多园区综合能源系统能量管理方法
被引量:
3
3
作者
薛溟枫
毛晓波
+2 位作者
肖浩
浦骁威
裴玮
《电力建设》
CSCD
北大核心
2022年第12期83-93,共11页
多园区综合能源系统可通过多能互补互济显著提升运行经济性,然而园区之间的复杂互动、多能耦合决策会给多园区综合能源系统的能量管理带来决策空间庞大、算法难以收敛等挑战性问题。为解决上述问题,提出了一种基于改进深度Q网络(modifie...
多园区综合能源系统可通过多能互补互济显著提升运行经济性,然而园区之间的复杂互动、多能耦合决策会给多园区综合能源系统的能量管理带来决策空间庞大、算法难以收敛等挑战性问题。为解决上述问题,提出了一种基于改进深度Q网络(modified deep Q network, MDQN)算法的多园区综合能源系统能量管理方法。首先,采用独立于园区的外部气象数据、历史互动功率数据,构建了基于长短期记忆(long short-term memory, LSTM)深度网络的各园区综合能源系统外部互动环境等值模型,降低了强化学习奖励函数的计算复杂度;其次,提出一种基于k优先采样策略的MDQN算法,用k-优先采样策略来代替ε贪心策略,克服了大规模动作空间中探索效率低下的问题;最后,在含3个园区综合能源系统的算例中进行验证,结果表明MDQN算法相比原DQN算法具有更好的收敛性与稳定性,同时可以提升园区经济效益达29.16%。
展开更多
关键词
园区综合能源系统
深度
强化学习
能量管理
改进
深度
q
网络
(MD
q
N)算法
原文传递
基于改进DQN强化学习算法的弹性光网络资源分配研究
4
作者
尚晓凯
韩龙龙
翟慧鹏
《光通信技术》
2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现...
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。
展开更多
关键词
弹性光
网络
改进
深度
q
网络
强化学习算法
资源分配
下载PDF
职称材料
混合交通流环境下基于改进强化学习的可变限速控制策略
被引量:
3
5
作者
韩磊
张轮
郭为安
《交通运输系统工程与信息》
EI
CSCD
北大核心
2023年第3期110-122,共13页
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控...
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。
展开更多
关键词
智能交通
可变限速控制
改进
竞争双
深度
q
网络
混合交通流
智能网联车辆
深度
强化学习
下载PDF
职称材料
题名
基于深度Q网络的海上环境智能路径规划
1
作者
李鹏程
周远国
杨国卿
机构
西安科技大学通信与信息工程学院
杭州电子科技大学电子信息学院
出处
《电子测量技术》
北大核心
2024年第5期77-84,共8页
基金
国家自然科学基金(61801009)
陕西省自然科学基金面上项目(2024JC-YBMS-556)资助。
文摘
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。
关键词
改进
深度
q
网络
海上模拟仿真环境
航海优先级
奖赏函数
Keywords
improved deep
q
-Network
maritime simulation environment
navigational priority
reward function
分类号
TP242.6 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
双足机器人步态控制的深度强化学习方法
被引量:
8
2
作者
冯春
张祎伟
黄成
姜文彪
武之炜
机构
常州工学院航空与机械工程学院
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2021年第8期2341-2349,共9页
基金
国家自然科学基金青年基金资助项目(11802040)
2018年江苏省青蓝工程优秀青年骨干教师资助项目(A1-5501-19-003)。
文摘
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。
关键词
双足机器人
步态控制
深度
强化学习
智能体
操作—评论
改进
深度
q
网络
算法
Keywords
biped robot
gait control
deep reinforcement learning
agent
actor-critic
improved deep
q
-net algorithm
分类号
TP242.6 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于改进深度Q网络算法的多园区综合能源系统能量管理方法
被引量:
3
3
作者
薛溟枫
毛晓波
肖浩
浦骁威
裴玮
机构
国网江苏省电力有限公司无锡供电分公司
中国科学院电工研究所
出处
《电力建设》
CSCD
北大核心
2022年第12期83-93,共11页
基金
国网江苏省电力有限公司科技项目(J2021058)
国家自然科学基金项目(52177124)。
文摘
多园区综合能源系统可通过多能互补互济显著提升运行经济性,然而园区之间的复杂互动、多能耦合决策会给多园区综合能源系统的能量管理带来决策空间庞大、算法难以收敛等挑战性问题。为解决上述问题,提出了一种基于改进深度Q网络(modified deep Q network, MDQN)算法的多园区综合能源系统能量管理方法。首先,采用独立于园区的外部气象数据、历史互动功率数据,构建了基于长短期记忆(long short-term memory, LSTM)深度网络的各园区综合能源系统外部互动环境等值模型,降低了强化学习奖励函数的计算复杂度;其次,提出一种基于k优先采样策略的MDQN算法,用k-优先采样策略来代替ε贪心策略,克服了大规模动作空间中探索效率低下的问题;最后,在含3个园区综合能源系统的算例中进行验证,结果表明MDQN算法相比原DQN算法具有更好的收敛性与稳定性,同时可以提升园区经济效益达29.16%。
关键词
园区综合能源系统
深度
强化学习
能量管理
改进
深度
q
网络
(MD
q
N)算法
Keywords
park integrated energy system
deep reinforcement learning
energy management
modified deep
q
network(MD
q
N)algorithm
分类号
TM734 [电气工程—电力系统及自动化]
原文传递
题名
基于改进DQN强化学习算法的弹性光网络资源分配研究
4
作者
尚晓凯
韩龙龙
翟慧鹏
机构
国家计算机网络与信息安全管理中心河南分中心
出处
《光通信技术》
2023年第5期12-15,共4页
基金
国家计算机网络与信息安全技术研究专项(242研究计划)(2022Q66)资助
国家自然科学基金项目(批准号:61901159)资助。
文摘
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。
关键词
弹性光
网络
改进
深度
q
网络
强化学习算法
资源分配
Keywords
elastic optical network
improved reinforcement learning algorithm for deep
q
network
resource allocation
分类号
TN929.1 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
混合交通流环境下基于改进强化学习的可变限速控制策略
被引量:
3
5
作者
韩磊
张轮
郭为安
机构
同济大学道路与交通工程教育部重点实验室
同济大学电子与信息工程学院
同济大学中德工程学院
出处
《交通运输系统工程与信息》
EI
CSCD
北大核心
2023年第3期110-122,共13页
基金
国家自然科学基金(71771176,U20A20330)
上海市自然科学基金(20692191200)。
文摘
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。
关键词
智能交通
可变限速控制
改进
竞争双
深度
q
网络
混合交通流
智能网联车辆
深度
强化学习
Keywords
intelligent transportation
variable speed limit control
improved dueling double deep
q
network
mixed traffic flow
connected and automated vehicles
deep reinforcement learning
分类号
U491.4 [交通运输工程—交通运输规划与管理]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度Q网络的海上环境智能路径规划
李鹏程
周远国
杨国卿
《电子测量技术》
北大核心
2024
0
下载PDF
职称材料
2
双足机器人步态控制的深度强化学习方法
冯春
张祎伟
黄成
姜文彪
武之炜
《计算机集成制造系统》
EI
CSCD
北大核心
2021
8
下载PDF
职称材料
3
基于改进深度Q网络算法的多园区综合能源系统能量管理方法
薛溟枫
毛晓波
肖浩
浦骁威
裴玮
《电力建设》
CSCD
北大核心
2022
3
原文传递
4
基于改进DQN强化学习算法的弹性光网络资源分配研究
尚晓凯
韩龙龙
翟慧鹏
《光通信技术》
2023
0
下载PDF
职称材料
5
混合交通流环境下基于改进强化学习的可变限速控制策略
韩磊
张轮
郭为安
《交通运输系统工程与信息》
EI
CSCD
北大核心
2023
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部