期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于Multi-Agent的区域交通协调控制研究 被引量:9
1
作者 张辉 陈阳舟 +1 位作者 杨玉珍 李世伟 《交通与计算机》 2006年第2期94-98,共5页
提出了一种基于M u lti-A gen t的区域交通协调控制系统。系统针对路网中各交叉口交通流相互影响的特点,构造了一种基于分布权值函数的分布式Q学习算法,采用此算法实现了M u lti-A gen t的学习以及协调机制。通过各A gen t间的协调控制... 提出了一种基于M u lti-A gen t的区域交通协调控制系统。系统针对路网中各交叉口交通流相互影响的特点,构造了一种基于分布权值函数的分布式Q学习算法,采用此算法实现了M u lti-A gen t的学习以及协调机制。通过各A gen t间的协调控制来协调相邻交叉口处的控制信号,从而消除路网中的交通拥塞。最后利用微观交通仿真软件Param ics对控制算法进行了仿真研究,仿真结果表明了控制算法的有效性。 展开更多
关键词 MULTI—AGENT 协调控制 分布式q学习
下载PDF
基于分布式Q学习的区域交通协调控制的研究 被引量:8
2
作者 张辉 杨玉珍 +1 位作者 李振龙 陈阳舟 《武汉理工大学学报(交通科学与工程版)》 2007年第6期1121-1124,共4页
介绍了强化学习和分布式Q学习的基本思想,并将分布式Q学习应用到区域交通协调控制中,通过对其进行研究和分析,提出一种适合于区域交通协调控制的奖惩函数和权值函数.在微观交通仿真软件Paramics上对控制算法进行仿真实验,实验结果说明... 介绍了强化学习和分布式Q学习的基本思想,并将分布式Q学习应用到区域交通协调控制中,通过对其进行研究和分析,提出一种适合于区域交通协调控制的奖惩函数和权值函数.在微观交通仿真软件Paramics上对控制算法进行仿真实验,实验结果说明基于分布式Q学习的区域交通协调控制算法的效果优于传统的定时控制,从而也验证了奖惩函数以及权值函数的有效性. 展开更多
关键词 分布式q学习 奖惩函数 权值函数 协调控制
下载PDF
基于多智能体强化学习的多部件系统维修优化
3
作者 周一帆 郭凯 李帮诚 《长沙理工大学学报(自然科学版)》 CAS 2023年第2期27-34,共8页
【目的】研究多智能体强化学习算法用于多部件生产系统维修优化的有效性,及维修优化领域知识用于强化学习的可行性。【方法】将生产系统的维修决策建模为马尔可夫决策过程(Markov decision process,MDP),并采用一种基于奖励塑造的分布式... 【目的】研究多智能体强化学习算法用于多部件生产系统维修优化的有效性,及维修优化领域知识用于强化学习的可行性。【方法】将生产系统的维修决策建模为马尔可夫决策过程(Markov decision process,MDP),并采用一种基于奖励塑造的分布式Q学习(shaped reward distributed Q-learning,SR-DQL)算法对其进行求解。通过对智能体的设计和奖励塑造,把维修优化的领域知识应用于强化学习中。【结果】使用包含5个生产单元和4个缓冲库存的生产系统对本文所提出的SR-DQL算法进行验证。相较于Q学习算法,SRDQL算法能够提升6%的平均收益。此外,由该算法计算得到的平均收益也比由分布式Q学习算法和深度强化学习算法计算得到的大。【结论】多智能体强化学习能有效处理大规模生产系统的维修优化问题,添加奖励塑造可以提升算法性能,并得到更优的维修策略。 展开更多
关键词 多部件生产系统 奖励塑造 分布式q学习 多智能体强化学习 深度强化学习
下载PDF
机器类通信中集中式与分布式Q学习的资源分配算法研究
4
作者 余云河 孙君 《电信科学》 2021年第11期41-50,共10页
针对海量机器类通信(massive machine type communication,mMTC)场景,以最大化系统吞吐量为目标,且在保证部分机器类通信设备(machine type communication device,MTCD)的服务质量(quality of service,QoS)要求前提下,提出两种基于Q学... 针对海量机器类通信(massive machine type communication,mMTC)场景,以最大化系统吞吐量为目标,且在保证部分机器类通信设备(machine type communication device,MTCD)的服务质量(quality of service,QoS)要求前提下,提出两种基于Q学习的资源分配算法:集中式Q学习算法(team-Q)和分布式Q学习算法(dis-Q)。首先基于余弦相似度(cosine similarity,CS)聚类算法,考虑到MTCD地理位置和多级别QoS要求,构造代表MTCD和数据聚合器(data aggregator,DA)的多维向量,根据向量间CS值完成分组。然后分别利用team-Q学习算法和dis-Q学习算法为MTCD分配资源块(resource block,RB)和功率。吞吐量性能上,team-Q和dis-Q算法相较于动态资源分配算法、贪婪算法分别平均提高了16%、23%;复杂度性能上,dis-Q算法仅为team-Q算法的25%及以下,收敛速度则提高了近40%。 展开更多
关键词 资源分配 集中式q学习 分布式q学习 余弦相似度 多维向量
下载PDF
共享经验分布式Q-学习模型在RoboCup中的应用 被引量:1
5
作者 张煌辉 陈焕文 +1 位作者 刘泽文 陈哲平 《微计算机信息》 2010年第8期25-26,共2页
RoboCup仿真比赛平台提供了一个完全分布式控制、实时异步多智能体的环境,从而为多智能体的智能控制和人工智能理论的研究提供了绝佳的实验平台。文中提出了一种基于共享经验策略的分布式Q-学习模型,应用于RoboCup仿真实验中,取得了较... RoboCup仿真比赛平台提供了一个完全分布式控制、实时异步多智能体的环境,从而为多智能体的智能控制和人工智能理论的研究提供了绝佳的实验平台。文中提出了一种基于共享经验策略的分布式Q-学习模型,应用于RoboCup仿真实验中,取得了较好的效果。 展开更多
关键词 共享经验 分布式q-学习 多智能体 ROBOCUP
下载PDF
异构网络中基于强化学习的通信-计算资源联合分配算法
6
作者 李丽妍 李学华 +1 位作者 陈硕 孙立新 《电讯技术》 北大核心 2024年第8期1266-1274,共9页
基于强化学习(Reinforcement Learning,RL),在保证用户服务质量(Quality of Service,QoS)的前提下,研究了人机物混合接入的异构网络中通信-计算资源联合分配算法。建立了一种新型人机物混合接入的异构网络拓扑结构。在最小服务质量需求... 基于强化学习(Reinforcement Learning,RL),在保证用户服务质量(Quality of Service,QoS)的前提下,研究了人机物混合接入的异构网络中通信-计算资源联合分配算法。建立了一种新型人机物混合接入的异构网络拓扑结构。在最小服务质量需求、无人机(Unmanned Aerial Vehicle,UAV)传输功率等限制条件下,将信道分配、功率分配和计算资源联合分配问题建模为最小化系统时延和能耗的多目标优化问题。基于强化学习理论和多智能体马尔可夫决策过程,提出一种分布式Q学习通信-计算资源联合分配(Distributed Q-learning Communication and Computing joint Resources Allocation,DQ-CCRA)算法。该算法与现有算法相比,不仅能够降低人类型设备对物类型设备的干扰,还能有效减小系统时延和能耗,将系统总开销降低7.4%。 展开更多
关键词 异构网络 人机物混合接入 资源分配 分布式q学习 多无人机通信
下载PDF
Distributional Reinforcement Learning with Quantum Neural Networks
7
作者 Wei Hu James Hu 《Intelligent Control and Automation》 2019年第2期63-78,共16页
Traditional reinforcement learning (RL) uses the return, also known as the expected value of cumulative random rewards, for training an agent to learn an optimal policy. However, recent research indicates that learnin... Traditional reinforcement learning (RL) uses the return, also known as the expected value of cumulative random rewards, for training an agent to learn an optimal policy. However, recent research indicates that learning the distribution over returns has distinct advantages over learning their expected value as seen in different RL tasks. The shift from using the expectation of returns in traditional RL to the distribution over returns in distributional RL has provided new insights into the dynamics of RL. This paper builds on our recent work investigating the quantum approach towards RL. Our work implements the quantile regression (QR) distributional Q learning with a quantum neural network. This quantum network is evaluated in a grid world environment with a different number of quantiles, illustrating its detailed influence on the learning of the algorithm. It is also compared to the standard quantum Q learning in a Markov Decision Process (MDP) chain, which demonstrates that the quantum QR distributional Q learning can explore the environment more efficiently than the standard quantum Q learning. Efficient exploration and balancing of exploitation and exploration are major challenges in RL. Previous work has shown that more informative actions can be taken with a distributional perspective. Our findings suggest another cause for its success: the enhanced performance of distributional RL can be partially attributed to its superior ability to efficiently explore the environment. 展开更多
关键词 Continuous-Variable qUANTUM Computers qUANTUM REINFORCEMENT learning distributional REINFORCEMENT learning qUANTILE Regression distributional q learning Grid World ENVIRONMENT MDP Chain ENVIRONMENT
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部