期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的交通信号控制方法 被引量:27
1
作者 孙浩 陈春林 +1 位作者 刘琼 赵佳宝 《计算机科学》 CSCD 北大核心 2020年第2期169-174,共6页
交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实... 交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。 展开更多
关键词 智能交通 交通信号控制 深度强化学习 分布式强化学习
下载PDF
多智能体系统中的分布式强化学习研究现状 被引量:12
2
作者 仲宇 顾国昌 张汝波 《控制理论与应用》 EI CAS CSCD 北大核心 2003年第3期317-322,共6页
对目前世界上分布式强化学习方法的研究成果加以总结,分析比较了独立强化学习、社会强化学习和群体强化学习三类分布式强化学习方法的特点、差别和适用范围,并对分布式强化学习仍需解决的问题和未来的发展方向进行了探讨。
关键词 多智能体系统 分布式强化学习 机器学习 人工智能 瞬时差分算法
下载PDF
一种新的多智能体强化学习算法及其在多机器人协作任务中的应用 被引量:7
3
作者 顾国昌 仲宇 张汝波 《机器人》 EI CSCD 北大核心 2003年第4期344-348,362,共6页
在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的... 在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数 ,并应用于多机器人协作任务之中 .实验结果表明 ,基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略 . 展开更多
关键词 分布式强化学习 加速算法 多智能体系统
下载PDF
基于分布式多步回溯Q(λ)学习的复杂电网最优潮流算法 被引量:11
4
作者 余涛 刘靖 胡细兵 《电工技术学报》 EI CSCD 北大核心 2012年第4期185-192,共8页
针对传统最优潮流算法对复杂多目标函数的不适应性以及常规算法难以满足大规模电网计算实时性的要求,本文中提出一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无须对最优潮流数学模型进行辅助处理,不依赖于对象模型... 针对传统最优潮流算法对复杂多目标函数的不适应性以及常规算法难以满足大规模电网计算实时性的要求,本文中提出一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无须对最优潮流数学模型进行辅助处理,不依赖于对象模型,其内部各Agent使用标准的多步Q(λ)算法独立承担各分区子系统的学习任务,通过统一协作从而形成整体意义上的最优,并在IEEE 118节点等标准算例中进行了验证,取得了良好的效果,为解决复杂电网多目标最优潮流问题提供了一种新的可行、有效的方法。 展开更多
关键词 最优潮流 Q(λ)学习 多目标优化 分布式强化学习
下载PDF
一种基于分布式强化学习的多智能体协调方法 被引量:5
5
作者 范波 潘泉 张洪才 《计算机仿真》 CSCD 2005年第6期115-117,151,共4页
多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强... 多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在RobotSoccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。 展开更多
关键词 多智能体系统 分布式强化学习 多智能体协调
下载PDF
分布式强化学习系统的体系结构研究 被引量:5
6
作者 仲宇 张汝波 顾国昌 《计算机工程与应用》 CSCD 北大核心 2003年第11期111-113,共3页
强化学习是一种重要的机器学习方法,随着计算机网络和分布式处理技术的飞速发展,多智能体系统中的分布式强化学习方法正受到越来越多的关注。论文将目前已有的各种分布式强化学习方法总结为中央强化学习、独立强化学习、群体强化学习、... 强化学习是一种重要的机器学习方法,随着计算机网络和分布式处理技术的飞速发展,多智能体系统中的分布式强化学习方法正受到越来越多的关注。论文将目前已有的各种分布式强化学习方法总结为中央强化学习、独立强化学习、群体强化学习、社会强化学习四类,然后探讨了这四类分布式强化学习方法的体系结构框架,并给出了这四类分布式强化学习方法的形式化定义。 展开更多
关键词 分布式强化学习 多智能体系统 机器学习
下载PDF
面向执行-学习者的在线强化学习并行训练方法 被引量:2
7
作者 孙正伦 乔鹏 +2 位作者 窦勇 李青青 李荣春 《计算机学报》 EI CAS CSCD 北大核心 2023年第2期229-243,共15页
近年来,深度强化学习(Deep Reinforcement Learning,DRL)已经成为了人工智能领域中的研究热点.为了加速DRL训练,人们提出了分布式强化学习方法用于提升训练速度.目前分布式强化学习可以分为同策略方法、异策略方法以及最新的近同策略方... 近年来,深度强化学习(Deep Reinforcement Learning,DRL)已经成为了人工智能领域中的研究热点.为了加速DRL训练,人们提出了分布式强化学习方法用于提升训练速度.目前分布式强化学习可以分为同策略方法、异策略方法以及最新的近同策略方法.近同策略方法改善了同策略方法和异策略方法的问题,但是由于其共享内存并行模型的限制,近同策略模型难以扩展到以网络互连的计算集群上,低可扩展性限制了近同策略方法能够利用的资源数量,增加了计算节点的负载,最终导致训练耗时增加.为了提升近同策略方法的可扩展性,提升收敛速度,本文提出了一种以消息传递为基础,使用Gossip算法与模型融合方法的并行执行者-学习者训练框架(Parallel Actor-Learner Architecture,PALA),这一方法通过增强训练的并行性和可扩展性来提升收敛速度.首先,该框架以Gossip算法作为通信基础,借助全局数据代理并使用消息传递模型创建了一套可扩展的多个并行单智能体训练方法.其次,为了保证探索-利用的同策略性,维持训练稳定,本文创建了一套可以用于多机之间进行隐式同步的进程锁.其次,本文面向含有CUDA张量的模型数据,提出了一种序列化方法,以保证模型数据能够通过节点间网络传递、聚合.最后,本文使用模型聚合方法对训练进行加速.基于上述优化和改进,PALA训练方法能够将负载均衡地映射到整个计算集群上,减少由于高负载而造成的长等待时间,提升收敛速度.实验表明,相较于之前使用共享内存模式的方法,PALA训练的智能体在达到相同水平时,训练时间缩减了20%以上,同时,PALA还有着较好的可扩展性,PALA可以扩展的硬件资源数量是原有方法的6倍以上.与其他方法相对比,PALA训练的智能体最终策略在几乎所有测试环境中达到了最优水平. 展开更多
关键词 Gossip算法 强化学习 同策略学习 分布式强化学习 并行训练方法
下载PDF
面向多用户动态频谱接入的改进双深度Q网络方法研究
8
作者 何一汕 王永华 +2 位作者 万频 王磊 伍文韬 《广东工业大学学报》 CAS 2023年第4期85-93,共9页
随着移动通信技术的飞速发展,有限的频谱利用资源与大量频谱通信需求之间的矛盾也日益加剧,需要新的智能方法来提高频谱利用率。本文提出了一种基于分布式优先经验池结合双深度Q网络的多用户动态频谱接入方法。通过该方法,次用户可以在... 随着移动通信技术的飞速发展,有限的频谱利用资源与大量频谱通信需求之间的矛盾也日益加剧,需要新的智能方法来提高频谱利用率。本文提出了一种基于分布式优先经验池结合双深度Q网络的多用户动态频谱接入方法。通过该方法,次用户可以在动态变化的认知无线网络环境下根据自己感知信息来不断地学习,选择空闲信道完成频谱接入任务来提高频谱利用率。该方法采用分布式强化学习框架,将每个次用户视为一个智能体,各个智能体采用标准单智能体强化学习方法进行学习以降低底层计算开销。另外,该方法在神经网络训练的基础上加入优先级采样,优化了神经网络的训练效率以帮助次用户选择出最优策略。仿真实验结果表明该方法能提高接入信道时的成功率、降低碰撞率和提升通信速率。 展开更多
关键词 动态频谱接入 分布式强化学习 优先经验池 深度强化学习
下载PDF
频分多址系统分布式强化学习功率控制方法
9
作者 李烨 司轲 《计算机应用研究》 CSCD 北大核心 2023年第12期3772-3777,共6页
近年来,深度强化学习作为一种无模型的资源分配方法被用于解决无线网络中的同信道干扰问题。然而,基于常规经验回放策略的网络难以学习到有价值的经验,导致收敛速度较慢;而人工划定探索步长的方式没有考虑算法在每个训练周期上的学习情... 近年来,深度强化学习作为一种无模型的资源分配方法被用于解决无线网络中的同信道干扰问题。然而,基于常规经验回放策略的网络难以学习到有价值的经验,导致收敛速度较慢;而人工划定探索步长的方式没有考虑算法在每个训练周期上的学习情况,使得对环境的探索存在盲目性,限制了系统频谱效率的提升。对此,提出一种频分多址系统的分布式强化学习功率控制方法,采用优先经验回放策略,鼓励智能体从环境中学习更重要的数据,以加速学习过程;并且设计了一种适用于分布式强化学习、动态调整步长的探索策略,使智能体得以根据自身学习情况探索本地环境,减少人为设定步长带来的盲目性。实验结果表明,相比于现有算法,所提方法加快了收敛速度,提高了移动场景下的同信道干扰抑制能力,在大型网络中具有更高的性能。 展开更多
关键词 分布式强化学习 频分多址系统 功率控制 贪心策略 优先经验回放 动态步长调整
下载PDF
基于分布式强化学习的功率控制算法研究
10
作者 司轲 李烨 《软件工程与应用》 2023年第3期530-542,共13页
强化学习作为一种无模型的控制方法被应用于解决蜂窝网络中的同信道干扰问题。然而,在基于值的强化学习算法中,函数逼近存在误差导致Q值被高估,使算法收敛至次优策略而对信道干扰的抑制性能不佳,且在高频带场景中收敛速度缓慢。对此提... 强化学习作为一种无模型的控制方法被应用于解决蜂窝网络中的同信道干扰问题。然而,在基于值的强化学习算法中,函数逼近存在误差导致Q值被高估,使算法收敛至次优策略而对信道干扰的抑制性能不佳,且在高频带场景中收敛速度缓慢。对此提出一种适用于分布式部署下的控制方法,使用DDQN学习离散策略,以添加三元组批评机制的延迟深度确定性策略梯度算法学习连续策略;使算法对动作价值的估计更准确,以提升算法在不同频带数量场景下对干扰的抑制性能。通过数量的扩展性实验表明了所提算法在不同频带数量场景下,保证更快收敛速度的同时对信道干扰有更好的抑制效果,证明了算法的有效性与扩展性。 展开更多
关键词 分布式强化学习 功率控制 Actor-Critic算法 双重深度Q网络 延迟深度确定性策略梯度
下载PDF
分布式强化学习在经济调度问题中的应用 被引量:2
11
作者 陈晓玉 周佳玲 《控制工程》 CSCD 北大核心 2022年第3期480-485,共6页
研究了智能电网中电力成本函数未知的多区域动态经济调度问题。该问题的目标是配置每个区域在每个时刻的最优发电和购电量,以最小化多个区域的电力成本之和。为了解决电力成本函数未知的多区域动态经济调度问题,提出了基于Q学习的分布... 研究了智能电网中电力成本函数未知的多区域动态经济调度问题。该问题的目标是配置每个区域在每个时刻的最优发电和购电量,以最小化多个区域的电力成本之和。为了解决电力成本函数未知的多区域动态经济调度问题,提出了基于Q学习的分布式强化学习算法。在分布式强化学习算法中,区域之间基于信息交互,协同寻找满足供需平衡的电力分配,同时每个区域建立局部Q函数寻找最优电力组合。数值仿真验证了算法的有效性。 展开更多
关键词 分布式强化学习 智能电网 动态经济调度问题 一致性协议
下载PDF
分布式强化学习在RoboCup中的应用 被引量:1
12
作者 张振文 程显毅 李明 《现代电子技术》 2007年第4期44-46,共3页
强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注。基于主Agent的概念改进了传统的群体强化学习算法,应用于机器人足球(Robocup)仿真实验中,取得了初步结果。
关键词 强化学习 分布式强化学习 AGENT ROBOCUP
下载PDF
计及需求灵活性的地区绿色证书、碳排放权及电力联合交易分析 被引量:4
13
作者 李吉峰 邹楠 +2 位作者 李卫东 吴俊 张明泽 《电网技术》 EI CSCD 北大核心 2023年第8期3164-3173,共10页
通过市场的导向作用,形成不同关联市场之间的合力,促成能源的清洁低碳转型是亟待解决的重要问题。针对当前电–碳–绿证联合市场方面的研究未针对市场参与主体构建可供量化分析的动力学模型,以及求解算法的智能性仍需进一步挖掘等问题,... 通过市场的导向作用,形成不同关联市场之间的合力,促成能源的清洁低碳转型是亟待解决的重要问题。针对当前电–碳–绿证联合市场方面的研究未针对市场参与主体构建可供量化分析的动力学模型,以及求解算法的智能性仍需进一步挖掘等问题,提出了计及需求灵活性的地区绿色证书、碳排放权及电力联合交易分析方法。首先,构建了地区绿色证书、碳排放权及电力的联合交易框架;其次,结合系统动力学理论对传统火电厂商、可再生能源发电厂商以及电力用户负荷聚合商等市场参与主体进行建模;在此基础上,采用深度分布式强化学习算法对模型问题进行求解;最后,通过实际算例仿真分析验证所提理论方法的有效性,并对联合交易中的关键影响因素进行灵敏性分析。 展开更多
关键词 电力市场 绿色证书交易市场 碳排放权交易市场 需求灵活性 深度分布式强化学习
下载PDF
基于分布式强化学习算法的精准助学数据分析方法研究
14
作者 邢文娜 宁睿 《电子设计工程》 2021年第10期28-31,36,共5页
针对传统助学金评选方法中存在虚假申请材料难以鉴别、无法准确了解学生真实经济水平的问题。文中提出了基于分布式强化学习算法的精准助学数据分析方法,该方法通过收集数字化校园中学生的各项消费数据,经过数据预处理后找出具有分类能... 针对传统助学金评选方法中存在虚假申请材料难以鉴别、无法准确了解学生真实经济水平的问题。文中提出了基于分布式强化学习算法的精准助学数据分析方法,该方法通过收集数字化校园中学生的各项消费数据,经过数据预处理后找出具有分类能力的变量。然后,将RBF神经网络通过归一化与选取合适的隐藏层层数、神经元个数来提高聚类速度。由于数字化校园存在多个消费场景,使用Markov对策与Bayesian网络可以建立各个智能体之间的互相关系,从而增强各个智能体之间的交互性。由数据测试分析结果可知,文中所述方案识别贫困生的准确率可达80.9%,优于Adaboost算法。同时具有更低的平均绝对误差,适用于高校贫困生的资格认定。 展开更多
关键词 分布式强化学习算法 精准助学数据分析技术 归一化RBF神经网络 MARKOV对策 BAYESIAN网络
下载PDF
基于分布式深度强化学习的六足机器人步态学习与控制
15
作者 李伦 向国菲 +1 位作者 马丛俊 佃松宜 《组合机床与自动化加工技术》 北大核心 2024年第8期85-89,共5页
针对六足机器人系统结构与决策的复杂导致步态规划与控制困难的问题,提出了一种基于分布式强化学习的六足机器人步态学习与控制框架。该框架采用大规模并行学习的方式获取训练数据,通过强化学习的方法对网络进行数据驱动训练,得到最优... 针对六足机器人系统结构与决策的复杂导致步态规划与控制困难的问题,提出了一种基于分布式强化学习的六足机器人步态学习与控制框架。该框架采用大规模并行学习的方式获取训练数据,通过强化学习的方法对网络进行数据驱动训练,得到最优控制策略,并在IsaacGym平台下构建仿真环境评估和验证六足机器人步态学习与控制的性能。结果表明,训练的六足机器人步态在奖励值、速度跟踪和稳定性都有良好的表现,验证了所提方法的有效性。 展开更多
关键词 六足机器人 分布式深度强化学习 步态学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部