期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
深度强化学习研究综述 被引量:48
1
作者 杨思明 单征 +1 位作者 丁煜 李刚伟 《计算机工程》 CAS CSCD 北大核心 2021年第12期19-29,共11页
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究... 深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。 展开更多
关键词 深度学习 强化学习 深度强化学习 逆向强化学习 基于模型的元学习
下载PDF
基于强化学习的路径规划技术综述 被引量:40
2
作者 闫皎洁 张锲石 胡希平 《计算机工程》 CAS CSCD 北大核心 2021年第10期16-25,共10页
路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learn... 路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learning等基于值的代表方法与策略梯度、模仿学习等基于策略的代表方法,并分析其融合策略和深度强化学习方法方法的发展现状。在此基础上,总结各种强化学习方法的优缺点及适用场合,同时对基于强化学习的路径规划技术的未来发展方向进行展望。 展开更多
关键词 路径规划 强化学习 深度强化学习 移动机器人 自主导航
下载PDF
基于强化学习的综合能源系统管理综述 被引量:23
3
作者 熊珞琳 毛帅 +3 位作者 唐漾 孟科 董朝阳 钱锋 《自动化学报》 EI CAS CSCD 北大核心 2021年第10期2321-2340,共20页
为了满足日益增长的能源需求并减少对环境的破坏,节能成为全球经济和社会发展的一项长远战略方针,加强能源管理能够提高能源利用效率、促进节能减排.然而,可再生能源和柔性负载的接入使得综合能源系统(Integrated energy system,IES)发... 为了满足日益增长的能源需求并减少对环境的破坏,节能成为全球经济和社会发展的一项长远战略方针,加强能源管理能够提高能源利用效率、促进节能减排.然而,可再生能源和柔性负载的接入使得综合能源系统(Integrated energy system,IES)发展成为具有高度不确定性的复杂动态系统,给现代化能源管理带来巨大的挑战.强化学习(Reinforcement learning,RL)作为一种典型的交互试错型学习方法,适用于求解具有不确定性的复杂动态系统优化问题,因此在综合能源系统管理问题中得到广泛关注.本文从模型和算法的层面系统地回顾了利用强化学习求解综合能源系统管理问题的现有研究成果,并从多时间尺度特性、可解释性、迁移性和信息安全性4个方面提出展望. 展开更多
关键词 强化学习 能源管理 电力系统 综合能源系统
下载PDF
复杂环境中的多智能体强化学习 被引量:8
4
作者 罗青 李智军 吕恬生 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第3期302-305,共4页
提出在机器人足球这样的复杂、动态的环境中使用强化学习的方式与问题 ,阐述了强化学习的实现及如何处理机器学习中的常见问题 ,即延迟奖赏、探索与利用、不完整信息等 ,同时探讨了减少复杂性的若干措施 .
关键词 多智能体系统 机器人足球 复杂环境 强化学习
下载PDF
Parallel Reinforcement Learning-Based Energy Efficiency Improvement for a Cyber-Physical System 被引量:16
5
作者 Teng Liu Bin Tian +1 位作者 Yunfeng Ai Fei-Yue Wang 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2020年第2期617-626,共10页
As a complex and critical cyber-physical system(CPS),the hybrid electric powertrain is significant to mitigate air pollution and improve fuel economy.Energy management strategy(EMS)is playing a key role to improve the... As a complex and critical cyber-physical system(CPS),the hybrid electric powertrain is significant to mitigate air pollution and improve fuel economy.Energy management strategy(EMS)is playing a key role to improve the energy efficiency of this CPS.This paper presents a novel bidirectional long shortterm memory(LSTM)network based parallel reinforcement learning(PRL)approach to construct EMS for a hybrid tracked vehicle(HTV).This method contains two levels.The high-level establishes a parallel system first,which includes a real powertrain system and an artificial system.Then,the synthesized data from this parallel system is trained by a bidirectional LSTM network.The lower-level determines the optimal EMS using the trained action state function in the model-free reinforcement learning(RL)framework.PRL is a fully data-driven and learning-enabled approach that does not depend on any prediction and predefined rules.Finally,real vehicle testing is implemented and relevant experiment data is collected and calibrated.Experimental results validate that the proposed EMS can achieve considerable energy efficiency improvement by comparing with the conventional RL approach and deep RL. 展开更多
关键词 Bidirectional long short-term memory(LSTM)network cyber-physical system(CPS) energy management parallel system reinforcement learning(rl)
下载PDF
强化学习求解组合最优化问题的研究综述 被引量:12
6
作者 王扬 陈智斌 +1 位作者 吴兆蕊 高远 《计算机科学与探索》 CSCD 北大核心 2022年第2期261-279,共19页
组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域。随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击。近年来,强化学习(RL)在无人驾驶、工业自动化... 组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域。随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击。近年来,强化学习(RL)在无人驾驶、工业自动化等领域的广泛应用,显示出强大的决策力和学习能力,故而诸多研究者尝试使用RL求解COP问题,为求解此类问题提供了一种全新的方法。首先简要梳理常见的COP问题及其RL的基本原理;其次阐述RL求解COP问题的难点,分析RL应用于组合最优化(CO)领域的优势,对RL与COP问题结合的原理进行研究;然后总结近年来采用RL求解COP问题的理论方法和应用研究,对各类代表性研究所解决COP问题的关键要点、算法逻辑、优化效果进行对比分析,以突出RL模型的优越性,并对不同方法的局限性及其使用场景进行归纳总结;最后提出了四个RL求解COP问题的潜在研究方向。 展开更多
关键词 强化学习(rl) 深度强化学习(Drl) 组合最优化问题(COP)
下载PDF
一种最大置信上界经验采样的深度Q网络方法 被引量:13
7
作者 朱斐 吴文 +1 位作者 刘全 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1694-1705,共12页
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破... 由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性. 展开更多
关键词 强化学习 深度强化学习 最大置信上界 经验回放 深度Q网络
下载PDF
强化学习的自动驾驶控制技术研究进展 被引量:13
8
作者 潘峰 鲍泓 《中国图象图形学报》 CSCD 北大核心 2021年第1期28-35,共8页
自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化... 自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为:监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。 展开更多
关键词 自动驾驶 决策控制 马尔可夫决策过程 强化学习 数据驱动 自主学习
原文传递
逆强化学习算法、理论与应用研究综述
9
作者 宋莉 李大字 徐昕 《自动化学报》 EI CAS CSCD 北大核心 2024年第9期1704-1723,共20页
随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(... 随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(Inverse reinforcement learning,IRL)这一研究方向.如何从专家演示中学习奖励函数和进行策略优化是一个重要的研究课题,在人工智能领域具有十分重要的研究意义.本文综合介绍了逆强化学习算法的最新进展,首先介绍了逆强化学习在理论方面的新进展,然后分析了逆强化学习面临的挑战以及未来的发展趋势,最后讨论了逆强化学习的应用进展和应用前景. 展开更多
关键词 强化学习 逆强化学习 线性逆强化学习 深度逆强化学习 对抗逆强化学习
下载PDF
基于强化学习的频控阵-多输入多输出雷达发射功率分配方法 被引量:5
10
作者 丁梓航 谢军伟 齐铖 《电子与信息学报》 EI CSCD 北大核心 2023年第2期550-557,共8页
当前电磁环境日益复杂多变,新式干扰手段层出不穷,对雷达系统带来了极大的挑战和威胁。该文引入频谱干扰模型并提出了一种在频控阵-多输入多输出(FDA-MIMO)雷达与干扰机动态博弈框架下基于强化学习(RL)的发射功率分配优化方法,使雷达系... 当前电磁环境日益复杂多变,新式干扰手段层出不穷,对雷达系统带来了极大的挑战和威胁。该文引入频谱干扰模型并提出了一种在频控阵-多输入多输出(FDA-MIMO)雷达与干扰机动态博弈框架下基于强化学习(RL)的发射功率分配优化方法,使雷达系统能够获得最大的信干噪比(SINR)。在此基础上,构造了频谱干扰模型。其次,雷达和干扰机之间存在一种Stackelberg博弈关系,且将雷达作为领导者,干扰机作为跟随者,建立动态博弈框架下的发射功率分配优化模型。采用深度确定性策略梯度(DDPG)算法,结合功率约束设计了奖赏函数,对雷达发射功率进行实时分配来获得最大的输出SINR。最后,仿真结果表明,在雷达与干扰机博弈的框架下,所提优化算法能够有效地对雷达发射功率进行优化,使雷达具备较好的抗干扰性能。 展开更多
关键词 频控阵 强化学习 博弈论 功率分配
下载PDF
强化学习在足球机器人基本动作学习中的应用 被引量:6
11
作者 段勇 杨淮清 +1 位作者 崔宝侠 徐心和 《机器人》 EI CSCD 北大核心 2008年第5期453-459,共7页
主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用.强化学习的状态空间和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛.针对这一问题,提出了基于T-S模型模糊神经网络的强化学习方法,能够有效地实现... 主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用.强化学习的状态空间和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛.针对这一问题,提出了基于T-S模型模糊神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射.此外,使用提出的强化学习方法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题.最后,通过实验证明了所研究方法的有效性,其能够满足机器人足球比赛的需要. 展开更多
关键词 强化学习 机器人足球比赛 行为学习 T-S模糊神经网络
下载PDF
基于持续强化学习的自动驾驶赛车决策算法研究 被引量:1
12
作者 牛京玉 胡瑜 +1 位作者 李玮 韩银和 《高技术通讯》 CAS 北大核心 2024年第1期1-14,共14页
赛道形状与路面材质变化对自动驾驶赛车的行为决策带来了严峻挑战。为应对道路间的动力学差异,本文提出一种基于持续强化学习(CRL)的高速赛车决策算法。该算法将不同道路看作独立任务。算法的第1训练阶段负责提取描述不同任务上赛车动... 赛道形状与路面材质变化对自动驾驶赛车的行为决策带来了严峻挑战。为应对道路间的动力学差异,本文提出一种基于持续强化学习(CRL)的高速赛车决策算法。该算法将不同道路看作独立任务。算法的第1训练阶段负责提取描述不同任务上赛车动力学的低维特征,从而计算出任务间的相似性关系。算法的第2训练阶段负责为策略学习过程提供2个持续强化学习约束:其一是权重正则化约束,策略网络中对于旧任务重要的权重将在新任务学习期间被限制更新,其限制力度由任务相似性自适应调节;其二是奖励函数约束,鼓励在新任务学习期间策略的旧任务性能不下降。设计不同任务排序下的赛车实验和持续强化学习评价指标以评估算法性能。实验结果表明,所提算法能在既不存储旧任务数据也不扩展策略网络的条件下获得比基准方法更出色的驾驶性能。 展开更多
关键词 强化学习(rl) 持续学习 行为决策 自动驾驶赛车 动力学特征提取
下载PDF
基于GA-RL的进化博弈求解主从博弈结构的供应链协调问题 被引量:7
13
作者 赵晗萍 蒋家东 冯允成 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2010年第4期667-672,共6页
供应链协调问题多数基于主从博弈结构建模,但如果研究对象是相对复杂的供应链结构.理论求解主从博弈问题就变得困难.因此从求解一对一的供应链协调问题开始,针对主从博弈问题的特点,利用个体学习的进化博弈仿真手段,设计了经销商利用经... 供应链协调问题多数基于主从博弈结构建模,但如果研究对象是相对复杂的供应链结构.理论求解主从博弈问题就变得困难.因此从求解一对一的供应链协调问题开始,针对主从博弈问题的特点,利用个体学习的进化博弈仿真手段,设计了经销商利用经验分布的预期随机需求的信念更新模式与最优反应的决策模式,为生产商分别设计了基于强化学习的信念更新模式与基于遗传算法搜索策略空间的决策模式,并将两者有机结合,取得了博弈问题的均衡解并且验证该解与理论求解结果一致,为进一步求解复杂问题提供了新的途径. 展开更多
关键词 供应链协调 进化博弈论 强化学习(rl) 遗传算法(GA)
原文传递
电力系统优化控制中强化学习方法应用及挑战 被引量:1
14
作者 毕聪博 唐聿劼 +1 位作者 罗永红 陆超 《中国电机工程学报》 EI CSCD 北大核心 2024年第1期1-21,I0001,共22页
强化学习(reinforcementlearning,RL)方法目前已应用于电力系统的多个领域,在电力系统优化与控制领域的一些应用展现出良好的结果。但在强化学习方法落地于实际电力系统应用的过程中依然存在一些关键性问题。该文首先概述强化学习基础... 强化学习(reinforcementlearning,RL)方法目前已应用于电力系统的多个领域,在电力系统优化与控制领域的一些应用展现出良好的结果。但在强化学习方法落地于实际电力系统应用的过程中依然存在一些关键性问题。该文首先概述强化学习基础理论与研究现状,随后提出强化学习理论落地于电力系统各领域优化与控制过程中存在的关键问题。最后探讨强化学习应用于电力系统优化与控制的研究展望。 展开更多
关键词 强化学习(rl) 电力系统 优化与控制
下载PDF
Optimal Neuro-Control Strategy for Nonlinear Systems With Asymmetric Input Constraints 被引量:6
15
作者 Xiong Yang Bo Zhao 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2020年第2期575-583,共9页
In this paper,we present an optimal neuro-control scheme for continuous-time(CT)nonlinear systems with asymmetric input constraints.Initially,we introduce a discounted cost function for the CT nonlinear systems in ord... In this paper,we present an optimal neuro-control scheme for continuous-time(CT)nonlinear systems with asymmetric input constraints.Initially,we introduce a discounted cost function for the CT nonlinear systems in order to handle the asymmetric input constraints.Then,we develop a Hamilton-Jacobi-Bellman equation(HJBE),which arises in the discounted cost optimal control problem.To obtain the optimal neurocontroller,we utilize a critic neural network(CNN)to solve the HJBE under the framework of reinforcement learning.The CNN's weight vector is tuned via the gradient descent approach.Based on the Lyapunov method,we prove that uniform ultimate boundedness of the CNN's weight vector and the closed-loop system is guaranteed.Finally,we verify the effectiveness of the present optimal neuro-control strategy through performing simulations of two examples. 展开更多
关键词 Adaptive critic designs(ACDs) asymmetric input constraint critic neural network(CNN) nonlinear systems optimal control reinforcement learning(rl)
下载PDF
面向机器人系统的虚实迁移强化学习综述 被引量:1
16
作者 林谦 余超 +4 位作者 伍夏威 董银昭 徐昕 张强 郭宪 《软件学报》 EI CSCD 北大核心 2024年第2期711-738,共28页
近年来,基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功,为机器人行为控制策略优化提供一个现实可行的解决方案.但在真实世界中收集交互样本存在高成本以及低效率等问题,因此仿真环境被广泛应用于机器人强化学习训练过程... 近年来,基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功,为机器人行为控制策略优化提供一个现实可行的解决方案.但在真实世界中收集交互样本存在高成本以及低效率等问题,因此仿真环境被广泛应用于机器人强化学习训练过程中.通过在虚拟仿真环境中以较低成本获取大量训练样本进行策略训练,并将学习策略迁移至真实环境,能有效缓解真实机器人训练中存在的安全性、可靠性以及实时性等问题.然而,由于仿真环境与真实环境存在差异,仿真环境中训练得到的策略直接迁移到真实机器人往往难以获得理想的性能表现.针对这一问题,虚实迁移强化学习方法被提出用以缩小环境差异,进而实现有效的策略迁移.按照迁移强化学习过程中信息的流动方向和智能化方法作用的不同对象,提出一个虚实迁移强化学习系统的流程框架,并基于此框架将现有相关工作分为3大类:基于真实环境的模型优化方法、基于仿真环境的知识迁移方法、基于虚实环境的策略迭代提升方法,并对每一分类中的代表技术与关联工作进行阐述.最后,讨论虚实迁移强化学习研究领域面临的机遇和挑战. 展开更多
关键词 强化学习 迁移学习 虚实迁移 现实差距 机器人控制
下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
17
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
下载PDF
基于表征学习的离线强化学习方法研究综述
18
作者 王雪松 王荣荣 程玉虎 《自动化学报》 EI CAS CSCD 北大核心 2024年第6期1104-1128,共25页
强化学习(Reinforcement learning,RL)通过智能体与环境在线交互来学习最优策略,近年来已成为解决复杂环境下感知决策问题的重要手段.然而,在线收集数据的方式可能会引发安全、时间或成本等问题,极大限制了强化学习在实际中的应用.与此... 强化学习(Reinforcement learning,RL)通过智能体与环境在线交互来学习最优策略,近年来已成为解决复杂环境下感知决策问题的重要手段.然而,在线收集数据的方式可能会引发安全、时间或成本等问题,极大限制了强化学习在实际中的应用.与此同时,原始数据的维度高且结构复杂,解决复杂高维数据输入问题也是强化学习面临的一大挑战.幸运的是,基于表征学习的离线强化学习能够仅从历史经验数据中学习策略,而无需与环境产生交互.它利用表征学习技术将离线数据集中的特征表示为低维向量,然后利用这些向量来训练离线强化学习模型.这种数据驱动的方式为实现通用人工智能提供了新契机.为此,对近期基于表征学习的离线强化学习方法进行全面综述.首先给出离线强化学习的形式化描述,然后从方法、基准数据集、离线策略评估与超参数选择3个层面对现有技术进行归纳整理,进一步介绍离线强化学习在工业、推荐系统、智能驾驶等领域中的研究动态.最后,对全文进行总结,并探讨基于表征学习的离线强化学习未来所面临的关键挑战与发展趋势,以期为后续的研究提供有益参考. 展开更多
关键词 强化学习 离线强化学习 表征学习 历史经验数据 分布偏移
下载PDF
逆向强化学习研究综述 被引量:1
19
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
下载PDF
基于深度强化学习的超密集网络资源分配 被引量:6
20
作者 郑冰原 孙彦赞 +1 位作者 吴雅婷 王涛 《电子测量技术》 2020年第9期133-138,共6页
在超密集网络(UDN)中,密集部署小基站会产生大量能耗及温室气体排放等问题。为此,我们提出了一种联合小基站睡眠和功率控制的分步自适应动态功率控制(ADPC)算法用以改善网络能效。此算法分为两个阶段:第一个阶段,提出基于网络负载状况... 在超密集网络(UDN)中,密集部署小基站会产生大量能耗及温室气体排放等问题。为此,我们提出了一种联合小基站睡眠和功率控制的分步自适应动态功率控制(ADPC)算法用以改善网络能效。此算法分为两个阶段:第一个阶段,提出基于网络负载状况的小基站睡眠策略;第二阶段,对处于激活状态的小基站进行功率控制。并进一步提出基于强化学习(RL)及深度神经网络(DNN)的框架以优化小基站功率控制。通过与典型Q-学习框架的功率控制算法进行仿真比较表明,所提方案具有很好的自适应能力,使网络能效提升13%,对于更加密集的场景仍具有很好的性能。 展开更多
关键词 超密集网络(UDN) 资源分配 能源效率 强化学习(rl) 功率控制
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部