期刊文献+
共找到110篇文章
< 1 2 6 >
每页显示 20 50 100
基于双深度网络的安全深度强化学习方法 被引量:27
1
作者 朱斐 吴文 +1 位作者 伏玉琛 刘全 《计算机学报》 EI CSCD 北大核心 2019年第8期1812-1826,共15页
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近... 深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性. 展开更多
关键词 强化学习 深度强化学习 深度Q网络 安全深度强化学习 安全人工智能 经验回放
下载PDF
基于深度强化学习的交通信号控制方法 被引量:17
2
作者 刘智敏 叶宝林 +2 位作者 朱耀东 姚青 吴维敏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第6期1249-1256,共8页
针对基于深度强化学习的交通信号控制方法存在难以及时更新交叉口信号控制策略的问题,提出基于改进深度强化学习的单交叉口交通信号控制方法.构建新的基于相邻采样时间步实时车辆数变化量的奖励函数,以及时跟踪并利用交叉口交通状态动... 针对基于深度强化学习的交通信号控制方法存在难以及时更新交叉口信号控制策略的问题,提出基于改进深度强化学习的单交叉口交通信号控制方法.构建新的基于相邻采样时间步实时车辆数变化量的奖励函数,以及时跟踪并利用交叉口交通状态动态的变化过程.采用双网络结构提高算法学习效率,利用经验回放改善算法收敛性.基于SUMO的仿真测试结果表明,相比传统控制方法和深度强化学习方法,所提方法能明显缩短交叉口车辆平均等待时间和平均排队长度,提高交叉口通行效率. 展开更多
关键词 交通信号控制 深度强化学习 奖励函数 经验回放
下载PDF
一种最大置信上界经验采样的深度Q网络方法 被引量:14
3
作者 朱斐 吴文 +1 位作者 刘全 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1694-1705,共12页
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破... 由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性. 展开更多
关键词 强化学习 深度强化学习 最大置信上界 经验回放 深度Q网络
下载PDF
采用分类经验回放的深度确定性策略梯度方法 被引量:12
4
作者 时圣苗 刘全 《自动化学报》 EI CAS CSCD 北大核心 2022年第7期1816-1823,共8页
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差... 深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能. 展开更多
关键词 连续控制任务 深度确定性策略梯度 经验回放 分类经验回放
下载PDF
基于情节经验回放的深度确定性策略梯度方法 被引量:8
5
作者 张建行 刘全 《计算机科学》 CSCD 北大核心 2021年第10期37-43,共7页
强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效... 强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储。然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量。在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Optimization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较。实验结果表明,EER-DDPG方法有更好的性能表现。 展开更多
关键词 深度确定性策略梯度 连续控制任务 经验回放 累积回报 分类经验回放
下载PDF
基于安全自适应强化学习的自主避障控制方法 被引量:9
6
作者 王珂 穆朝絮 +2 位作者 蔡光斌 汪韧 孙长银 《中国科学:信息科学》 CSCD 北大核心 2022年第9期1672-1686,共15页
障碍规避是无人机等自主无人系统运动规划的重要环节,其核心是设计有效的避障控制方法.为了进一步提高决策优化性和控制效果,本文在最优控制的设定下,提出一种基于强化学习的自主避障控制方法,以自适应方式在线生成安全运行轨迹.首先,... 障碍规避是无人机等自主无人系统运动规划的重要环节,其核心是设计有效的避障控制方法.为了进一步提高决策优化性和控制效果,本文在最优控制的设定下,提出一种基于强化学习的自主避障控制方法,以自适应方式在线生成安全运行轨迹.首先,利用障碍函数法在代价函数中设计了一个光滑的奖惩函数,从而将避障问题转换为一个无约束的最优控制问题.然后,利用行为–评价神经网络和策略迭代法实现了自适应强化学习,其中评价网络利用状态跟随核函数逼近代价函数,行为网络给出近似最优的控制策略;同时,通过状态外推法获得模拟经验,使得评价网络能利用经验回放实现可靠的局部探索.最后,在简化的无人机系统和非线性数值系统上进行了仿真实验与方法对比,结果表明,提出的避障控制方法能实时生成较优的安全运行轨迹. 展开更多
关键词 自主无人系统 避障控制 强化学习 神经网络 经验回放
原文传递
协作多智能体深度强化学习研究综述 被引量:9
7
作者 邹启杰 蒋亚军 +2 位作者 高兵 李文雪 张汝波 《航空兵器》 CSCD 北大核心 2022年第6期78-88,共11页
多智能体系统是由多个智能体与环境交互组成的分布式决策系统,是分布式人工智能的一个重要研究方向,在复杂未知的现实社会具有广阔的应用前景,如工业、农业、军事和航空航天等群体机器人系统,以及交通控制、资源管理、商业金融和游戏AI... 多智能体系统是由多个智能体与环境交互组成的分布式决策系统,是分布式人工智能的一个重要研究方向,在复杂未知的现实社会具有广阔的应用前景,如工业、农业、军事和航空航天等群体机器人系统,以及交通控制、资源管理、商业金融和游戏AI等。多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)依托强化学习在未知环境中的序贯决策能力,融合了运筹学、博弈论和群体心理学等众多学科,能够更好地发挥多个智能体的协同优势,进而低成本、高效率地完成复杂任务。本文着重针对无通信环境下的协作多智能体深度强化学习研究成果进行分析、对比和展望。首先,介绍了MARL的研究背景及其学习任务的分类。其次,根据MARL重点研究内容,将多智能体强化学习算法分为价值分解、 Actor-Critic和经验回放三个类别加以剖析,并从环境非平稳性、信度分配和收敛性能等不同角度对比算法差异性。最后,分析了MARL领域未来研究所面临的一些挑战,并对MARL的应用和前景进行展望。 展开更多
关键词 多智能体 深度学习 强化学习 协作学习 价值分解 Actor-Critic 经验回放
下载PDF
分层强化学习中的Option自动生成算法 被引量:5
8
作者 沈晶 顾国昌 刘海波 《计算机工程与应用》 CSCD 北大核心 2005年第34期4-6,15,共4页
分层强化学习中目前有Option、HAM和MAXQ三种主要方法,其自动分层问题均未得到有效解决,该文针对第一种方法,提出了Option自动生成算法,该算法以Agent在学习初始阶段探测到的状态空间为输入,采用人工免疫网络技术对其进行聚类,在聚类后... 分层强化学习中目前有Option、HAM和MAXQ三种主要方法,其自动分层问题均未得到有效解决,该文针对第一种方法,提出了Option自动生成算法,该算法以Agent在学习初始阶段探测到的状态空间为输入,采用人工免疫网络技术对其进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,从而生成Option,仿真实验验证了该算法的有效性。 展开更多
关键词 分层强化学习 OPTION 人工免疫网络 经验回放
下载PDF
基于艾宾浩斯遗忘曲线和注意力机制的推荐算法 被引量:6
9
作者 金楠 王瑞琴 陆悦聪 《电信科学》 2022年第10期89-97,共9页
传统基于注意力机制的推荐算法只利用位置嵌入对用户行为序列进行建模,忽略了具体的时间戳信息,导致推荐性能不佳和模型训练过拟合等问题。提出基于时间注意力的多任务矩阵分解推荐模型,利用注意力机制提取邻域信息对用户和物品进行嵌... 传统基于注意力机制的推荐算法只利用位置嵌入对用户行为序列进行建模,忽略了具体的时间戳信息,导致推荐性能不佳和模型训练过拟合等问题。提出基于时间注意力的多任务矩阵分解推荐模型,利用注意力机制提取邻域信息对用户和物品进行嵌入编码,借助艾宾浩斯遗忘曲线描述用户兴趣随时间的变化特性,在模型训练过程中引入经验回放的强化学习策略模拟人类的记忆复习过程。真实数据集上的实验结果表明,该模型比现有推荐模型具有更好的推荐性能。 展开更多
关键词 艾宾浩斯遗忘曲线 注意力机制 强化学习 经验回放
下载PDF
记忆增强型深度强化学习研究综述 被引量:6
10
作者 汪晨 曾凡玉 郭九霞 《小型微型计算机系统》 CSCD 北大核心 2021年第3期454-461,共8页
近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研... 近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.本文根据记忆增强型神经网络类型,将记忆增强型深度强化学习分为了4类:基于经验回放的深度强化学习、基于记忆网络的深度强化学习算法、基于情景记忆的深度强化学习算法、基于可微分计算机的深度强化学习.同时,系统性地总结和分析了记忆增强型深度强化学习的一系列研究成果存在的优势和不足.另外,给出了深度强化学习常用的训练环境.最后,对记忆增强型深度强化学习进行了展望,指出了未来研究方向. 展开更多
关键词 深度强化学习 经验回放 记忆网络 情景记忆 可微分计算机
下载PDF
基于斯蒂芬森价值迭代的改进DDPG算法
11
作者 张秋娟 宋文广 李博文 《计算机工程与设计》 北大核心 2024年第12期3607-3614,共8页
针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处... 针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处状态与经验中状态的相似性,优先采样相似度高的经验,使智能体专注学习包含当前策略频繁访问的状态的经验。在PyBullet环境的6个连续动作控制任务中进行实验,其结果表明,相比DDPG算法、TD3算法、CDLR-DDPG算法和EER-DDPG算法,所提算法收敛更快,性能更好。 展开更多
关键词 深度强化学习 深度确定性策略梯度 连续控制任务 价值迭代 经验回放 累积奖励 注意力经验回放
下载PDF
基于考虑状态分布的深度确定性策略梯度算法的端到端自动驾驶策略 被引量:5
12
作者 王庭晗 罗禹贡 +1 位作者 刘金鑫 李克强 《清华大学学报(自然科学版)》 CSCD 北大核心 2021年第9期881-888,共8页
端到端方法是实现自动驾驶的方法之一,而自动驾驶的场景较为丰富,不同场景的特征差别较大,这使得基于强化学习的端到端自动驾驶方法训练时的随机性衰减速度难以确定,若衰减过快,在面对新场景时无法获得较好的自动驾驶效果,反之则会使得... 端到端方法是实现自动驾驶的方法之一,而自动驾驶的场景较为丰富,不同场景的特征差别较大,这使得基于强化学习的端到端自动驾驶方法训练时的随机性衰减速度难以确定,若衰减过快,在面对新场景时无法获得较好的自动驾驶效果,反之则会使得算法难以快速收敛。针对这一问题,该文提出了一种基于输入状态分布筛选的随机策略和经验回放方法,将当前输入的状态数据和已保存的状态数据之间的距离进行对比,根据不同的距离选择不同的随机策略参数,同时在经验回放时提高出现频率较低场景的回放概率。仿真结果表明:该算法在训练后期面对与前期数据分布差异较大的场景时仍有足够的探索能力,提高了基于深度确定性策略梯度算法的端到端自动驾驶策略在全新工况下的车道保持能力。 展开更多
关键词 端到端自动驾驶 强化学习 随机策略 经验回放
原文传递
基于PPO算法的自动驾驶人机交互式强化学习方法
13
作者 时高松 赵清海 +2 位作者 董鑫 贺家豪 刘佳源 《计算机应用研究》 CSCD 北大核心 2024年第9期2732-2736,共5页
针对当前自动驾驶领域中深度强化学习(deep reinforcement learning,DRL)所面临的高计算性能需求和收敛速度慢的问题,将变分自编码器(variational autoencoder,VAE)和近端策略优化算法(proximal policy optimization,PPO)相结合。通过采... 针对当前自动驾驶领域中深度强化学习(deep reinforcement learning,DRL)所面临的高计算性能需求和收敛速度慢的问题,将变分自编码器(variational autoencoder,VAE)和近端策略优化算法(proximal policy optimization,PPO)相结合。通过采用VAE的特征编码技术,将Carla模拟器获取的语义图像有效转换为状态输入,以此应对DRL在处理复杂自动驾驶任务时的高计算负担。为了解决DRL训练中出现的局部最优和收敛速度慢的问题,引入了驾驶干预机制和基于驾驶员引导的经验回放机制,在训练初期和模型陷入局部最优时进行驾驶干预,以提升模型的学习效率和泛化能力。通过在交通路口左转场景进行的实验验证,结果表明,在驾驶干预机制的帮助下,训练初期模型的性能提升加快,且模型陷入局部最优时通过驾驶干预,模型的性能进一步提升,且在复杂场景下提升更为明显。 展开更多
关键词 自动驾驶 深度强化学习 特征编码 驾驶干预 经验回放
下载PDF
基于记忆提炼的对比度量增强在线类增量学习图像分类方法
14
作者 王宏辉 殷进勇 杨建 《指挥控制与仿真》 2024年第1期44-54,共11页
图像分类中类增量学习具有知识灾难性遗忘现象,现有的基于经验回放方法着重考虑的是记忆库的更新和采样方式,忽略了新旧样本之间的特征关系。为此,提出了一种基于记忆提炼的对比度量增强在线类增量学习图像分类方法(cME 2),设计了两种... 图像分类中类增量学习具有知识灾难性遗忘现象,现有的基于经验回放方法着重考虑的是记忆库的更新和采样方式,忽略了新旧样本之间的特征关系。为此,提出了一种基于记忆提炼的对比度量增强在线类增量学习图像分类方法(cME 2),设计了两种新的正负样本对,对旧样本信息进行了加强重复再利用,强化了模型对冗余特征和共性特征的表达能力,基于最近邻均值分类器改善了嵌入空间中的样本分布合理性。最后,通过对比实验和消融实验验证了所提方法的有效性和高效性。 展开更多
关键词 在线类增量学习 灾难性遗忘 对比学习 经验回放
下载PDF
规则耦合下的多异构子网络MADDPG博弈对抗算法
15
作者 张钰欣 赵恩娇 赵玉新 《智能系统学报》 CSCD 北大核心 2024年第1期190-208,共19页
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模... 针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。 展开更多
关键词 深度强化学习 多无人机 博弈对抗 MADDPG Actor-Critic 规则耦合 经验回放 稀疏奖励
下载PDF
基于威胁机制-双重深度Q网络的多功能雷达认知干扰决策
16
作者 黄湘松 查力根 潘大鹏 《应用科技》 CAS 2024年第4期145-153,共9页
针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威... 针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威胁网络和经验回放2种机制。为了验证算法的有效性,在考虑多功能雷达(multifunctional radar,MFR)工作状态与干扰样式之间的关联性的前提下,搭建了基于认知电子战的仿真环境,分析了雷达与干扰机之间的对抗博弈过程,并且在使用TW-DDQN进行训练的过程中,讨论了威胁半径与威胁步长参数的不同对训练过程的影响。仿真实验结果表明,干扰机通过自主学习成功与雷达进行了长时间的博弈,有80%的概率成功突防,训练效果明显优于传统DQN和优先经验回放DDQN(prioritized experience replay-DDQN,PER-DDQN)。 展开更多
关键词 干扰决策 认知电子战 深度Q网络 强化学习 干扰机 多功能雷达 经验回放 恒虚警率探测
下载PDF
深度强化学习的通用插件研究综述
17
作者 钟欣见 王永华 李明 《河北科技大学学报》 CAS 北大核心 2024年第4期362-372,共11页
深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在... 深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。 展开更多
关键词 人工智能理论 通用插件 深度强化学习 模型设计 内在奖励 经验回放 自我博弈
下载PDF
基于改进DQN的动态避障路径规划
18
作者 郑晨炜 侯凌燕 +2 位作者 王超 赵青娟 邹智元 《北京信息科技大学学报(自然科学版)》 2024年第5期14-22,共9页
针对传统深度Q学习网络(deep Q-learning network,DQN)在具有动态障碍物的路径规划下,移动机器人在探索时频繁碰撞难以移动至目标点的问题,通过在探索策略和经验回放机制上进行改进,提出一种改进的DQN算法。在探索策略上,利用快速搜索... 针对传统深度Q学习网络(deep Q-learning network,DQN)在具有动态障碍物的路径规划下,移动机器人在探索时频繁碰撞难以移动至目标点的问题,通过在探索策略和经验回放机制上进行改进,提出一种改进的DQN算法。在探索策略上,利用快速搜索随机树(rapidly-exploring random tree,RRT)算法自动生成静态先验知识来指导动作选取,替代ε-贪婪策略的随机动作,提高智能体到达目标的成功率;在经验利用上,使用K-means算法设计一种聚类经验回放机制,根据动态障碍物的位置信息进行聚类分簇,着重采样与当前智能体状态相似的经验进行回放,使智能体更有效地避免碰撞动态障碍物。二维栅格化环境下的仿真实验表明,在动态环境下,该算法可以避开静态和动态障碍物,成功移动至目标点,验证了该算法在应对动态避障路径规划的可行性。 展开更多
关键词 动态环境 路径规划 深度Q学习网络 避障 经验回放
下载PDF
带有惩罚措施的自竞争事后经验重播算法
19
作者 王子豪 钱雪忠 宋威 《计算机科学与探索》 CSCD 北大核心 2024年第5期1223-1231,共9页
自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大... 自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大量重复数据,这些无效数据会对经验池造成污染;二是虚拟目标可能会随机选择到一些对完成任务没有帮助的中间状态,导致学习偏差。针对这些问题,SCHER算法提出了两个改进策略:一是增加自适应的奖励信号,对智能体做出的无意义动作进行惩罚,使其快速规避此类操作;二是使用自竞争策略,通过竞争产生针对同一任务下的两组不同数据,对比分析后找到使智能体在不同环境中成功的关键步骤,提高生成虚拟目标的准确程度。实验结果表明,SCHER算法可以更好地利用经验回放技术,将平均任务成功率提高5.7个百分点,拥有更高的准确率和泛化能力。 展开更多
关键词 深度强化学习 稀疏奖励 经验回放 自适应奖励信号
下载PDF
基于改进优先经验重放算法的游戏控制研究 被引量:3
20
作者 赵文仓 吴建辉 《甘肃科学学报》 2018年第2期15-19,共5页
为了使得高优先级被重放的概率进一步得到提升,并得到更重视最大优先级的函数表达式,对以往的研究中运用随机经验重放算法和一般的优先经验重放算法确定经验重放的优先级进行对比。通过改变优先级到概率的映射函数,利用小车爬山游戏模... 为了使得高优先级被重放的概率进一步得到提升,并得到更重视最大优先级的函数表达式,对以往的研究中运用随机经验重放算法和一般的优先经验重放算法确定经验重放的优先级进行对比。通过改变优先级到概率的映射函数,利用小车爬山游戏模型表明改进优先经验重放算法可以使智能体快速的学习到最优的游戏策略,并可以大幅减少完成游戏所用的时间。结果表明新算法使游戏学习最优策略的速度提高了49.28%。 展开更多
关键词 深度强化学习 经验重放 映射函数 优先级 游戏策略
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部