期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于DDPG算法的无人车辆防碰撞控制策略 被引量:9
1
作者 赖金萍 李浩 +2 位作者 石英 徐腊梅 闫浩 《武汉理工大学学报》 CAS 2021年第10期68-76,共9页
目前,强化学习在无人驾驶领域得到了广泛应用,但是如何提高无人车辆的稳定性并满足在不同工况中同时完成路径跟踪和车辆避障的要求依旧是一个难题。针对无人车辆路径跟踪与避障功能需求,提出一种基于深度确定梯度策略(Deep Deterministi... 目前,强化学习在无人驾驶领域得到了广泛应用,但是如何提高无人车辆的稳定性并满足在不同工况中同时完成路径跟踪和车辆避障的要求依旧是一个难题。针对无人车辆路径跟踪与避障功能需求,提出一种基于深度确定梯度策略(Deep Deterministic Policy Gradient,DDPG)算法的无人车辆防碰撞控制策略。首先,根据DDPG算法原理和车辆控制模型得到控制系统的输入输出量,并提出一种基于sin函数的变道轨迹规划方式,来提高车辆避障能力。其次,根据控制系统输入输出量设计神经网络控制器以及研究其策略探索方案,并提出一种基于对数函数的奖励塑造方案,以解决奖励稀疏问题。最后,通过仿真实验证明,基于DDPG算法的无人车辆控制策略能够更加安全、稳定地控制车辆完成路径跟踪与避障任务,且控制精度更高。 展开更多
关键词 无人车辆 强化学习 DDPG 路径跟踪 防碰撞
原文传递
改进行为克隆与DDPG的无人驾驶决策模型
2
作者 李伟东 黄振柱 +2 位作者 何精武 马草原 葛程 《计算机工程与应用》 CSCD 北大核心 2024年第14期86-95,共10页
无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合... 无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合能力;原DDPG(deep deterministic policy gradient)算法存在探索效率低下问题,使用经验池分离以及随机网络蒸馏技术(random network distillation,RND)对DDPG算法进行改进,提升DDPG算法训练效率。使用改进后的算法进行联合训练,减少DDPG训练前期的无用探索。通过TORCS(the open racing car simulator)仿真平台验证,实验结果表明该方法在相同的训练次数内,能够探索出更稳定的道路保持、速度保持和避障能力。 展开更多
关键词 无人驾驶 强化学习 模仿学习 决策算法 TORCS
下载PDF
基于人工智能的SDN网络中流量优化与拥塞控制方法
3
作者 欧阳炜昊 王晶 《通信电源技术》 2024年第3期146-148,共3页
文章深入研究基于强化学习的流量优化与拥塞控制方法在软件定义网络(Software Defined Network,SDN)中的应用。首先,详细阐述SDN网络的架构与原理。SDN网络的灵活性和可编程性为网络管理提供了全新的范式。其次,提出了一种基于强化学习... 文章深入研究基于强化学习的流量优化与拥塞控制方法在软件定义网络(Software Defined Network,SDN)中的应用。首先,详细阐述SDN网络的架构与原理。SDN网络的灵活性和可编程性为网络管理提供了全新的范式。其次,提出了一种基于强化学习的流量优化与拥塞控制方法,通过建模状态、动作、奖励等要素,实现网络流量智能调整。最后,在Mininet仿真环境中进行了实验验证。通过监测吞吐量、延迟、拥塞情况等性能指标,验证所提方法的有效性。实验结果表明,在网络性能方面,所提方法相较于传统方法取得了显著改善,具备更好的适应性和优化能力。 展开更多
关键词 软件定义网络(SDN) 强化学习 网络优化 人工智能
下载PDF
基于深度强化学习的分布式电池储能自动寻优调度方法
4
作者 何山 赵宇明 《粘接》 CAS 2024年第2期193-196,共4页
为提高配电网日网损减少收益、日峰谷价差套利收益,需合理分配电池充放电功率,为此,提出基于深度强化学习的分布式储能电池能量调度方法。构建了分布式储能电池剩余可用能量估计模型,使用基于深度强化学习的电池能量调度模型,将目标函... 为提高配电网日网损减少收益、日峰谷价差套利收益,需合理分配电池充放电功率,为此,提出基于深度强化学习的分布式储能电池能量调度方法。构建了分布式储能电池剩余可用能量估计模型,使用基于深度强化学习的电池能量调度模型,将目标函数设为日网损减少收益、日峰谷价差套利收益最大化,由深度强化学习模型驱动智能体,寻优调度目标函数,获取最佳电池能量调度时的充放电功率。结果表明,用所提方法调度后,分布式储能电池均在低谷状态中充电、高峰状态中放电,且电池充放电功率在限值之内,配网日网损减少收益、日峰谷价差套利收益增多。 展开更多
关键词 深度 强化学习 分布式 储能 电池 能量调度
下载PDF
基于深度强化学习的个性化任务处理方法
5
作者 朱亚飞 胡明 +1 位作者 丁言 赵佳 《长春工业大学学报》 CAS 2023年第2期135-140,共6页
为实现移动云计算背景下多端个性化任务处理的目标,首先通过PCA等预处理方法萃取数据特征信息实现数据域分类。再通过深度强化学习方法结合多端模型的返回特征完成云计算中心个性化任务处理(PTP)方法模型的训练。实验及仿真结果表明,该... 为实现移动云计算背景下多端个性化任务处理的目标,首先通过PCA等预处理方法萃取数据特征信息实现数据域分类。再通过深度强化学习方法结合多端模型的返回特征完成云计算中心个性化任务处理(PTP)方法模型的训练。实验及仿真结果表明,该方法不仅实现了个性化任务处理的目标,而且可以提高模型收敛速度,降低算法复杂度。 展开更多
关键词 移动云计算 深度学习 强化学习 大数据分析
下载PDF
改进强化学习的AI远程终端用户身份识别仿真
6
作者 魏雨东 张瑞瑞 《计算机仿真》 北大核心 2023年第2期265-269,共5页
受限于AI技术以及远程智能终端网络条件的复杂性,终端用户的网页浏览行为跟踪过程易产生冗余数据,用户身份识别难度较大。为此,提出基于强化学习的AI远程终端用户身份识别方法。从解锁行为、操作行为、通信行为等方面判断远程终端用户... 受限于AI技术以及远程智能终端网络条件的复杂性,终端用户的网页浏览行为跟踪过程易产生冗余数据,用户身份识别难度较大。为此,提出基于强化学习的AI远程终端用户身份识别方法。从解锁行为、操作行为、通信行为等方面判断远程终端用户行为规律,在客户端中通过用户ID、访问页面地址、页面标题等属性定义用户终端浏览行为。将浏览信息传输至中心服务器并录入终端数据库内,采集完整终端用户数据。通过小波阈值方法消除冗余信息,根据强化学习的奖励持续调节方法,提取AI远程终端用户行为数据集,计算用户身份特征与行为特征间的耦合关系,得到身份识别结果。仿真结果表明,所提方法能够快速准确地识别目标用户身份,保障了用户数据安全,为其提供更可靠的AI远程操作环境。 展开更多
关键词 强化学习 人工智能 远程终端 用户身份识别 数据采集
下载PDF
基于DQN算法的电力仿生机器狗步态规划
7
作者 苗俊杰 郭猛 +1 位作者 邹捷 王爽 《微型电脑应用》 2023年第3期47-51,共5页
传统仿生机器狗步态规划需构建动力学模型,对此提出一种基于DQN的仿生机器狗步态规划方法。结合DQN算法的基本原理,将DQN算法与仿生机器狗控制器结合,进而大量训练仿生机器狗的DQN控制器,设置DQN的参数和计算DQN的奖励函数,并在Webhots... 传统仿生机器狗步态规划需构建动力学模型,对此提出一种基于DQN的仿生机器狗步态规划方法。结合DQN算法的基本原理,将DQN算法与仿生机器狗控制器结合,进而大量训练仿生机器狗的DQN控制器,设置DQN的参数和计算DQN的奖励函数,并在Webhots仿真环境中对四足机器狗进行训练,得到四足仿生机器狗运动的翻滚角、俯仰角以及损失函数的变化。结果表明,通过DQN训练得到的仿生机器狗的翻滚角、俯仰角和损失函数都能趋于稳定,说明机器狗能快速平稳地完成步态运动,证实了DQN控制器的有效性,可为四足机器狗的步态生成提供新的方案。 展开更多
关键词 仿生机器狗 步态规划 强化学习 DQN算法
下载PDF
强化学习算法在机器人轨迹优化控制与智能纠偏中的应用 被引量:2
8
作者 陈宇翔 栗强强 《组合机床与自动化加工技术》 北大核心 2022年第11期111-114,共4页
针对传统机器人控制算法在运行轨迹控制方面精度低的不足,提出一种基于优化强化学习算法的轨迹控制与纠偏方法。分析机器人工作过程中关节和连杆空间位置关系及参数变化情况,依据当前的奖惩函数值变化来制定下一时刻机器人运动策略;对... 针对传统机器人控制算法在运行轨迹控制方面精度低的不足,提出一种基于优化强化学习算法的轨迹控制与纠偏方法。分析机器人工作过程中关节和连杆空间位置关系及参数变化情况,依据当前的奖惩函数值变化来制定下一时刻机器人运动策略;对强化学习算法进行优化,累计已经获得的奖励值通过综合判断确定最优轨迹,并实施动态化的轨迹纠偏,对机器人位置控制结构中的关节位置矢量控制及连杆空间位姿同步控制,基于多维控制视角提高控制精度。仿真实验结果表明,提出算法的机器人轨迹控制精度更高,且末端执行器与理论轨迹的偏差均值及方差均较小。 展开更多
关键词 强化学习 轨迹优化 纠偏 奖惩函数值
下载PDF
基于关系模式与深度强化学习的DS数据去噪模型 被引量:1
9
作者 牙珊珊 陈定甲 +2 位作者 郑宏春 李航 覃晓 《广西科学院学报》 2022年第4期403-411,共9页
远程监督(Distant Spervision,DS)数据集中存在大量错误标注的数据,而现有的DS数据集去噪方法通常只考虑针对具有标签的数据进行去噪,没有充分利用无标签数据,导致去噪效果不佳。本文提出一种新型DS数据去噪模型——Pattern Reinforceme... 远程监督(Distant Spervision,DS)数据集中存在大量错误标注的数据,而现有的DS数据集去噪方法通常只考虑针对具有标签的数据进行去噪,没有充分利用无标签数据,导致去噪效果不佳。本文提出一种新型DS数据去噪模型——Pattern Reinforcement Learning Model(PRL模型):首先利用基于关系模式的正样例抽取算法提取DS数据集中高质量的有标签数据;然后利用Filter-net作为分类器,提取DS数据集中高质量的无标签数据;最后将高质量的有标签数据和无标签数据作为深度强化学习(Reinforcement Learning,RL)方法的训练数据集,获得去噪效果更好的远程监督数据集。将PRL模型应用于New York Times(NYT)数据集,并以去噪后的数据集来训练PCNN+ONE、CNN+ATT、PCNN+ATT 3个模型。实验结果表明,经过PRL模型对数据集进行去噪后,这些模型的性能得以提升。因此,PRL模型是一种轻量的数据去噪模型,可以提升基于深度神经网络模型的性能。 展开更多
关键词 自然语言处理 关系分类 远程监督 迁移学习 去噪方法
下载PDF
基于鸽群的鲁棒强化学习算法
10
作者 张明英 华冰 +2 位作者 张宇光 李海东 郑墨泓 《网络与信息安全学报》 2022年第5期66-74,共9页
强化学习是一种人工智能算法,具有计算逻辑清晰、模型易扩展的优点,可以在较少甚至没有先验信息的前提下,通过和环境交互并最大化值函数,调优策略性能,有效地降低物理模型引起的复杂性。基于策略梯度的强化学习算法目前已成功应用于图... 强化学习是一种人工智能算法,具有计算逻辑清晰、模型易扩展的优点,可以在较少甚至没有先验信息的前提下,通过和环境交互并最大化值函数,调优策略性能,有效地降低物理模型引起的复杂性。基于策略梯度的强化学习算法目前已成功应用于图像智能识别、机器人控制、自动驾驶路径规划等领域。然而强化学习高度依赖采样的特性决定了其训练过程需要大量样本来收敛,且决策的准确性易受到与仿真环境中不匹配的轻微干扰造成严重影响。特别是当强化学习应用于控制领域时,由于无法保证算法的收敛性,难以对其稳定性进行证明,为此,需要对强化学习进行改进。考虑到群体智能算法可通过群体协作解决复杂问题,具有自组织性及稳定性强的特征,利用其对强化学习进行优化求解是一个提高强化学习模型稳定性的有效途径。结合群体智能中的鸽群算法,对基于策略梯度的强化学习进行改进:针对求解策略梯度时存在迭代求解可能无法收敛的问题,提出了基于鸽群的强化学习算法,以最大化未来奖励为目的求解策略梯度,将鸽群算法中的适应性函数和强化学习结合估计策略的优劣,避免求解陷入死循环,提高了强化学习算法的稳定性。在具有非线性关系的两轮倒立摆机器人控制系统上进行仿真验证,实验结果表明,基于鸽群的强化学习算法能够提高系统的鲁棒性,降低计算量,减少算法对样本数据库的依赖。 展开更多
关键词 鸽群算法 强化学习 策略梯度 鲁棒性
下载PDF
基于深度强化学习的移动机械臂末端滑模控制技术
11
作者 朱引行 《科学技术创新》 2022年第28期13-16,共4页
为提升移动机械臂末端滑模的单元控制时间,结合深度强化学习原理,设计移动机械臂末端滑模控制技术。布设多模态感知滑模控制节点,设计多协调控制轨迹,与控制程序融合,设计PD双向控制矩阵,采用深度强化学习实现末端滑模控制。结果表明:... 为提升移动机械臂末端滑模的单元控制时间,结合深度强化学习原理,设计移动机械臂末端滑模控制技术。布设多模态感知滑模控制节点,设计多协调控制轨迹,与控制程序融合,设计PD双向控制矩阵,采用深度强化学习实现末端滑模控制。结果表明:该方法将单元控制时间均控制在了1.5 s以下,表明在实际应用的过程中,控制的速度与效率并未受到影响,控制效果较好。 展开更多
关键词 深度强化 移动机械臂 末端滑模 控制技术 强化学习 移动控制
下载PDF
一种用于天基低轨卫星网络边缘计算的GA-DDPG卸载算法 被引量:2
12
作者 史栋元 王丽娜 《工程科学学报》 EI CSCD 北大核心 2024年第2期343-353,共11页
低轨卫星网络是第六代移动通信系统(6G)网络的重要组成部分,弥补了地面基站覆盖的盲区.由于星上计算能力和电池容量受限,导致任务出现时延长和能耗高的问题,因此在低轨卫星网络中引入边缘计算,边缘计算的一项关键技术就是计算卸载.针对... 低轨卫星网络是第六代移动通信系统(6G)网络的重要组成部分,弥补了地面基站覆盖的盲区.由于星上计算能力和电池容量受限,导致任务出现时延长和能耗高的问题,因此在低轨卫星网络中引入边缘计算,边缘计算的一项关键技术就是计算卸载.针对计算卸载过程中星间环境动态变化和高维动作空间的问题,提出一种基于遗传算法(GA)和深度确定性策略梯度(DDPG)的天基低轨卫星网络边缘计算卸载算法——GA-DDPG算法.卫星边缘计算环境的不断变化会导致DDPG奖励稀疏和探索性不足,将GA引入到DDPG算法中,首先,利用GA的选择算子使DDPG算法能够适应不断变化的卫星环境;然后,针对动作空间维度变大导致DDPG算法收敛不稳定的问题,利用GA种群的多样化探索和种群的冗余提升DDPG算法收敛的稳定性.仿真结果表明,GA-DDPG卸载算法能够降低天基低轨卫星网络计算负载,且时延和能耗均低于DDPG卸载算法和GA卸载算法.与DDPG卸载算法相比,GA-DDPG卸载算法还能提升收敛速度和稳定性. 展开更多
关键词 低轨卫星边缘计算 任务卸载 遗传算法 深度强化学习 星间链路
下载PDF
基于深度强化学习的农村物流运输路径自动选择研究
13
作者 贾苏绒 王公强 贾叶子 《自动化技术与应用》 2024年第6期24-27,68,共5页
常规方法求解运输路径自动选择模型时,选择的运输路径的运输总成本较高,因此,提出基于深度强化学习的农村物流运输路径自动选择方法。通过分析农村流通供应链的特殊性确定目标函数,并基于目标函数设计运输路径自动选择模型,采用深度强... 常规方法求解运输路径自动选择模型时,选择的运输路径的运输总成本较高,因此,提出基于深度强化学习的农村物流运输路径自动选择方法。通过分析农村流通供应链的特殊性确定目标函数,并基于目标函数设计运输路径自动选择模型,采用深度强化学习算法求解,设置状态-动作空间、奖励函数等要素完善动作选择过程,输出模型最优解,从而实现运输路径自动选择的目的。在实验论证中,所提方法所选运输路径的平均运输成本为8.35万元,相比对照方法更低。结果表明,设计的方法能够有效规划物流运输路径,降低运输成本。 展开更多
关键词 深度强化学习 农村物流运输 运输成本 路径规划
下载PDF
基于监督学习和深度强化学习的学前教育聊天机器人对话模型构建研究 被引量:1
14
作者 刘静 《自动化与仪器仪表》 2023年第8期291-294,共4页
聊天机器人的应用有助于满足儿童的好奇心与知识学习的欲望,利于学前教育质量的提升。在本次研究中为了提高聊天机器人在学前教育中的应用价值,通过深度强化学习(Deep Reinforcement Learning,DRL)与监督学习(Supervised Learning,SL)... 聊天机器人的应用有助于满足儿童的好奇心与知识学习的欲望,利于学前教育质量的提升。在本次研究中为了提高聊天机器人在学前教育中的应用价值,通过深度强化学习(Deep Reinforcement Learning,DRL)与监督学习(Supervised Learning,SL)进行了聊天机器人对话模型的建立。基于SL的对话模型在训练集和验证集中的成功率均为100%,其损失函数值分别为0.018和0.024。随着训练次数的增加,基于DRL的对话模型的成功率增加至97.2%,平均对话轮数降低为7轮。结果表明,基于监督学习和深度强化学习建立的机器人对话模型具有较好的性能,能够人性化地完成聊天互动。 展开更多
关键词 监督学习 深度强化学习 学前教育 聊天机器人 对话模型
原文传递
基于加强学习与联想记忆粒子群优化算法的节点定位 被引量:6
15
作者 张广峰 段其昌 刘政 《传感器与微系统》 CSCD 北大核心 2013年第3期72-73,77,共3页
提出了加强学习与联想记忆的粒子群优化算法,并将该算法应用到无线传感器网络的节点定位中。在RSSI模型测距产生的不同误差情况下,分别比较极大似然估计法和加强学习与联想记忆的粒子群优化算法产生的定位误差、定位方差,证明了加强学... 提出了加强学习与联想记忆的粒子群优化算法,并将该算法应用到无线传感器网络的节点定位中。在RSSI模型测距产生的不同误差情况下,分别比较极大似然估计法和加强学习与联想记忆的粒子群优化算法产生的定位误差、定位方差,证明了加强学习与联想记忆的粒子群优化算法是一种收敛快、精度高、稳定性好的优化算法,适合应用在无线传感器网络节点定位中。 展开更多
关键词 加强学习与联想记忆的粒子群优化算法 节点定位 接收信号强度指示测距模型 极大似然估计法
下载PDF
基于神经网络深度强化学习的分拣机器人避障规划技术 被引量:1
16
作者 丁玲 《工业仪表与自动化装置》 2023年第2期46-50,共5页
分拣机器人的避障决策过程较为复杂,为提高分拣机器人的工作效果,设计基于神经网络深度强化学习的分拣机器人避障规划技术。首先,在动力学场景中设置障碍物,利用马尔科夫决策过程获取分拣机器人的运动状态后,判断障碍目标。在对神经网... 分拣机器人的避障决策过程较为复杂,为提高分拣机器人的工作效果,设计基于神经网络深度强化学习的分拣机器人避障规划技术。首先,在动力学场景中设置障碍物,利用马尔科夫决策过程获取分拣机器人的运动状态后,判断障碍目标。在对神经网络实施深度优化学习后,设置了导引奖赏机制,并结合人工势场法建立连续型奖励函数,引导机器人向正确方向运动。将分拣机器人运动状态输入到神经网络中,在导引奖赏机制的引导下实现分拣机器人的避障。在环境中设置了障碍物,实现环境搭建,仿真测试实验结果表明:该方法具有较高的避障能力,可引导机器人在运动过程中做出正确的动作,进而实现精准避障。 展开更多
关键词 分拣机器人 马尔科夫决策 神经网络 深度强化学习 避障规划
下载PDF
基于深度强化学习的车辆紧急制动策略
17
作者 韩玲 张晖 +4 位作者 方若愚 刘国鹏 朱长盛 殷朝霞 迟瑞丰 《长春工业大学学报》 CAS 2022年第3期202-206,共5页
为提高车辆紧急制动过程的安全性,以及对不同环境的适应性,提出了基于深度强化学习(Deep Q-Learning,DQN)方法的紧急制动策略。所提出方法不依赖于精确的模型,通过动作-批评结构与环境交互,自主更新训练,实现了在不同环境下自主判断紧... 为提高车辆紧急制动过程的安全性,以及对不同环境的适应性,提出了基于深度强化学习(Deep Q-Learning,DQN)方法的紧急制动策略。所提出方法不依赖于精确的模型,通过动作-批评结构与环境交互,自主更新训练,实现了在不同环境下自主判断紧急制动。并在Carla仿真环境中对比所提出的基于DQN的紧急制动策略与基于专家决策的紧急制动策略,结果表明,提出的基于DQN的紧急制动策略具有更好的安全性。 展开更多
关键词 自动紧急制动 深度强化学习 行车安全性 自主学习
下载PDF
模糊强化学习的改进GEAR传感网络均衡算法
18
作者 安子强 《计算机仿真》 CSCD 北大核心 2013年第6期279-283,共5页
在网络节点分配均衡优化中,需要依靠地理位置与能量开销等先验知识才能进行调度,但传统GEAR节点分配算法中,传感节点的有效性不强,降低了通信效率。在分析GEAR传感节点分配算法基础上,提出模糊强化Q学习的改进GEAR传感网络均衡算法。运... 在网络节点分配均衡优化中,需要依靠地理位置与能量开销等先验知识才能进行调度,但传统GEAR节点分配算法中,传感节点的有效性不强,降低了通信效率。在分析GEAR传感节点分配算法基础上,提出模糊强化Q学习的改进GEAR传感网络均衡算法。运用模糊神经网络对强化学习中的Q值进行逼近,把Q值与无线传感节点分配过程相结合,根据模糊Q值对传递节点进行选择。提高通信效率,通过仿真结果验证了改进方法的通信能量消耗曲线趋势要低于传统GEAR算法,能有效避开网络拥塞区域,通信效率得到了显著的提高。 展开更多
关键词 模糊神经网络 强化学习 算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部