期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于双重指针网络的车货匹配双重序列决策研究 被引量:2
1
作者 蔡岳 王恩良 +1 位作者 孙哲 孙知信 《计算机科学》 CSCD 北大核心 2022年第S02期111-119,共9页
由于我国对公路运输资源利用不均,车货供需问题成为如今的热点问题。车货供需匹配平台为最大化总体运力资源利用率,需要整合运输需求和运力,降低成本并提高效率。大部分平台通常采用启发式算法求解车货匹配问题,此类算法面对大规模的问... 由于我国对公路运输资源利用不均,车货供需问题成为如今的热点问题。车货供需匹配平台为最大化总体运力资源利用率,需要整合运输需求和运力,降低成本并提高效率。大部分平台通常采用启发式算法求解车货匹配问题,此类算法面对大规模的问题时存在寻优瓶颈。针对上述问题,首次将车货供需匹配问题转变成一种双重序列决策问题,据此研究适用于当今车货供需匹配环节的一种高效算法。首先,提出了一种车货匹配的数学模型,并将该模型抽象为双重序列决策问题,再创新性地提出双重指针网络算法求解该问题。本实验使用Actor-Critic算法作为模型的训练框架来训练双重指针网络,并评估了模型。经实验得,双重指针网络的车货匹配求解方法的寻优能力在小问题规模中与传统启发式算法相当,在大问题规模中超越启发式算法,同时时间消耗都大大下降。 展开更多
关键词 双重指针网络 双重序列决策问题 深度强化学习 组合优化 车货匹配 critic网络
下载PDF
近似动态规划在双容水箱预测控制中的应用 被引量:4
2
作者 李琦 陈晔明 《计算机仿真》 CSCD 北大核心 2014年第12期308-311,共4页
在双容水箱液位优化控制的研究中,由于双容水箱液位控制系统是一个典型的具有大滞后、非线性特征的难控系统,造成系统液位控制不稳定。为解决上述问题,提出一种近似动态规划的预测控制算法,建立反映系统预测时域内参考轨迹与预测输出偏... 在双容水箱液位优化控制的研究中,由于双容水箱液位控制系统是一个典型的具有大滞后、非线性特征的难控系统,造成系统液位控制不稳定。为解决上述问题,提出一种近似动态规划的预测控制算法,建立反映系统预测时域内参考轨迹与预测输出偏差的性能指标函数J。将函数J的优化问题看作动态规划问题,为了避免"维数灾",采用近似动态规划求解J的近似值,获得最(次)优控制策略。算法包括评价网络、模型网络和执行网络三部分。评价网络近似性能指标函数,模型网络近似系统输入输出关系,执行网络给出相应控制策略。通过不断在线调整各网络参数,使系统输出逼近参考液位。仿真结果表明,与经典PID算法相比,改进算法表现出更好的控制效果。 展开更多
关键词 预测控制 近似动态规划 双容水箱 评价网络
下载PDF
基于ADACD的新型辨识器及其模型参考自适应控制 被引量:1
3
作者 罗艳红 张化光 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第3期312-315,324,共5页
将控制依赖自适应评估设计引入到非线性系统的辨识中,以寻求最佳模型.定义一个总评估函数表示系统在所历经时间内的辨识总误差,然后构造一个评估网络来近似逼近这个总评估函数.再构造一个辨识器网络,其输出直接作为评估网络的输入,这样... 将控制依赖自适应评估设计引入到非线性系统的辨识中,以寻求最佳模型.定义一个总评估函数表示系统在所历经时间内的辨识总误差,然后构造一个评估网络来近似逼近这个总评估函数.再构造一个辨识器网络,其输出直接作为评估网络的输入,这样通过最小化评估网络的输出就可以达到寻求最佳模型的目的.辨识器的参数修正原则不再是使当前时刻的辨识误差最小化,而是使评估网络的输出最小化,即使系统在所历经时间内的近似辨识总误差最小化,这样不仅大大加快了收敛速度而且取得了更加精确的辨识效果.在获得对象模型之后,还研究了利用神经网络设计模型参考自适应控制器的方法.仿真结果表明,利用这种新型辨识器设计的模型参考自适应控制器能够保证被控对象对参考模型的跟踪快速稳定. 展开更多
关键词 控制依赖自适应评估设计(ADACD) 评估网络 辨识器 模型参考自适应控制(MRAC) 非线性系统
下载PDF
自适应动态规划在污水处理多变量控制中的应用 被引量:2
4
作者 李来鸿 王霞 薄迎春 《计算机测量与控制》 北大核心 2013年第3期667-670,共4页
提出了一种基于自适应动态规划(Adaptive dynamical programming,ADP)的控制器以解决污水处理过程溶解氧及硝态氮浓度的多变量控制问题;该控制器由评价和控制两个网络组成,其采用评价—行动的迭代方法逐步逼近最优的控制策略,避免了建... 提出了一种基于自适应动态规划(Adaptive dynamical programming,ADP)的控制器以解决污水处理过程溶解氧及硝态氮浓度的多变量控制问题;该控制器由评价和控制两个网络组成,其采用评价—行动的迭代方法逐步逼近最优的控制策略,避免了建立系统数学模型的难题;评价和控制网络的学习均采用在线的梯度下降算法,对评价网络学习的收敛性进行了分析;最后,基于污水处理过程国际标准模型BSM1(Benchmark Simulation Model no.1)对ADP控制器性能进行了测试,结果表明,与常规控制相比,ADP控制器具有较强的解耦能力,控制性能也有较大提高。 展开更多
关键词 自适应动态规划 污水处理过程控制 评价网络 控制网络 解耦
下载PDF
基于深度强化学习的蒸汽发生器水位控制 被引量:2
5
作者 张汲宇 夏虹 +2 位作者 彭彬森 王志超 姜莹莹 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2021年第12期1754-1761,共8页
针对蒸汽发生器精确建模困难和低工况下控制性能差的问题,本文提出了一种基于深度强化学习优化的智能分层(IH)控制器。使用串级PI控制器作为初级控制器,用于直接控制水位。高级控制器采用经过深度强化学习优化的智能体控制器,负责实时... 针对蒸汽发生器精确建模困难和低工况下控制性能差的问题,本文提出了一种基于深度强化学习优化的智能分层(IH)控制器。使用串级PI控制器作为初级控制器,用于直接控制水位。高级控制器采用经过深度强化学习优化的智能体控制器,负责实时对串级PI的参数进行优化,以便获得更好的控制性能。在高级控制器智能体的训练过程中,通过构建状态信息和奖励函数并采用深度残差神经网络逼近作为Q函数和策略函数的逼近器,获得了较好的泛化性能。结果表明:在不同的功率水平下,智能分层方法不仅对蒸汽发生器水位控制具有良好的跟踪能力,而且还具有很好的抗干扰能力。通过仿真验证了控制器的有效性。 展开更多
关键词 蒸汽发生器 深度强化学习 深度确定性策略梯度 水位控制 状态信息 奖励函数 评价网络 动作网络
下载PDF
Adaptive Dual Network Design for a Class of SIMO Systems with Nonlinear Time-variant Uncertainties 被引量:2
6
作者 LIU Bo HE Hai-Bo CHEN Sheng 《自动化学报》 EI CSCD 北大核心 2010年第4期564-572,共9页
关键词 非线性系统 IMO系统 FAN 自动化
下载PDF
基于强化学习的高速飞行器巡航段高度控制 被引量:2
7
作者 池海红 于馥睿 郭泽会 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2021年第9期1340-1346,1362,共8页
针对模型参数不确定情况下的高速飞行器高度控制问题,本文提出了一种基于强化学习的高度控制算法。在给出高速飞行器纵向运动学与动力学模型的基础上,将飞行器纵向模型分解成高度子系统和姿态子系统,并对高度子系统进行近似处理,使其具... 针对模型参数不确定情况下的高速飞行器高度控制问题,本文提出了一种基于强化学习的高度控制算法。在给出高速飞行器纵向运动学与动力学模型的基础上,将飞行器纵向模型分解成高度子系统和姿态子系统,并对高度子系统进行近似处理,使其具有与姿态子系统模型相同的形式。在此基础上,分别对高度子系统和姿态子系统进行基于强化学习的高度控制律和姿态控制律设计。最后分别对标称模型和气动参数极限拉偏情况下进行仿真实验。结果表明:所提出的方法对建模不确定具有很好的控制效果。 展开更多
关键词 高速飞行器 高度控制 纵向模型 强化学习 评价网络 动作网络 高度子系统 姿态子系统
下载PDF
三轴航天器姿态控制的自适应动态规划方法 被引量:1
8
作者 朱加华 戈新生 王明泽 《北京信息科技大学学报(自然科学版)》 2018年第1期27-32,共6页
应用执行依赖双启发式动态规划方法(ADDHP)研究三轴航天器姿态机动的最优控制问题。首先根据系统模型,选取状态变量和控制变量,利用评价网络近似性能指标函数,执行网络逼近控制变量;然后,根据控制目标确定系统的效用函数,保证航天器姿... 应用执行依赖双启发式动态规划方法(ADDHP)研究三轴航天器姿态机动的最优控制问题。首先根据系统模型,选取状态变量和控制变量,利用评价网络近似性能指标函数,执行网络逼近控制变量;然后,根据控制目标确定系统的效用函数,保证航天器姿态达到期望位置;最后,分别在单轴和三轴机动2种条件下进行仿真实验,并与执行依赖启发式动态规划方法(ADHDP)进行比较。仿真结果表明针对三轴航天器姿态最优控制问题,应用执行依赖双启发式动态规划方法,能够满足约束条件,并且响应速度快,比执行依赖启发式动态规划方法有更好的控制效果。 展开更多
关键词 自适应动态规划 三轴航天器 最优控制 评价网络 执行依赖双启发式动态规划方法
下载PDF
基于深度强化学习的自动驾驶车控制算法研究 被引量:19
9
作者 王丙琛 司怀伟 谭国真 《郑州大学学报(工学版)》 CAS 北大核心 2020年第4期41-45,80,共6页
为了提高基于强化学习的自动驾驶车控制算法的学习效率,提出了一种结合专家经验的自动驾驶策略学习算法(deep deterministic policy gridient with expert,DDPGwE)。DDPGwE采用基于DDPG的强化学习框架进行模型在线训练,使用真实的人类... 为了提高基于强化学习的自动驾驶车控制算法的学习效率,提出了一种结合专家经验的自动驾驶策略学习算法(deep deterministic policy gridient with expert,DDPGwE)。DDPGwE采用基于DDPG的强化学习框架进行模型在线训练,使用真实的人类驾驶数据对actor网络进行预训练,同时在actor网络中加入LSTM预测机制,提升自动驾驶车对将要发生状况的预判。在仿真平台TORCS中的实验结果表明,所提算法相较于原始DDPG算法,训练时间大大缩短,收敛速度加快,提高了模型的稳定性和泛化能力。 展开更多
关键词 神经网络 强化学习 自动驾驶 DDPG算法 actor-critic网络 LSTM
下载PDF
基于深度强化学习的分布式视频缓存策略研究
10
作者 刘亚男 《商丘师范学院学报》 CAS 2023年第3期16-19,共4页
为了适应大规模移动缓存网络动态且多样化的请求模式,基于深度强化学习模型提出了一种新颖的分布式视频缓存策略.该策略利用多智能体之间的协作,以自适应的方式学习最佳的缓存决策,从而减少内容访问时延和流量成本.使用真实的视频请求... 为了适应大规模移动缓存网络动态且多样化的请求模式,基于深度强化学习模型提出了一种新颖的分布式视频缓存策略.该策略利用多智能体之间的协作,以自适应的方式学习最佳的缓存决策,从而减少内容访问时延和流量成本.使用真实的视频请求数据集,将该策略与主流的缓存策略进行对比评估.实验结果表明,该策略能够在降低时延和流量成本的情况下,实现较高的缓存命中率. 展开更多
关键词 视频缓存 深度强化学习 Actor-critic网络
下载PDF
弹群分布式一致误差约束自适应最优协同拦截方法
11
作者 刘大卫 孙景亮 +2 位作者 龙腾 何镜 王晓悦 《兵工学报》 EI CAS CSCD 北大核心 2023年第9期2580-2590,共11页
为解决机动目标干扰下协同制导系统模型部分未知以及一致误差约束限制导致协同一致性差的问题,建立前馈补偿+反馈优化的复合协同制导架构,提出分布式自适应最优协同拦截制导方法。在前馈补偿部分,设计障碍Lyapunov函数非线性映射机制,... 为解决机动目标干扰下协同制导系统模型部分未知以及一致误差约束限制导致协同一致性差的问题,建立前馈补偿+反馈优化的复合协同制导架构,提出分布式自适应最优协同拦截制导方法。在前馈补偿部分,设计障碍Lyapunov函数非线性映射机制,补偿误差约束影响。设计权值自适应的神经网络观测器,实现对目标未知机动干扰的在线估计;在反馈优化部分,采用自适应动态规划技术设计虚拟控制量和实际控制量,将每一步中控制量设计转化为非线性耦合哈密顿-雅可比-贝尔曼(HJB)方程的求解问题。构建分布式自适应评价网络,设计残余误差驱动的评价网络权值自适应更新律,实现对HJB方程中最优代价函数的在线迭代求解。基于Lyapunov稳定性理论证明了非线性协同制导闭环系统的稳定性,确保了协同一致性误差的收敛性。数值仿真结果表明:新方法能够在保证拦截制导精度的同时将协同一致性误差降低至0.01 s。 展开更多
关键词 协同拦截 目标机动 自适应动态规划 误差约束 自适应评价网络
下载PDF
基于延迟策略的最大熵优势演员评论家算法 被引量:1
12
作者 祁文凯 桑国明 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1656-1664,共9页
在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致计算最优策略的过程产生较大的波动,算法难以收敛.针对上述问题... 在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致计算最优策略的过程产生较大的波动,算法难以收敛.针对上述问题,提出了一种基于延迟策略的最大熵优势演员评论家强化学习算法(DAAC).DAAC算法基于传统的策略梯度演员评论家算法框架,使用了两个评论家网络,分别计算状态值函数和动作的优势估计值函数并最大化目标策略的预期熵,在评论家网络中使用延迟策略更新的技巧.该算法在基于Linux平台的OpenAI Gym的物理仿真模拟器Mu JoCo进行了实验,并与传统的强化学习算法DQN,TRPO,DDPG在不同的机器人模拟器中作对比,实验结果表明,DAAC算法有效地降低了计算过程的波动性,使策略更快收敛到最优解并获得了更高的奖励值. 展开更多
关键词 强化学习 策略梯度 延迟更新 最大熵 演员评论家网络
下载PDF
Optimal Neuro-Control Strategy for Nonlinear Systems With Asymmetric Input Constraints 被引量:6
13
作者 Xiong Yang Bo Zhao 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2020年第2期575-583,共9页
In this paper,we present an optimal neuro-control scheme for continuous-time(CT)nonlinear systems with asymmetric input constraints.Initially,we introduce a discounted cost function for the CT nonlinear systems in ord... In this paper,we present an optimal neuro-control scheme for continuous-time(CT)nonlinear systems with asymmetric input constraints.Initially,we introduce a discounted cost function for the CT nonlinear systems in order to handle the asymmetric input constraints.Then,we develop a Hamilton-Jacobi-Bellman equation(HJBE),which arises in the discounted cost optimal control problem.To obtain the optimal neurocontroller,we utilize a critic neural network(CNN)to solve the HJBE under the framework of reinforcement learning.The CNN's weight vector is tuned via the gradient descent approach.Based on the Lyapunov method,we prove that uniform ultimate boundedness of the CNN's weight vector and the closed-loop system is guaranteed.Finally,we verify the effectiveness of the present optimal neuro-control strategy through performing simulations of two examples. 展开更多
关键词 Adaptive critic designs(ACDs) asymmetric input constraint critic neural network(CNN) nonlinear systems optimal control reinforcement learning(RL)
下载PDF
OMECNN:一种基于有序马尔可夫枚举器和判别神经网络的口令生成模型
14
作者 杨龙龙 杨频 +1 位作者 刘亮 张磊 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第4期65-72,共8页
基于口令的身份鉴别是目前最流行的鉴别方式之一,利用口令生成技术进行大规模口令集的生成,进而检测现有用户口令保护机制的缺陷、评估口令猜测算法效率等,是研究口令安全性的重要手段.本文提出一种基于有序马尔可夫枚举器和判别神经网... 基于口令的身份鉴别是目前最流行的鉴别方式之一,利用口令生成技术进行大规模口令集的生成,进而检测现有用户口令保护机制的缺陷、评估口令猜测算法效率等,是研究口令安全性的重要手段.本文提出一种基于有序马尔可夫枚举器和判别神经网络的口令生成模型OMECNN,使用有序马尔可夫口令枚举器按照口令组合概率的高低生成组合口令,同时基于判别神经网络进行打分筛选口令,选出得分高于阈值的口令组成最终口令集.采用本文提出方法生成的口令集具有按照口令组合概率高低排序的特点,以及符合真实训练口令集的口令分布的特点.实验结果表明,在生成107条口令时,OMECNN模型生成的口令集在Rockyou测试集上的匹配条目比OMEN模型高出16.60%,比PassGAN模型高出220.02%. 展开更多
关键词 口令生成 马尔科夫链 判别神经网络 生成对抗网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部