期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
Optimal Constrained Self-learning Battery Sequential Management in Microgrid Via Adaptive Dynamic Programming 被引量:16
1
作者 Qinglai Wei Derong Liu +1 位作者 Yu Liu Ruizhuo Song 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2017年第2期168-176,共9页
This paper concerns a novel optimal self-learning battery sequential control scheme for smart home energy systems. The main idea is to use the adaptive dynamic programming U+0028 ADP U+0029 technique to obtain the opt... This paper concerns a novel optimal self-learning battery sequential control scheme for smart home energy systems. The main idea is to use the adaptive dynamic programming U+0028 ADP U+0029 technique to obtain the optimal battery sequential control iteratively. First, the battery energy management system model is established, where the power efficiency of the battery is considered. Next, considering the power constraints of the battery, a new non-quadratic form performance index function is established, which guarantees that the value of the iterative control law cannot exceed the maximum charging/discharging power of the battery to extend the service life of the battery. Then, the convergence properties of the iterative ADP algorithm are analyzed, which guarantees that the iterative value function and the iterative control law both reach the optimums. Finally, simulation and comparison results are given to illustrate the performance of the presented method. © 2017 Chinese Association of Automation. 展开更多
关键词 adaptive control systems Automation Battery management systems control theory Electric batteries Energy management Energy management systems Intelligent buildings Iterative methods Number theory Secondary batteries
下载PDF
基于学习的鲁棒自适应评判控制研究进展 被引量:15
2
作者 王鼎 《自动化学报》 EI CSCD 北大核心 2019年第6期1031-1043,共13页
在作为人工智能核心技术的机器学习领域,强化学习是一类强调机器在与环境的交互过程中进行学习的方法,其重要分支之一的自适应评判技术与动态规划及最优化设计密切相关.为了有效地求解复杂动态系统的优化控制问题,结合自适应评判,动态... 在作为人工智能核心技术的机器学习领域,强化学习是一类强调机器在与环境的交互过程中进行学习的方法,其重要分支之一的自适应评判技术与动态规划及最优化设计密切相关.为了有效地求解复杂动态系统的优化控制问题,结合自适应评判,动态规划和人工神经网络产生的自适应动态规划方法已经得到广泛关注,特别在考虑不确定因素和外部扰动时的鲁棒自适应评判控制方面取得了很大进展,并被认为是构建智能学习系统和实现真正类脑智能的必要途径.本文对基于智能学习的鲁棒自适应评判控制理论与主要方法进行梳理,包括自学习鲁棒镇定,自适应轨迹跟踪,事件驱动鲁棒控制,以及自适应H_∞控制设计等,并涵盖关于自适应评判系统稳定性、收敛性、最优性以及鲁棒性的分析.同时,结合人工智能、大数据、深度学习和知识自动化等新技术,也对鲁棒自适应评判控制的发展前景进行探讨. 展开更多
关键词 自适应评判控制 智能学习 神经网络 鲁棒控制 不确定系统
下载PDF
基于多目标粒子群优化的污水处理系统自适应评判控制 被引量:3
3
作者 王鼎 赵慧玲 李鑫 《工程科学学报》 EI CSCD 北大核心 2024年第5期908-917,共10页
考虑到城市污水处理系统存在保证出水水质达标和降低能耗的需要,将其运行过程视为一个多目标优化控制问题.针对此问题,提出一种基于多目标粒子群优化(Multi-objective particle swarm optimization,MOPSO)算法的污水处理系统自适应评判... 考虑到城市污水处理系统存在保证出水水质达标和降低能耗的需要,将其运行过程视为一个多目标优化控制问题.针对此问题,提出一种基于多目标粒子群优化(Multi-objective particle swarm optimization,MOPSO)算法的污水处理系统自适应评判控制方案,该方案分为上层优化和底层跟踪控制两部分.首先,污水处理过程存在非线性、多变量、大时变等特点,结合数据驱动思想对入水及出水组分数据进行分析,构建关于出水水质和运行能耗的多目标优化模型.采用径向基函数(Radial basis function,RBF)神经网络进行建模,并与反向传播(Back propagation,BP)神经网络进行了对比.然后,结合MOPSO算法强大的优化能力,采用MOPSO算法对优化目标进行求解,并设计一个决策方式从最优解集中选出偏好解,作为溶解氧与硝态氮浓度的最优设定值.接下来,底层跟踪控制部分采用基于自适应动态规划的辅助控制器对比例–积分–微分算法的控制策略进行补充,弥补了传统控制算法自适应能力差的不足.此外,比例–积分–微分算法也为自适应动态规划算法提供了初始的稳定控制策略,克服了学习算法前期控制效果差的缺陷,保证了污水处理过程的安全性和可靠性.最终,该控制器成功实现了对最优设定值的跟踪控制.将所提算法在污水处理基准仿真平台上进行验证,结果表明所提算法能有效地提高污水处理过程的运行性能,不仅能保证出水水质达标,同时能有效地降低污水处理过程产生的能耗. 展开更多
关键词 污水处理 多目标优化 自适应评判 跟踪控制 神经网络
下载PDF
基于折扣广义值迭代的智能最优跟踪及应用验证 被引量:6
4
作者 王鼎 赵明明 +1 位作者 哈明鸣 乔俊飞 《自动化学报》 EI CAS CSCD 北大核心 2022年第1期182-193,共12页
设计了一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题.通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数.基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论... 设计了一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题.通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数.基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论了迭代跟踪控制律的可容许性和误差系统的渐近稳定性.为了促进算法的实现,建立一个数据驱动的模型网络用于学习系统动态信息,同时构造评判网络和执行网络用于近似迭代代价函数和计算迭代跟踪控制律.值得注意的是,我们提出了新颖的停止准则来保证迭代跟踪控制律的有效性.这种停止准则包含两个条件,一个条件用来保证迭代跟踪控制律的可用性,这有利于评估误差系统的渐近稳定性;而另一个条件用来确保跟踪控制律的近似最优性.最后,通过包括污水处理在内的两个应用实例验证了本文提出的近似最优跟踪控制方法的可行性和有效性. 展开更多
关键词 自适应评判控制 可容许性 广义值迭代 智能最优跟踪 神经网络
下载PDF
一类离散动态系统基于事件的迭代神经控制 被引量:5
5
作者 王鼎 《工程科学学报》 EI CSCD 北大核心 2022年第3期411-419,共9页
面向离散时间非线性动态系统,提出一种基于事件的迭代神经控制框架.主要目标是将迭代自适应评判方法与事件驱动机制结合起来,以解决离散时间非线性系统的近似最优调节问题.首先,构造两个迭代序列并建立一种事件触发的值学习策略.其次,... 面向离散时间非线性动态系统,提出一种基于事件的迭代神经控制框架.主要目标是将迭代自适应评判方法与事件驱动机制结合起来,以解决离散时间非线性系统的近似最优调节问题.首先,构造两个迭代序列并建立一种事件触发的值学习策略.其次,详细给出迭代算法的收敛性分析和新型框架的神经网络实现.这里是在基于事件的迭代环境下实施启发式动态规划技术.此外,通过设计适当的阈值以确定事件驱动方法的触发条件.最后,借助两个仿真实例验证本文控制方案的优越性能,尤其是在通信资源的利用方面.本文的工作有助于构建一类事件驱动机制下的智能控制系统. 展开更多
关键词 迭代自适应评判 神经控制 事件驱动设计 智能控制 非线性动态 优化控制
下载PDF
Advanced Policy Learning Near-Optimal Regulation 被引量:3
6
作者 Ding Wang Xiangnan Zhong 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2019年第3期743-749,共7页
Designing advanced design techniques for feedback stabilization and optimization of complex systems is important to the modern control field. In this paper, a near-optimal regulation method for general nonaffine dynam... Designing advanced design techniques for feedback stabilization and optimization of complex systems is important to the modern control field. In this paper, a near-optimal regulation method for general nonaffine dynamics is developed with the help of policy learning. For addressing the nonaffine nonlinearity, a pre-compensator is constructed, so that the augmented system can be formulated as affine-like form. Different cost functions are defined for original and transformed controlled plants and then their relationship is analyzed in detail. Additionally, an adaptive critic algorithm involving stability guarantee is employed to solve the augmented optimal control problem. At last, several case studies are conducted for verifying the stability, robustness, and optimality of a torsional pendulum plant with suitable cost. 展开更多
关键词 adaptive critic algorithm learning control NEURAL APPROXIMATION nonaffine DYNAMICS optimal REGULATION
下载PDF
融合自适应评判的随机系统数据驱动策略优化
7
作者 王鼎 王将宇 乔俊飞 《自动化学报》 EI CAS CSCD 北大核心 2024年第5期980-990,共11页
自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题,但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性.本文融合自适应评判技术,建立一种数据驱动的离散随机系统折扣最优调节方法.首先,针对宽... 自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题,但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性.本文融合自适应评判技术,建立一种数据驱动的离散随机系统折扣最优调节方法.首先,针对宽松假设下的非线性随机系统,研究带有折扣因子的无限时域最优控制问题.所提的随机系统Q-learning算法能够将初始的容许策略单调不增地优化至最优策略.基于数据驱动思想,随机系统Q-learning算法在不建立模型的情况下直接利用数据进行策略优化.其次,利用执行−评判神经网络方案,实现了随机系统Q-learning算法.最后,通过两个基准系统,验证本文提出的随机系统Q-learning算法的有效性. 展开更多
关键词 自适应评判设计 数据驱动 离散系统 神经网络 Q-LEARNING 随机最优控制
下载PDF
未知非线性零和博弈最优跟踪的事件触发控制设计 被引量:2
8
作者 王鼎 胡凌治 +2 位作者 赵明明 哈明鸣 乔俊飞 《自动化学报》 EI CAS CSCD 北大核心 2023年第1期91-101,共11页
设计了一种基于事件的迭代自适应评判算法,用于解决一类非仿射系统的零和博弈最优跟踪控制问题.通过数值求解方法得到参考轨迹的稳定控制,进而将未知非线性系统的零和博弈最优跟踪控制问题转化为误差系统的最优调节问题.为了保证闭环系... 设计了一种基于事件的迭代自适应评判算法,用于解决一类非仿射系统的零和博弈最优跟踪控制问题.通过数值求解方法得到参考轨迹的稳定控制,进而将未知非线性系统的零和博弈最优跟踪控制问题转化为误差系统的最优调节问题.为了保证闭环系统在具有良好控制性能的基础上有效地提高资源利用率,引入一个合适的事件触发条件来获得阶段性更新的跟踪策略对.然后,根据设计的触发条件,采用Lyapunov方法证明误差系统的渐近稳定性.接着,通过构建四个神经网络,来促进所提算法的实现.为了提高目标轨迹对应稳定控制的精度,采用模型网络直接逼近未知系统函数而不是误差动态系统.构建评判网络、执行网络和扰动网络用于近似迭代代价函数和迭代跟踪策略对.最后,通过两个仿真实例,验证该控制方法的可行性和有效性. 展开更多
关键词 自适应评判设计 事件触发控制 神经网络 最优跟踪控制 稳定性分析 零和博弈
下载PDF
A new approach of optimal control for a class of continuous-time chaotic systems by an online ADP algorithm
9
作者 宋睿卓 肖文栋 魏庆来 《Chinese Physics B》 SCIE EI CAS CSCD 2014年第5期138-144,共7页
We develop an online adaptive dynamic programming (ADP) based optimal control scheme for continuous-time chaotic systems. The idea is to use the ADP algorithm to obtain the optimal control input that makes the perfo... We develop an online adaptive dynamic programming (ADP) based optimal control scheme for continuous-time chaotic systems. The idea is to use the ADP algorithm to obtain the optimal control input that makes the performance index function reach an optimum. The expression of the performance index function for the chaotic system is first presented. The online ADP algorithm is presented to achieve optimal control. In the ADP structure, neural networks are used to construct a critic network and an action network, which can obtain an approximate performance index function and the control input, respectively. It is proven that the critic parameter error dynamics and the closed-loop chaotic systems are uniformly ultimately bounded exponentially. Our simulation results illustrate the performance of the established optimal control method. 展开更多
关键词 adaptive dynamic programming adaptive critic designs optimal control continuous-time chaoticsystem
下载PDF
异步风电机组软并网控制系统研究 被引量:2
10
作者 潘文霞 王伟 +1 位作者 李文朝 陆小花 《太阳能学报》 EI CAS CSCD 北大核心 2008年第7期792-796,共5页
建立了软并网最优控制数学模型,将一种基于神经网络的动态规划控制技术——自适应评价控制应用于软并网控制系统的设计,并对软并网过渡过程进行仿真,结果表明这种软并网控制系统能够将软并网冲击电流限定在电机额定电流以内,满足软并网... 建立了软并网最优控制数学模型,将一种基于神经网络的动态规划控制技术——自适应评价控制应用于软并网控制系统的设计,并对软并网过渡过程进行仿真,结果表明这种软并网控制系统能够将软并网冲击电流限定在电机额定电流以内,满足软并网控制系统的性能要求。 展开更多
关键词 异步风电机组 软并网 最优控制 动态规划 自适应评价控制
下载PDF
不对称约束多人非零和博弈的自适应评判控制
11
作者 李梦花 王鼎 乔俊飞 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第9期1562-1568,共7页
本文针对连续时间非线性系统的不对称约束多人非零和博弈问题,建立了一种基于神经网络的自适应评判控制方法.首先,本文提出了一种新颖的非二次型函数来处理不对称约束问题,并且推导出最优控制律和耦合Hamilton-Jacobi方程.值得注意的是... 本文针对连续时间非线性系统的不对称约束多人非零和博弈问题,建立了一种基于神经网络的自适应评判控制方法.首先,本文提出了一种新颖的非二次型函数来处理不对称约束问题,并且推导出最优控制律和耦合Hamilton-Jacobi方程.值得注意的是,当系统状态为零时,最优控制策略是不为零的,这与以往不同.然后,通过构建单一评判网络来近似每个玩家的最优代价函数,从而获得相关的近似最优控制策略.同时,在评判学习期间发展了一种新的权值更新规则.此外,通过利用Lyapunov理论证明了评判网络权值近似误差和闭环系统状态的稳定性.最后,仿真结果验证了本文所提方法的有效性. 展开更多
关键词 神经网络 自适应评判控制 自适应动态规划 非线性系统 不对称约束 多人非零和博弈
下载PDF
Data-based Optimal Control for Discrete-time Zero-sum Games of 2-D Systems Using Adaptive Critic Designs 被引量:8
12
作者 WEI Qing-Lai ZHANG Hua-Guang CUI Li-Li 《自动化学报》 EI CSCD 北大核心 2009年第6期682-692,共11页
关键词 自适应系统 最优控制 离散时间 自动化系统
下载PDF
Asymptotic tracking by a reinforcement learning-based adaptive critic controller 被引量:1
13
作者 Shubhendu BHASIN Nitin SHARMA +1 位作者 Parag PATRE Warren DIXON 《控制理论与应用(英文版)》 EI 2011年第3期400-409,共10页
Adaptive critic(AC) based controllers are typically discrete and/or yield a uniformly ultimately bounded stability result because of the presence of disturbances and unknown approximation errors.A continuous-time AC c... Adaptive critic(AC) based controllers are typically discrete and/or yield a uniformly ultimately bounded stability result because of the presence of disturbances and unknown approximation errors.A continuous-time AC controller is developed that yields asymptotic tracking of a class of uncertain nonlinear systems with bounded disturbances.The proposed AC-based controller consists of two neural networks(NNs)-an action NN,also called the actor,which approximates the plant dynamics and generates appropriate control actions;and a critic NN,which evaluates the performance of the actor based on some performance index.The reinforcement signal from the critic is used to develop a composite weight tuning law for the action NN based on Lyapunov stability analysis.A recently developed robust feedback technique,robust integral of the sign of the error(RISE),is used in conjunction with the feedforward action neural network to yield a semiglobal asymptotic result.Experimental results are provided that illustrate the performance of the developed controller. 展开更多
关键词 adaptive critic Reinforcement learning Neural network-based control
原文传递
强化学习理论、算法及应用 被引量:92
14
作者 张汝波 顾国昌 +1 位作者 刘照德 王醒策 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期637-642,共6页
强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然... 强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ; 展开更多
关键词 强化学习 学习理论 学习算法 机器学习 智能控制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部