期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于学习的鲁棒自适应评判控制研究进展 被引量:15
1
作者 王鼎 《自动化学报》 EI CSCD 北大核心 2019年第6期1031-1043,共13页
在作为人工智能核心技术的机器学习领域,强化学习是一类强调机器在与环境的交互过程中进行学习的方法,其重要分支之一的自适应评判技术与动态规划及最优化设计密切相关.为了有效地求解复杂动态系统的优化控制问题,结合自适应评判,动态... 在作为人工智能核心技术的机器学习领域,强化学习是一类强调机器在与环境的交互过程中进行学习的方法,其重要分支之一的自适应评判技术与动态规划及最优化设计密切相关.为了有效地求解复杂动态系统的优化控制问题,结合自适应评判,动态规划和人工神经网络产生的自适应动态规划方法已经得到广泛关注,特别在考虑不确定因素和外部扰动时的鲁棒自适应评判控制方面取得了很大进展,并被认为是构建智能学习系统和实现真正类脑智能的必要途径.本文对基于智能学习的鲁棒自适应评判控制理论与主要方法进行梳理,包括自学习鲁棒镇定,自适应轨迹跟踪,事件驱动鲁棒控制,以及自适应H_∞控制设计等,并涵盖关于自适应评判系统稳定性、收敛性、最优性以及鲁棒性的分析.同时,结合人工智能、大数据、深度学习和知识自动化等新技术,也对鲁棒自适应评判控制的发展前景进行探讨. 展开更多
关键词 适应评判控制 智能学习 神经网络 鲁棒控制 不确定系统
下载PDF
基于折扣广义值迭代的智能最优跟踪及应用验证 被引量:6
2
作者 王鼎 赵明明 +1 位作者 哈明鸣 乔俊飞 《自动化学报》 EI CAS CSCD 北大核心 2022年第1期182-193,共12页
设计了一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题.通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数.基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论... 设计了一种基于折扣广义值迭代的智能算法,用于解决一类复杂非线性系统的最优跟踪控制问题.通过选取合适的初始值,值迭代过程中的代价函数将以单调递减的形式收敛到最优代价函数.基于单调递减的值迭代算法,在不同折扣因子的作用下,讨论了迭代跟踪控制律的可容许性和误差系统的渐近稳定性.为了促进算法的实现,建立一个数据驱动的模型网络用于学习系统动态信息,同时构造评判网络和执行网络用于近似迭代代价函数和计算迭代跟踪控制律.值得注意的是,我们提出了新颖的停止准则来保证迭代跟踪控制律的有效性.这种停止准则包含两个条件,一个条件用来保证迭代跟踪控制律的可用性,这有利于评估误差系统的渐近稳定性;而另一个条件用来确保跟踪控制律的近似最优性.最后,通过包括污水处理在内的两个应用实例验证了本文提出的近似最优跟踪控制方法的可行性和有效性. 展开更多
关键词 适应评判控制 可容许性 广义值迭代 智能最优跟踪 神经网络
下载PDF
不对称约束多人非零和博弈的自适应评判控制
3
作者 李梦花 王鼎 乔俊飞 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第9期1562-1568,共7页
本文针对连续时间非线性系统的不对称约束多人非零和博弈问题,建立了一种基于神经网络的自适应评判控制方法.首先,本文提出了一种新颖的非二次型函数来处理不对称约束问题,并且推导出最优控制律和耦合Hamilton-Jacobi方程.值得注意的是... 本文针对连续时间非线性系统的不对称约束多人非零和博弈问题,建立了一种基于神经网络的自适应评判控制方法.首先,本文提出了一种新颖的非二次型函数来处理不对称约束问题,并且推导出最优控制律和耦合Hamilton-Jacobi方程.值得注意的是,当系统状态为零时,最优控制策略是不为零的,这与以往不同.然后,通过构建单一评判网络来近似每个玩家的最优代价函数,从而获得相关的近似最优控制策略.同时,在评判学习期间发展了一种新的权值更新规则.此外,通过利用Lyapunov理论证明了评判网络权值近似误差和闭环系统状态的稳定性.最后,仿真结果验证了本文所提方法的有效性. 展开更多
关键词 神经网络 适应评判控制 适应动态规划 非线性系统 不对称约束 多人非零和博弈
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部