期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
Adaptive dynamic programming for online solution of a zero-sum differential game 被引量:10
1
作者 Draguna VRABIE Frank LEWIS 《控制理论与应用(英文版)》 EI 2011年第3期353-360,共8页
This paper will present an approximate/adaptive dynamic programming(ADP) algorithm,that uses the idea of integral reinforcement learning(IRL),to determine online the Nash equilibrium solution for the two-player zerosu... This paper will present an approximate/adaptive dynamic programming(ADP) algorithm,that uses the idea of integral reinforcement learning(IRL),to determine online the Nash equilibrium solution for the two-player zerosum differential game with linear dynamics and infinite horizon quadratic cost.The algorithm is built around an iterative method that has been developed in the control engineering community for solving the continuous-time game algebraic Riccati equation(CT-GARE),which underlies the game problem.We here show how the ADP techniques will enhance the capabilities of the offline method allowing an online solution without the requirement of complete knowledge of the system dynamics.The feasibility of the ADP scheme is demonstrated in simulation for a power system control application.The adaptation goal is the best control policy that will face in an optimal manner the highest load disturbance. 展开更多
关键词 Approximate/Adaptive dynamic programming game algebraic Riccati equation zero-sum differential game Nash equilibrium
原文传递
基于零和微分博弈的航天器相对位置容错控制
2
作者 孟庆媛 姜斌 +1 位作者 马亚杰 任好 《中国科学:技术科学》 EI CSCD 北大核心 2024年第3期391-401,共11页
针对带有执行器偏置故障和失效故障的航天器相对位置控制系统,本文提出了一种基于零和微分博弈的最优容错控制方法.首先,利用线性二次调节设计反馈控制器以保证无故障时系统的渐近稳定性能;其次,将航天器相对位置容错控制问题转换为零... 针对带有执行器偏置故障和失效故障的航天器相对位置控制系统,本文提出了一种基于零和微分博弈的最优容错控制方法.首先,利用线性二次调节设计反馈控制器以保证无故障时系统的渐近稳定性能;其次,将航天器相对位置容错控制问题转换为零和微分博弈问题,结合Hamilton-Jacobi-Issac(HJI)方程和极小极大原则设计最优控制律;最后,利用自适应动态规划方法设计评判网络对最优性能函数进行估计,构成自适应控制信号,保证了系统稳定性和状态最终一致有界.仿真结果表明了本文设计的容错控制律的有效性. 展开更多
关键词 执行器故障 容错控制 相对位置控制 航天器 零和微分博弈
原文传递
随机奇异系统的零和微分博弈 被引量:4
3
作者 周海英 张成科 朱怀念 《控制工程》 CSCD 北大核心 2016年第10期1562-1565,共4页
针对噪声依赖于状态的It?型随机奇异系统,分别讨论有限时域和无限时域下的零和微分博弈问题。首先,基于线性二次最优控制,分别建立了有限时域和无限时域随机奇异系统零和微分博弈模型,在此基础上,通过配方法,得到了有限时域随机奇异系... 针对噪声依赖于状态的It?型随机奇异系统,分别讨论有限时域和无限时域下的零和微分博弈问题。首先,基于线性二次最优控制,分别建立了有限时域和无限时域随机奇异系统零和微分博弈模型,在此基础上,通过配方法,得到了有限时域随机奇异系统零和微分博弈问题的均衡解等价于相应的耦合Riccati微分方程存在解,无限时域随机奇异系统零和微分博弈问题的均衡解等价于相应的耦合Riccati代数方程存在解,并给出了鞍点均衡策略,最后给出了数值算例。 展开更多
关键词 随机奇异系统 零和微分博弈 耦合Riccati方程 鞍点均衡策略
下载PDF
基于零和微分对策的非仿射导弹拦截系统制导律设计
4
作者 田辈辈 刘奇 袁斐然 《弹箭与制导学报》 北大核心 2023年第4期39-45,共7页
文中基于零和微分对策理论研究了非仿射导弹拦截系统制导律设计问题。首先构建辅助系统,将系统转化为仿射非线性增广形式;其次将导弹与目标视为对抗双方,根据极大极小值原理,设计最优微分对策制导策略,使得拦截系统能够满足预设的性能指... 文中基于零和微分对策理论研究了非仿射导弹拦截系统制导律设计问题。首先构建辅助系统,将系统转化为仿射非线性增广形式;其次将导弹与目标视为对抗双方,根据极大极小值原理,设计最优微分对策制导策略,使得拦截系统能够满足预设的性能指标;接着为了获得HJI(Hamilton-Jacobi-Isaacs)方程解析解,利用积分自适应动态规划技术构建神经网络;然后设计积分型自适应权值更新律,在线学习最优微分对策制导律,通过Lyapunov方法证明了闭环系统的有界性;最后将所提算法应用于非仿射导弹拦截系统。仿真结果表明,导弹视线角速率和相对速率满足目标成功捕获必要条件且脱靶量为1 m左右,导弹能够成功拦截目标。 展开更多
关键词 零和微分对策 非仿射导弹拦截系统 积分自适应动态规划 神经网络
下载PDF
自适应动态规划算法在飞行器追逃中的应用 被引量:2
5
作者 刘念 刘春生 孙景亮 《飞行力学》 CSCD 北大核心 2016年第6期45-48,62,共5页
针对飞行器追逃对抗的二人零和微分对策问题,提出基于数据的积分策略迭代自适应动态规划算法,以求解数学模型未知系统的控制律。该算法利用固定时段内有效的状态和输入信息,建立数据模型,并对其进行基于值函数和控制策略的算法迭代,在... 针对飞行器追逃对抗的二人零和微分对策问题,提出基于数据的积分策略迭代自适应动态规划算法,以求解数学模型未知系统的控制律。该算法利用固定时段内有效的状态和输入信息,建立数据模型,并对其进行基于值函数和控制策略的算法迭代,在平面拦截系统完全未知的情况下得到追逃双方的近似最优策略。仿真结果表明,所得到的双方控制策略能在有限界内无限接近最优解,验证了所提出算法的有效性。 展开更多
关键词 追逃问题 零和微分对策 策略迭代 自适应动态规划
原文传递
Solution of a zero-sum linear quadratic differential game with singular control cost of minimiser
6
作者 Valery Y.Glizer Oleg Kelis 《Journal of Control and Decision》 EI 2015年第3期155-184,共30页
We consider a finite horizon,zero-sum linear quadratic differential game.The feature of this game is that a weight matrix of the minimiser’s control cost in the cost functional is singular.Due to this singularity,the... We consider a finite horizon,zero-sum linear quadratic differential game.The feature of this game is that a weight matrix of the minimiser’s control cost in the cost functional is singular.Due to this singularity,the game can be solved neither by applying the Isaacs MinMax principle nor using the Bellman–Isaacs equation approach,i.e.this game is singular.Aprevious paper of one of the authors analysed such a game in the case where the cost functional does not contain the minimiser’s control cost at all,i.e.the weight matrix of this cost equals zero.In this case,all coordinates of the minimiser’s control are singular.In the present paper,we study the general case where the weight matrix of the minimiser’s control cost,being singular,is not,in general,zero.This means that only a part of the coordinates of the minimiser’s control is singular,while others are regular.The considered game is treated by a regularisation,i.e.by its approximate conversion to an auxiliary regular game.The latter has the same equation of dynamics and a similar cost functional augmented by an integral of the squares of the singular control coordinates with a small positive weight.Thus,the auxiliary game is a partial cheap control differential game.Based on a singular perturbation’s asymptotic analysis of this auxiliary game,the existence of the value of the original(singular)game is established,and its expression is obtained.The maximiser’s optimal state feedback strategy and the minimising control sequence in the original game are designed.It is shown that the coordinates of the minimising control sequence,corresponding to the regular coordinates of the minimiser’s control,are point-wise convergent in the class of regular functions.The optimal trajectory sequence and the optimal trajectory in the considered singular game also are obtained.An illustrative example is presented. 展开更多
关键词 zero-sum linear quadratic differential game singular minimiser’s control cost REGULARISATION partial cheap control game singular perturbation techniques minimising control sequence optimal trajectory sequence
原文传递
基于零和博弈的级联非线性系统的跟踪控制
7
作者 杨雪静 李庆奎 易军凯 《北京信息科技大学学报(自然科学版)》 2020年第2期43-51,共9页
针对带有不确定干扰的级联非线性系统的跟踪控制问题,将控制和干扰视为博弈的双方,在跟踪过程中将跟踪轨迹的最优性考虑在内,利用反推技术设计前馈控制器,将严格反馈系统的跟踪控制问题转化成等价的仿射系统的零和微分博弈问题;采用自... 针对带有不确定干扰的级联非线性系统的跟踪控制问题,将控制和干扰视为博弈的双方,在跟踪过程中将跟踪轨迹的最优性考虑在内,利用反推技术设计前馈控制器,将严格反馈系统的跟踪控制问题转化成等价的仿射系统的零和微分博弈问题;采用自适应动态规划(adaptive dynamic programming,ADP)技术,构建评价网络、控制网络和干扰网络实时在线学习,近似求解非线性零和微分博弈产生的HJI(hamilton-jacobi-isaacs)方程,进而得到值函数、控制策略和干扰策略。利用Lyapunov理论,证明了基于反推技术的零和微分博弈的收敛性和闭环系统的稳定性。仿真实例验证了该方法的有效性。 展开更多
关键词 级联 非线性 零和微分博弈 反推技术 跟踪控制
下载PDF
基于自适应博弈的不确定非线性系统跟踪控制
8
作者 陈静 《长江信息通信》 2021年第10期53-57,共5页
基于自适应迭代算法、两人零和微分博弈和神经网络,文章研究了不确定扰动的级联非线性系统的跟踪控制问题。利用零和博弈算法,将控制和扰动作为博弈的双方,博弈的纳什均衡解将提供有界L2增益问题的解决方案,因此对于鲁棒控制非常重要。... 基于自适应迭代算法、两人零和微分博弈和神经网络,文章研究了不确定扰动的级联非线性系统的跟踪控制问题。利用零和博弈算法,将控制和扰动作为博弈的双方,博弈的纳什均衡解将提供有界L2增益问题的解决方案,因此对于鲁棒控制非常重要。但其解决方案取决于求解设计Hamilton-Jacobi-Isaacs(HJI)方程。所以文章利用了一种基于策略迭代的在线自适应学习算法,用于解决具有已知动态的非线性系统的连续时间两人无限时延零和博弈问题。给出了针对RBF神经网络的新型优化算法,证明了最佳鞍点解的收敛性,并且还保证了系统的稳定性。仿真实例表明,该新算法在线求解线性系统和复杂非线性系统的HJI方程是有效的。 展开更多
关键词 中值定理 零和微分博弈 HJL方程 RBF神经网络 纳什均衡解
下载PDF
Policy Iteration Algorithms for Zero-Sum Stochastic Differential Games with Long-Run Average Payoff Criteria
9
作者 JoséDaniel López-Barrientos 《Journal of the Operations Research Society of China》 EI 2014年第4期395-421,共27页
This paper studies the policy iteration algorithm(PIA)for zero-sum stochastic differential games with the basic long-run average criterion,as well as with its more selective version,the so-called bias criterion.The sy... This paper studies the policy iteration algorithm(PIA)for zero-sum stochastic differential games with the basic long-run average criterion,as well as with its more selective version,the so-called bias criterion.The system is assumed to be a nondegenerate diffusion.We use Lyapunov-like stability conditions that ensure the existence and boundedness of the solution to certain Poisson equation.We also ensure the convergence of a sequence of such solutions,of the corresponding sequence of policies,and,ultimately,of the PIA. 展开更多
关键词 Ergodic payoff criterion zero-sum stochastic differential games Policy iteration algorithm Nondegenerate diffusions Poisson equation Schäl convergence Bias game
原文传递
连续初始状态下带不对称信息的微分博弈
10
作者 宋敏 洪世煌 《杭州电子科技大学学报(自然科学版)》 2019年第5期90-93,共4页
研究了关于初始状态的带不对称信息的二人零和微分博弈。在其不对称信息类型不是有限的情形下,讨论了上、下值函数关于Wasserstein距离的Lipschitz连续性,并证明了在Isaacs条件下,此博弈值函数的存在性。
关键词 零和微分博弈 不对称信息 Isaacs条件 Wasserstein距离
下载PDF
在CEV模型下带跳的非零和再保险投资博弈
11
作者 李国柱 马世霞 黄晴 《数学的实践与认识》 2023年第7期29-39,共11页
研究了两个竟争性保险公司在均值方差准则下的非零和随机微分博弈问题.每个保险公司都能购买再保险,并投资于一个包含无风险资产和风险资产的金融市场,它的风险资产的价格过程由CEV模型描述.特别地,假设每个保险公司的剩余过程遵循跳跃... 研究了两个竟争性保险公司在均值方差准则下的非零和随机微分博弈问题.每个保险公司都能购买再保险,并投资于一个包含无风险资产和风险资产的金融市场,它的风险资产的价格过程由CEV模型描述.特别地,假设每个保险公司的剩余过程遵循跳跃扩散风险模型.应用随机控制方法,推导了均衡投资再保险策略的闭式表达式和相应的价值函数.此外,提供一些数值分析来说明模型参数对均衡投资策略的影响,并得出一些经济解释. 展开更多
关键词 非零和随机微分博弈 相对绩效 NASH均衡 CEV模型 跳扩散模型
原文传递
常弹性方差模型下非零和投资组合博弈 被引量:3
12
作者 吴辉 马超群 《系统工程》 CSSCI CSCD 北大核心 2015年第12期1-7,共7页
提供了一个关于两个投资者之间非零和随机微分投资组合博弈问题的系统研究。假设投资者具有指数效用,金融市场上存在两种资产,风险资产服从常弹性方差模型。该非零和博弈问题被构造成两个效用最大化问题。每个投资者最大化终止时刻个人... 提供了一个关于两个投资者之间非零和随机微分投资组合博弈问题的系统研究。假设投资者具有指数效用,金融市场上存在两种资产,风险资产服从常弹性方差模型。该非零和博弈问题被构造成两个效用最大化问题。每个投资者最大化终止时刻个人财富与他的竞争对手的财富的差的效用。通过动态规划方法,得到了价值函数满足的HJB方程、值函数以及最优投资均衡策略的显式表达式。最后进行了数值模拟,提供了均衡策略合理的经济解释。 展开更多
关键词 非零和随机微分博弈 指数效用 纳什均衡 最优投资 HJB方程
原文传递
一类微分博弈上值函数的上共轭的等价形式
13
作者 贺乐 洪世煌 《杭州电子科技大学学报(自然科学版)》 2019年第4期88-91,共4页
证明了带不对称信息和相关信息的二人零和微分博弈上值函数的上共轭等价形式。通过定义博弈者带延迟的非预测随机策略,定义了博弈的值函数,根据上共轭的定义,得到上值函数的上共轭函数,最后证明了其等价形式。
关键词 不完全信息 二人零和微分博弈 上值函数 上共轭
下载PDF
在CEV模型下带违约风险的时间一致再保险投资博弈
14
作者 李国柱 马世霞 《数学杂志》 2020年第6期662-672,共11页
本文研究两个竞争保险公司之间的非零和随机微分博弈问题.利用博弈和随机动态规划方法,获得了违约前和违约后的纳什均衡策略和相应的值函数.最后对纳什均衡策略进行参数分析,并给出经济解释.
关键词 非零和随机微分博弈 相对绩效 CEV模型 可违约风险
下载PDF
部分信息下带跳线性二次平均场类型的二人零和微分对策问题 被引量:3
15
作者 杨依芸 唐矛宁 孟庆欣 《湖州师范学院学报》 2022年第4期1-10,共10页
讨论在部分信息下带跳线性二次平均场类型的二人零和微分对策问题,其中状态方程是由布朗运动和泊松随机鞅测度共同驱动,且包含仿射项的平均场类型的随机微分方程.通过二人零和微分对策中两个决策者的相互作用,引入两个Riccati方程,再利... 讨论在部分信息下带跳线性二次平均场类型的二人零和微分对策问题,其中状态方程是由布朗运动和泊松随机鞅测度共同驱动,且包含仿射项的平均场类型的随机微分方程.通过二人零和微分对策中两个决策者的相互作用,引入两个Riccati方程,再利用经典的变分技术和配方法,建立开环鞍点的状态反馈表示和最优的对策值函数,最后通过讨论该问题的一个特例,得到其相应最优控制的反馈表示. 展开更多
关键词 二人零和微分对策 线性二次 平均场 部分信息 倒向随机微分方程 开环鞍点 RICCATI方程
下载PDF
非线性离散不确定系统的鲁棒H_∞状态反馈控制
16
作者 钟麦英 汤兵勇 黄小原 《控制理论与应用》 EI CAS CSCD 北大核心 2001年第4期605-608,共4页
研究具有不确定非线性离散系统的鲁棒性能准则问题 .基于二人零和动态对策理论 ,给出并证明了系统鲁棒稳定以及扰动衰减问题解存在的充分条件 ,通过求解离散时间Hamilton jacobi Isaacs方程给出了其鲁棒H∞ 状态反馈控制解 .
关键词 鲁棒性 非线性离散不确定系统 H∞控制 状态反馈控制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部