期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
求解大规模机组组合问题的策略迭代近似动态规划 被引量:28
1
作者 韦化 龙丹丽 黎静华 《中国电机工程学报》 EI CSCD 北大核心 2014年第25期4420-4429,共10页
针对动态规划存在的“维数灾”问题,提出了一种求解大规模电力系统机组组合(unit commitment,UC)问题的策略迭代近似动态规划(policy iteration-approximate dynamicprogramming,PI.ADP)方法。采用策略迭代对动态规划过程中的... 针对动态规划存在的“维数灾”问题,提出了一种求解大规模电力系统机组组合(unit commitment,UC)问题的策略迭代近似动态规划(policy iteration-approximate dynamicprogramming,PI.ADP)方法。采用策略迭代对动态规划过程中的值函数进行近似,替代了从可行状态中精确计算值函数的过程,避免了“维数灾”的发生。在值函数的近似过程中,利用了实际系统的运行约束有效压缩状态空间,减少可选择的启停动作,进一步降低了计算量。10-1000机96时段系统的计算结果表明,所提方法能在较少时间内获得高质量的解,从而为求解大规模电力系统UC问题提供了参考。 展开更多
关键词 电力系统 机组组合 近似动态规划 策略迭代 近似值函数
下载PDF
基于Markov决策过程的输变电设备最佳检修决策 被引量:18
2
作者 贾京苇 侯慧娟 +3 位作者 杜修明 段大鹏 盛戈皞 江秀臣 《高电压技术》 EI CAS CSCD 北大核心 2017年第7期2323-2330,共8页
为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修... 为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修决策模型中,改变故障损失得到决策结果的变化。比较决策变化对应的设备故障损失和设备稳态概率可得知:所建立的基于状态的检修(CBM)模型适用于安装了在线监测装置的设备,而基于检测的检修(IBM)模型适用于无在线监测装置的设备;最优决策从维修成本最小的决策过渡到最后每次决策时都选择大修,整个变化过程证明了应用Markov决策可以折中维修成本和故障损失得到经济最优决策。研究结果可为检修决策人员提供定量的检修计划。 展开更多
关键词 输变电设备 检修决策 检修模型 MARKOV过程 MARKOV决策过程 策略迭代法
下载PDF
Feature-Based Aggregation and Deep Reinforcement Learning:A Survey and Some New Implementations 被引量:14
3
作者 Dimitri P.Bertsekas 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2019年第1期1-31,共31页
In this paper we discuss policy iteration methods for approximate solution of a finite-state discounted Markov decision problem, with a focus on feature-based aggregation methods and their connection with deep reinfor... In this paper we discuss policy iteration methods for approximate solution of a finite-state discounted Markov decision problem, with a focus on feature-based aggregation methods and their connection with deep reinforcement learning schemes. We introduce features of the states of the original problem, and we formulate a smaller "aggregate" Markov decision problem, whose states relate to the features. We discuss properties and possible implementations of this type of aggregation, including a new approach to approximate policy iteration. In this approach the policy improvement operation combines feature-based aggregation with feature construction using deep neural networks or other calculations. We argue that the cost function of a policy may be approximated much more accurately by the nonlinear function of the features provided by aggregation, than by the linear function of the features provided by neural networkbased reinforcement learning, thereby potentially leading to more effective policy improvement. 展开更多
关键词 REINFORCEMENT learning dynamic programming Markovian decision problems AGGREGATION feature-based ARCHITECTURES policy iteration DEEP neural networks rollout algorithms
下载PDF
一种批量最小二乘策略迭代方法 被引量:9
4
作者 周鑫 刘全 +1 位作者 傅启明 肖飞 《计算机科学》 CSCD 北大核心 2014年第9期232-238,共7页
策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题... 策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性。BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略。将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。 展开更多
关键词 强化学习 批量更新 最小二乘 策略迭代
下载PDF
多颗微小卫星接管失效航天器姿态运动的微分博弈学习控制 被引量:9
5
作者 韩楠 罗建军 柴源 《中国科学:信息科学》 CSCD 北大核心 2020年第4期588-602,共15页
对空间中由于燃料耗尽或执行机构故障而失效的航天器进行姿态接管控制能够实现其上高价值有效载荷的再利用,多个微小卫星通过协同,能够以较低的成本对其实施姿态接管控制.微分博弈研究了多个体的最优决策问题,其中各个体通过局部性能指... 对空间中由于燃料耗尽或执行机构故障而失效的航天器进行姿态接管控制能够实现其上高价值有效载荷的再利用,多个微小卫星通过协同,能够以较低的成本对其实施姿态接管控制.微分博弈研究了多个体的最优决策问题,其中各个体通过局部性能指标函数的优化获得控制策略,并实现博弈事先设定的全局目标.本文将失效航天器的姿态接管控制问题转换为多微小卫星的微分博弈问题进行研究.首先建立了多微小卫星的微分博弈模型,设计了微小卫星的性能指标函数,实现了对微小卫星微分博弈问题的数学描述.之后给出了微小卫星微分博弈的HJ (Hamilton-Jacobi)方程,并通过基于单神经网络的策略迭代算法进行了耦合HJ方程解的学习,实现了对微小卫星博弈均衡策略的逼近.最后进行了微小卫星微分博弈学习控制方法有效性的数值仿真验证,仿真结果表明,微小卫星通过学习到的近似博弈均衡控制策略,实现了失效航天器姿态接管控制的全局目标. 展开更多
关键词 姿态控制 接管控制 微分博弈 博弈控制 策略迭代
原文传递
连续时间Markov控制过程的平均代价最优鲁棒控制策略 被引量:4
6
作者 唐昊 韩江洪 高隽 《中国科学技术大学学报》 CAS CSCD 北大核心 2004年第2期219-225,共7页
在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选... 在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . 展开更多
关键词 Markov性能势 连续时间Markov控制过程 鲁棒控制策略 策略迭代 最优控制
下载PDF
视频业务的分布式协同接入控制建模 被引量:8
7
作者 刘兴华 奚宏生 《新型工业化》 2013年第1期68-78,共11页
基于三层架构的映射框架,本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素,所以本文以视频业务为主要研究对象。假设视频业务需求近似服从泊松分布,而服务时间服从指数分布,将一个资源... 基于三层架构的映射框架,本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素,所以本文以视频业务为主要研究对象。假设视频业务需求近似服从泊松分布,而服务时间服从指数分布,将一个资源节点上的业务接入状态的演化用Markov过程来描述,则所有的N个资源节点的分布式协同接入控制可以由一个马尔可夫切换空间控制过程来阐述。针对构建的马尔可夫切换空间控制系统,基于系统灵敏度的观点对系统性能进行优化,本文提出了基于策略梯度的随机逼近算法。同时,本文给出了一个仿真算例来说明此随机逼近算法的有效性。最后对本文进行了简单的总结。 展开更多
关键词 控制理论与控制工程 马尔可夫决策过程 马尔可夫切换系统 性能势 策略迭代
下载PDF
基于策略迭代和值迭代的POMDP算法 被引量:7
8
作者 孙湧 仵博 冯延蓬 《计算机研究与发展》 EI CSCD 北大核心 2008年第10期1763-1768,共6页
部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和... 部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的. 展开更多
关键词 部分可观察Markov决策 决策算法 智能体 值迭代 策略迭代
下载PDF
新时代中国生育政策迭代研究——基于倡议联盟框架的分析 被引量:1
9
作者 刘聪 尘兴邦 《前沿》 2024年第1期113-126,共14页
人口问题是“国之大者”,切实可行的生育政策是解决人口问题的一大重要举措。在厘清新时代中国生育政策的逻辑走向的基础上,尝试运用倡议联盟框架揭示并解释由单独二孩到全面二孩再到全面三孩政策迭代变迁的过程,从而助推生育政策的进... 人口问题是“国之大者”,切实可行的生育政策是解决人口问题的一大重要举措。在厘清新时代中国生育政策的逻辑走向的基础上,尝试运用倡议联盟框架揭示并解释由单独二孩到全面二孩再到全面三孩政策迭代变迁的过程,从而助推生育政策的进一步优化升级。研究发现,生育政策迭代变迁是政策子系统、外部事件、相对稳定变量、政策学习、信念体系等多方面共同作用的结果。其中,深层内核信念是促进生育政策稳定迭代变迁的根本原因,政策学习是引发生育政策迭代变迁的重要机制,外部事件为生育政策迭代变迁提供直接动力。此外,印证倡议政策联盟分析中国公共政策问题适切性的同时,也需要对框架体系适当修正,构建本土化的倡议联盟框架,形塑具有中国特色的公共政策话语体系。 展开更多
关键词 倡议联盟框架 生育政策 政策迭代
原文传递
Approximate policy iteration:a survey and somenew methods 被引量:6
10
作者 Dimitri P.BERTSEKAS 《控制理论与应用(英文版)》 EI 2011年第3期310-335,共26页
We consider the classical policy iteration method of dynamic programming(DP),where approximations and simulation are used to deal with the curse of dimensionality.We survey a number of issues:convergence and rate of c... We consider the classical policy iteration method of dynamic programming(DP),where approximations and simulation are used to deal with the curse of dimensionality.We survey a number of issues:convergence and rate of convergence of approximate policy evaluation methods,singularity and susceptibility to simulation noise of policy evaluation,exploration issues,constrained and enhanced policy iteration,policy oscillation and chattering,and optimistic and distributed policy iteration.Our discussion of policy evaluation is couched in general terms and aims to unify the available methods in the light of recent research developments and to compare the two main policy evaluation approaches:projected equations and temporal differences(TD),and aggregation.In the context of these approaches,we survey two different types of simulation-based algorithms:matrix inversion methods,such as least-squares temporal difference(LSTD),and iterative methods,such as least-squares policy evaluation(LSPE) and TD(λ),and their scaled variants.We discuss a recent method,based on regression and regularization,which recti?es the unreliability of LSTD for nearly singular projected Bellman equations.An iterative version of this method belongs to the LSPE class of methods and provides the connecting link between LSTD and LSPE.Our discussion of policy improvement focuses on the role of policy oscillation and its effect on performance guarantees.We illustrate that policy evaluation when done by the projected equation/TD approach may lead to policy oscillation,but when done by aggregation it does not.This implies better error bounds and more regular performance for aggregation,at the expense of some loss of generality in cost function representation capability.Hard aggregation provides the connecting link between projected equation/TD-based and aggregation-based policy evaluation,and is characterized by favorable error bounds. 展开更多
关键词 Dynamic programming policy iteration Projected equation AGGREGATION CHATTERING REGULARIZATION
原文传递
Discrete-time dynamic graphical games:model-free reinforcement learning solution 被引量:6
11
作者 Mohammed I.ABOUHEAF Frank L.LEWIS +1 位作者 Magdi S.MAHMOUD Dariusz G.MIKULSKI 《Control Theory and Technology》 EI CSCD 2015年第1期55-69,共15页
This paper introduces a model-free reinforcement learning technique that is used to solve a class of dynamic games known as dynamic graphical games. The graphical game results from to make all the agents synchronize t... This paper introduces a model-free reinforcement learning technique that is used to solve a class of dynamic games known as dynamic graphical games. The graphical game results from to make all the agents synchronize to the state of a command multi-agent dynamical systems, where pinning control is used generator or a leader agent. Novel coupled Bellman equations and Hamiltonian functions are developed for the dynamic graphical games. The Hamiltonian mechanics are used to derive the necessary conditions for optimality. The solution for the dynamic graphical game is given in terms of the solution to a set of coupled Hamilton-Jacobi-Bellman equations developed herein. Nash equilibrium solution for the graphical game is given in terms of the solution to the underlying coupled Hamilton-Jacobi-Bellman equations. An online model-free policy iteration algorithm is developed to learn the Nash solution for the dynamic graphical game. This algorithm does not require any knowledge of the agents' dynamics. A proof of convergence for this multi-agent learning algorithm is given under mild assumption about the inter-connectivity properties of the graph. A gradient descent technique with critic network structures is used to implement the policy iteration algorithm to solve the graphical game online in real-time. 展开更多
关键词 Dynamic graphical games Nash equilibrium discrete mechanics optimal control model-free reinforcementlearning policy iteration
原文传递
智能电网弹性响应时间业务需求的接入控制 被引量:7
12
作者 江琦 路改香 +1 位作者 唐昊 谭琦 《控制与决策》 EI CSCD 北大核心 2014年第7期1311-1315,共5页
考虑智能电网多种类型业务需求的接入控制,通过利用响应时间的弹性来平缓业务负荷的波动,使得电网运行的长期平均代价最小.针对业务需求和用户行为的随机分布特性,建立连续时间Markov控制过程的系统分析模型;结合性能势基于样本轨道的估... 考虑智能电网多种类型业务需求的接入控制,通过利用响应时间的弹性来平缓业务负荷的波动,使得电网运行的长期平均代价最小.针对业务需求和用户行为的随机分布特性,建立连续时间Markov控制过程的系统分析模型;结合性能势基于样本轨道的估计,提出一种基于仿真的策略迭代优化算法,有效缓解了系统大状态空间导致的维数灾问题,具有较快的收敛速度和良好的应用效果.仿真实验结果验证了所提出方法的有效性. 展开更多
关键词 智能电网 需求负荷控制 MARKOV控制过程 策略迭代 接入控制
原文传递
从1.0到5.0:我国营商环境政策边际创新的迭代演进研究——基于政策文本的NVivo质性分析
13
作者 温尔康 《汉江师范学院学报》 2024年第4期87-92,共6页
近十年,随着来我国营商环境建设的持续演进,制度建设不同阶段的政策重点和政策迭代机制是有待回答的重要问题。采用基于政策文本的扎根理论方法,并借助NVivo20软件对我国中央与试点城市2018年至2022年,从1.0到5.0版本的营商环境政策文... 近十年,随着来我国营商环境建设的持续演进,制度建设不同阶段的政策重点和政策迭代机制是有待回答的重要问题。采用基于政策文本的扎根理论方法,并借助NVivo20软件对我国中央与试点城市2018年至2022年,从1.0到5.0版本的营商环境政策文本进行编码,进一步对主范畴编码进行提炼,分析营商政策边际创新的关注重点要素与演进机制,搭建出从概念框架搭建、操作改革、指标攻坚再到体制变革的营商政策边际创新进路机理,发现操作层技术改革路径的指标攻坚面临“天花板”,政策进一步演进的关键在于体制变革,即提供市场经济基础的制度供给。 展开更多
关键词 营商环境 政策文本 政策迭代 边际创新
下载PDF
基于航迹消除与策略迭代的无人机集群区域目标搜索方法
14
作者 陈星 陈卓 +1 位作者 杨博文 李翱翔 《指挥控制与仿真》 2024年第1期37-43,共7页
无人机集群区域搜索在军事领域以及民用领域的搜救、巡逻、监测、环境勘测等方面有着广泛的应用,但如何保证不同场景下无人机集群搜索方法的效率问题依然是个难题。为了更好地解决搜索目标先验信息已知的无障碍区域内多无人机集群搜索... 无人机集群区域搜索在军事领域以及民用领域的搜救、巡逻、监测、环境勘测等方面有着广泛的应用,但如何保证不同场景下无人机集群搜索方法的效率问题依然是个难题。为了更好地解决搜索目标先验信息已知的无障碍区域内多无人机集群搜索航迹规划问题,提高无人机集群搜索效率,本文根据目标区域热度以及传感器探测概率等先验信息,提出了一种基于无人机航迹消除策略的概率计算方法,并在此基础上结合策略迭代算法动态规划无人机航迹,找到单个无人机航迹覆盖率最优策略;进而通过适当组合顺序实现无人机集群区域目标搜索整体覆盖率最优;最后,通过仿真计算验证了算法的有效性。 展开更多
关键词 无人机集群搜索 先验信息 航迹消除 策略迭代 动态规划
下载PDF
窗口长度自适应调整的策略迭代最优控制
15
作者 方欣 栾小丽 刘飞 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第4期745-750,共6页
在系统模型参数未知的最优控制问题中,策略迭代能否快速收敛到最优控制策略的关键在于值函数的估计.为了提升值函数的估计精度以及收敛速度,本文提出一种窗口长度自适应调整的策略迭代最优控制算法.充分利用一段时间内的历史样本数据,... 在系统模型参数未知的最优控制问题中,策略迭代能否快速收敛到最优控制策略的关键在于值函数的估计.为了提升值函数的估计精度以及收敛速度,本文提出一种窗口长度自适应调整的策略迭代最优控制算法.充分利用一段时间内的历史样本数据,通过影响力函数构建窗口长度与值函数估计性能之间的定量关系,根据数据窗口长度对估计性能影响力的不同,实现窗口长度的自适应调整.最后,将本文所提方法应用到连续发酵过程,结果表明,本文所提方法能够加快最优控制策略的收敛,克服参数变化或外部扰动对控制性能的影响,从而提升控制精度. 展开更多
关键词 最优控制 策略迭代 窗口长度自适应调整 影响力函数
下载PDF
基于半马尔可夫控制过程的智能电网最优储能控制 被引量:6
16
作者 计鹿飞 江琦 +1 位作者 唐昊 谭琦 《电力系统自动化》 EI CSCD 北大核心 2015年第6期24-27,共4页
针对具有多种类型业务需求的智能电网储能控制问题,在考虑业务需求和用户行为的随机分布特性,以及储能设备的充放电特性的基础上,建立了基于半马尔可夫控制过程的系统分析模型和策略优化框架。在此基础上,以电网运行的长期平均代价最小... 针对具有多种类型业务需求的智能电网储能控制问题,在考虑业务需求和用户行为的随机分布特性,以及储能设备的充放电特性的基础上,建立了基于半马尔可夫控制过程的系统分析模型和策略优化框架。在此基础上,以电网运行的长期平均代价最小为目标,结合性能势基于样本轨道的估计,提出一种基于仿真的策略迭代优化算法。该算法有效缓解了系统大状态空间导致的维数灾问题,具有较快的收敛速度和良好的应用效果。仿真结果验证了该方法的有效性。 展开更多
关键词 智能电网 需求负荷控制 储能 半马尔可夫控制过程 策略迭代
下载PDF
基于马尔可夫决策过程的附加服务定价优化
17
作者 杨明霞 朱星辉 《哈尔滨商业大学学报(自然科学版)》 CAS 2024年第1期118-122,共5页
随着民航运输业竞争日益加剧以及航空旅客个性化需求逐步提高,为取得差异化竞争优势和提高旅客满意度,开展附加服务业务是目前国内外航空公司关注的焦点,如何对附加服务定价以增加收益是目前航空公司运营的一个重要问题.为此基于马尔可... 随着民航运输业竞争日益加剧以及航空旅客个性化需求逐步提高,为取得差异化竞争优势和提高旅客满意度,开展附加服务业务是目前国内外航空公司关注的焦点,如何对附加服务定价以增加收益是目前航空公司运营的一个重要问题.为此基于马尔可夫决策过程提出了一种附加服务定价模型,并使用策略迭代算法对该模型进行求解以获得最优价格.对两类旅客细分市场进行仿真实验.结果表明,相比于现行使用较多的附加服务短视化定价模型,通过该模型求解得到最优价格将每位旅客的平均预期收益从93.7元提高到102.1元,提升幅度约8.96%. 展开更多
关键词 航空运输 收益管理 附加服务 服务定价 马尔可夫决策过程 策略迭代
下载PDF
基于状态-动作图测地高斯基的策略迭代强化学习 被引量:6
18
作者 程玉虎 冯涣婷 王雪松 《自动化学报》 EI CSCD 北大核心 2011年第1期44-51,共8页
在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于状态-动作图测地高斯基的策略迭代强化学习方法.首先,根据离策略方法建立马尔可夫决策过程的状态-动作图... 在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于状态-动作图测地高斯基的策略迭代强化学习方法.首先,根据离策略方法建立马尔可夫决策过程的状态-动作图论描述;然后,在状态-动作图上定义测地高斯核函数,利用基于近似线性相关的核稀疏方法自动选择测地高斯核的中心;最后,在策略评估阶段利用基于状态-动作图的测地高斯核逼近动作值函数,并基于估计的值函数进行策略改进.10×10格子世界的仿真结果表明,与基于状态图普通高斯基和测地高斯基的策略迭代强化学习方法相比,本文所提方法能以较少的基函数、高精度地逼近具有光滑且不连续特性的动作值函数,从而有效地获得最优策略. 展开更多
关键词 状态-动作图 测地高斯核 基函数 策略迭代 强化学习
下载PDF
跨域合作何以助推共同富裕:“飞地抱团”的政策迭代与集约治理机制探析
19
作者 刘聪 高进 《当代经济管理》 北大核心 2024年第9期67-76,共10页
共同富裕是社会主义的本质要求,积极探索具有中国特色的现实路径和治理创新是助推共同富裕的重要举措。文章从跨域视角切入尝试解答跨域合作何以助推共同富裕的现实之问,基于浙江平湖“飞地抱团”跨域合作的样板路径与模式创新,厘清“... 共同富裕是社会主义的本质要求,积极探索具有中国特色的现实路径和治理创新是助推共同富裕的重要举措。文章从跨域视角切入尝试解答跨域合作何以助推共同富裕的现实之问,基于浙江平湖“飞地抱团”跨域合作的样板路径与模式创新,厘清“飞地抱团”政策迭代的演进历程与关键内容,揭示并解释“飞地抱团”的逻辑机理与运作机制,以期扎实推进共同富裕。研究发现,“空间-要素-政策-议题”四维一体的跨域合作集约治理是实现异地“飞地抱团”山海协作,助推共同富裕的核心要素;“村域-镇域-市域-省域-跨省”的跨域合作进阶发展助力“飞地抱团”从1.0到5.0版政策迭代升级,凸显出集约治理的重要内容;基于集约理念所形塑的空间跨域集约利用、产业要素集约整合、政策供给集约调适、核心议题集约审议的集约化治理机制是实现跨域合作,迈向共同富裕的现实路径。以集约思想赋能空间治理,以政策迭代助推模式创新,从而实现跨域“结对互助”与“抱团聚集”,丰富国家治理的理论创新与共同富裕的实践道路。 展开更多
关键词 集约化治理 政策迭代 飞地抱团 跨域合作 共同富裕
下载PDF
基于ADP的可重构机械臂能耗保代价分散最优控制 被引量:4
20
作者 刘富 安毅 +1 位作者 董博 李元春 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第1期342-350,共9页
针对存在耦合交联不确定性的可重构机械臂系统分散控制问题,提出一种基于自适应动态规划(ADP)的能耗保代价最优控制方法。基于关节力矩量测信息,建立了可重构机械臂系统的动力学模型,通过定义兼顾控制精度与能耗的性能指标函数构建哈密... 针对存在耦合交联不确定性的可重构机械臂系统分散控制问题,提出一种基于自适应动态规划(ADP)的能耗保代价最优控制方法。基于关节力矩量测信息,建立了可重构机械臂系统的动力学模型,通过定义兼顾控制精度与能耗的性能指标函数构建哈密顿雅可比贝尔曼(HJB)方程,采用基于策略迭代(PI)的ADP算法对HJB方程进行求解,继而得到近似最优控制策略。基于Lyapunov理论对闭环可重构机械臂系统渐近稳定性进行证明,数值仿真结果验证了本文算法有效性。 展开更多
关键词 自动控制技术 可重构机械臂 非线性最优控制 自适应动态规划 能耗保代价分散控制 策略迭代
原文传递
上一页 1 2 4 下一页 到第
使用帮助 返回顶部