期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
大气汞污染模拟研究进展及控制策略优化方法 被引量:8
1
作者 朱云 王书肖 +3 位作者 Che-Jen Lin 郝吉明 Carey Jang 王龙 《环境科学》 EI CAS CSCD 北大核心 2011年第6期1851-1856,共6页
简评了国内外大气汞污染模拟相关研究情况,指出目前我国大气汞排放模拟及污染控制研究工作非常缺乏,严重影响了我国汞污染控制策略制定以及"汞环境外交纠纷"的积极应对;并据此建议应该对我国大气汞污染模拟及控制策略优化进... 简评了国内外大气汞污染模拟相关研究情况,指出目前我国大气汞排放模拟及污染控制研究工作非常缺乏,严重影响了我国汞污染控制策略制定以及"汞环境外交纠纷"的积极应对;并据此建议应该对我国大气汞污染模拟及控制策略优化进行系统研究,其研究内容包括:汞排放清单的建立、大气汞的长程输送、响应面模型软件(response surface modeling-Hg,RSM-Hg)的研发、汞污染控制策略优化4个方面.阐述了基于"RSM-Hg"的"汞污染控制策略优化"研究方法及流程,并提出RSM-Hg的研发重点是可控源排放-汞污染水平响应表面模型(RSM)建模."中国大气汞污染模拟及控制策略优化"研究工作的开展,将有利于加深对汞科学及我国汞污染的现状和时空分布特征的理解,并将奠定多行业汞污染排放协同控制优化的科学基础. 展开更多
关键词 汞污染 大气汞模型 响应面模型 控制策略优化 汞响应面模型软件
原文传递
无人机集群联合拓扑控制的智能路由规划方法 被引量:1
2
作者 颜志 易正伦 +1 位作者 欧阳博 王耀南 《通信学报》 EI CSCD 北大核心 2024年第2期137-149,共13页
针对现有无人机集群路由协议拓扑适变能力弱,易产生包重传、能量空洞和高时延,严重恶化了数据路由性能的问题,针对无人机集群中集群拓扑与路由的耦合特性,提出了一种联合拓扑控制的智能路由规划(IRPJTC)方法。该方法由基于虚拟力的自适... 针对现有无人机集群路由协议拓扑适变能力弱,易产生包重传、能量空洞和高时延,严重恶化了数据路由性能的问题,针对无人机集群中集群拓扑与路由的耦合特性,提出了一种联合拓扑控制的智能路由规划(IRPJTC)方法。该方法由基于虚拟力的自适应拓扑控制(VFATC)和基于近端策略优化的地理路由规划(PPO-GRP)组成。其中,VFATC使各无人机根据邻居运动状态信息自适应调整与邻居的距离,保证集群中链路的稳定连接;进一步,PPO-GRP引入VFATC中的链路稳定性指标,并结合端到端时延与能耗指标,设计多目标奖励函数,采用深度强化学习中的近端策略优化算法训练路由策略。仿真实验结果表明,IRPJTC相比于现有路由方法,能在保证分组传输成功率的同时,使端到端时延降低12.11%,无人机集群能耗降低4.56%,且具备更强的能耗均衡能力。 展开更多
关键词 无人机集群 路由协议 拓扑控制 近端策略优化 深度强化学习
下载PDF
基于自注意力机制的深度强化学习交通信号控制
3
作者 张玺君 聂生元 +1 位作者 李喆 张红 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期96-104,共9页
交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息... 交通信号控制(Traffic Signal Control, TSC)仍然是交通领域中最重要的研究课题之一。针对现有基于深度强化学习(Deep Reinforcement Learning, DRL)的交通信号控制方法的状态需要人为设计,导致提取交通状态信息难度大以及交通状态信息无法全面表达的问题,为了从有限特征中挖掘潜在交通状态信息,从而降低交通状态设计难度,提出一种引入自注意力网络的DRL算法。首先,仅获取交叉口各进入口车道车辆位置,使用非均匀量化和独热编码方法预处理得到车辆位置分布矩阵;其次,使用自注意力网络挖掘车辆位置分布矩阵的空间相关性和潜在信息,作为DRL算法的输入;最后,在单交叉口学习交通信号自适应控制策略,在多交叉口路网中验证所提算法的适应性和鲁棒性。仿真结果表明,在单交叉口环境下,与3种基准算法相比,所提算法在车辆平均等待时间等指标上具有更好的性能;在多交叉口路网中,所提算法仍然具有良好的适应性。 展开更多
关键词 智能交通 自适应控制 深度强化学习 自注意力网络 近端策略优化
下载PDF
基于PPO算法的四旋翼无人机位置控制
4
作者 杨宗月 刘磊 刘晨 《计算机仿真》 2024年第2期462-467,521,共7页
针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The re... 针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The reward shaping of RL),提出了一种新颖的奖励函数,相比传统的PID算法,可以使无人机飞行更迅速且平稳。实验表明,四旋翼无人机可以以高精度高平稳的性能从三维中的定点悬停及轨迹跟踪,精度高达97.2%;文中的位置控制器具有泛化性和鲁棒性。 展开更多
关键词 无人机 四旋翼 强化学习 位置控制 近端策略优化
下载PDF
基于强化学习的公交站场服务中断防治策略
5
作者 伦嘉铭 姜海明 谢康 《计算机仿真》 2024年第4期129-135,425,共8页
为缓解公交站场的服务中断问题,提出一种基于强化学习的动态发车控制策略。策略利用长短期记忆(LSTM)模型对公交行程时间进行预测,使智能体感知站场车辆与运行车辆的车头时距状态,以更好地评估决策的长期影响。针对站场无车可发的场景,... 为缓解公交站场的服务中断问题,提出一种基于强化学习的动态发车控制策略。策略利用长短期记忆(LSTM)模型对公交行程时间进行预测,使智能体感知站场车辆与运行车辆的车头时距状态,以更好地评估决策的长期影响。针对站场无车可发的场景,在计算动作概率分布时应用状态相关可微函数将无效动作遮蔽,避免智能体下发无效指令。通过奖励函数对大发车间隔进行惩罚,并使用近端策略优化(PPO)对模型进行训练。仿真结果表明,与传统方法相比,所提方法不仅能有效避免公交站场服务中断,而且使车辆载客率更均衡,乘客等待时间更少,车辆利用效率更高。 展开更多
关键词 公交服务中断 实时控制 强化学习 近端策略优化 无效动作遮蔽
下载PDF
基于近端策略优化的制导律设计
6
作者 李梦璇 郭建国 +1 位作者 许新鹏 沈昱恒 《空天防御》 2023年第4期51-57,共7页
制导律设计是拦截系统中的关键问题,常用的变结构制导律在拦截复杂机动目标时制导精度下降,且容易出现抖振。本文提出了一种基于近端策略优化的制导律设计方法,将拦截机动目标的制导问题抽象为马尔科夫决策过程,并设计了能够评价脱靶量... 制导律设计是拦截系统中的关键问题,常用的变结构制导律在拦截复杂机动目标时制导精度下降,且容易出现抖振。本文提出了一种基于近端策略优化的制导律设计方法,将拦截机动目标的制导问题抽象为马尔科夫决策过程,并设计了能够评价脱靶量和视线角速率抖振的奖励函数。对比实验表明:基于近端策略优化及其输出连续化的制导律拦截效果更加优秀,且能有效抑制滑模制导律中抖振现象,展现出良好的研究前景和潜在的应用价值。 展开更多
关键词 制导律 强化学习 滑模控制 近端策略优化
下载PDF
连续时间Markov决策过程在呼叫接入控制中的应用 被引量:3
7
作者 周亚平 奚宏生 +1 位作者 殷保群 唐昊 《控制与决策》 EI CSCD 北大核心 2001年第B11期795-799,共5页
应用 Markov决策过程与性能势相结合的方法 ,给出了呼叫接入控制的策略优化算法。所得到的最优策略是状态相关的策略 ,与基于节点已占用带宽决定行动的策略相比 ,状态相关策略具有更好的性能值 。
关键词 呼叫接入控制 MARKOV决策过程 策略优化 性能势 排队网络
下载PDF
基于互信息最大化的意图强化学习方法的研究 被引量:2
8
作者 赵婷婷 吴帅 +3 位作者 杨梦楠 陈亚瑞 王嫄 杨巨成 《计算机应用研究》 CSCD 北大核心 2022年第11期3327-3332,3364,共7页
强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选... 强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法。具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制。最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度。 展开更多
关键词 强化学习 互信息 意图控制 近端策略优化算法
下载PDF
基于深度强化学习的机翼分离流场零质量射流控制 被引量:1
9
作者 何贤军 华越 +3 位作者 王依哲 彭江舟 陈志华 吴威涛 《南京理工大学学报》 CAS CSCD 北大核心 2022年第6期697-708,共12页
为了降低机翼在飞行中受到的阻力,该文针对NACA0012翼型构建了基于双喷孔零质量合成射流的流动控制框架,利用深度强化学习(DRL)的近端策略优化(PPO)算法获取了一种具有环境实时适应性的主动流动控制策略。研究了不同来流条件下DRL流动... 为了降低机翼在飞行中受到的阻力,该文针对NACA0012翼型构建了基于双喷孔零质量合成射流的流动控制框架,利用深度强化学习(DRL)的近端策略优化(PPO)算法获取了一种具有环境实时适应性的主动流动控制策略。研究了不同来流条件下DRL流动控制策略对机翼边界层以及尾部流动分离情况的影响。探索了进一步考虑射流节能作为奖励函数的流动控制策略的学习与最终控制效果。针对DRL模型超参数开展了研究,对比分析了不同网络更新频率(5、10、20)和不同学习率(10^(-3)、10^(-4)、10^(-5))下流动控制模型的训练效率和控制策略效果。结果显示,通过DRL获得的流动控制策略显著地减小了机翼上表面边界层的厚度,实现了35%的减阻和33.7%的升阻比提升。DRL在复杂控制目标下依然能学习到有效的减阻增升策略,且射流能量节省近50%。较小的网络更新频率在训练初期能快速地提升训练效果,但在中后期存在奖励值不升反降,网络过拟合的问题。较大的网络更新频率和较小的学习率则存在训练效果提升缓慢,训练周期过长,学习效率低的问题。 展开更多
关键词 深度强化学习 机翼分离流场 主动流动控制 射流控制 近端策略优化 机翼边界层 尾部 网络更新频率
下载PDF
疫情防控政策优化背景下医疗机构的挑战及应对 被引量:3
10
作者 刘逸天 谈在祥 +1 位作者 孙志明 张学宁 《卫生经济研究》 北大核心 2023年第1期22-25,共4页
随着我国新一轮疫情防控政策的调整优化,公立医疗机构将面临患者数量短期内激增、医务人员职业风险加剧、医疗资源严重短缺和就诊流程亟待优化等挑战。对此,提出做好五个方面的应对策略:严防医疗资源挤兑,加强医疗物资储备,全面加强引... 随着我国新一轮疫情防控政策的调整优化,公立医疗机构将面临患者数量短期内激增、医务人员职业风险加剧、医疗资源严重短缺和就诊流程亟待优化等挑战。对此,提出做好五个方面的应对策略:严防医疗资源挤兑,加强医疗物资储备,全面加强引导宣传,优化医疗服务流程,政府统筹医疗资源供给。 展开更多
关键词 疫情防控政策 政策优化 挑战及应对
下载PDF
基于样本优化的PPO算法在单路口信号控制的应用
11
作者 张国有 张新武 《计算机系统应用》 2024年第6期161-168,共8页
优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中... 优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. 展开更多
关键词 交通信号控制 深度强化学习 近端策略优化算法 代理目标函数 状态特征向量
下载PDF
基于近端策略优化的高速无人飞行器上升段在线轨迹规划
12
作者 佘智勇 朱彤鸣 刘旺魁 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第3期863-870,共8页
针对高速无人飞行器上升段在线轨迹规划需要实现多约束下在线快速求解的问题,首先搭建了飞行器的运动和动力学模型,给出了轨迹规划所面临的约束条件;并根据约束条件和飞行特性,基于近端策略优化(PPO)策略梯度优化设计了满足任务要求的... 针对高速无人飞行器上升段在线轨迹规划需要实现多约束下在线快速求解的问题,首先搭建了飞行器的运动和动力学模型,给出了轨迹规划所面临的约束条件;并根据约束条件和飞行特性,基于近端策略优化(PPO)策略梯度优化设计了满足任务要求的动作状态空间和奖励评价函数。其次,基于飞行器上升段轨迹规划具有很强时间记忆性的特性,在传统PPO算法基础上引入长短期记忆网络(LSTM)网络结构,利用PPO-LSTM算法解决了高速飞行器上升段在线轨迹规划问题,训练出能够根据飞行器状态实时规划最优攻角策略的模型。最后,根据蒙特卡洛仿真对算法性能进行验证,结果表明,相比于传统PPO和粒子群算法,本文算法终端状态的均方根误差减小了约50%,充分证明了本文算法的优越性和有效性。 展开更多
关键词 导航制导与控制 高速无人飞行器 上升段 轨迹规划 近端策略优化算法
原文传递
基于PPO算法的仿生鱼循迹智能控制
13
作者 李云飞 严嫏 +2 位作者 张来平 邓小刚 邹舒帆 《计算机系统应用》 2023年第9期230-238,共9页
仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模... 仿生鱼具有广阔的工程应用前景,对于仿生鱼的控制,首先要解决的是循迹问题.然而,现有的基于CFD方式和传统控制算法的鱼游控制方法存在训练数据获取成本高、控制不稳定等缺点.本文提出了基于PPO算法的仿生鱼循迹智能控制方法:使用代理模型替代CFD方式产生训练数据,提高数据的产生效率;引入高效的PPO算法,加快策略模型的学习速度,提高训练数据的效用;引入速度参数,解决鱼体在急转弯区域无法顺利循迹的问题.实验表明,我们提出的方法在多种类型的路径上均具有更快的收敛速度和更加稳定的控制能力,在仿生机器鱼的智能控制方面具有重要的指导意义. 展开更多
关键词 深度强化学习 仿生鱼 智能控制 代理模型 PPO
下载PDF
STUDY ON THE OPTIMIZATION OF TRANSPORT CONTROL POLICY IN COMMUNICATION NETWORK 被引量:1
14
作者 Fan Shuyan Han Weizhan Lu Ran 《Journal of Electronics(China)》 2010年第2期261-266,共6页
In communication networks with policy-based Transport Control on-Demand (TCoD) function,the transport control policies play a great impact on the network effectiveness. To evaluate and optimize the transport policies ... In communication networks with policy-based Transport Control on-Demand (TCoD) function,the transport control policies play a great impact on the network effectiveness. To evaluate and optimize the transport policies in communication network,a policy-based TCoD network model is given and a comprehensive evaluation index system of the network effectiveness is put forward from both network application and handling mechanism perspectives. A TCoD network prototype system based on Asynchronous Transfer Mode/Multi-Protocol Label Switching (ATM/MPLS) is introduced and some experiments are performed on it. The prototype system is evaluated and analyzed with the comprehensive evaluation index system. The results show that the index system can be used to judge whether the communication network can meet the application requirements or not,and can provide references for the optimization of the transport policies so as to improve the communication network effectiveness. 展开更多
关键词 Communication network Comprehensive evaluation index system Network Application Effectiveness (NAE) Transport control on-Demand (TCoD) policy optimization
下载PDF
基于信任域策略优化的末制导控制量学习算法
15
作者 刘士荣 王天一 刘扬 《导航定位与授时》 CSCD 2022年第6期77-84,共8页
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略... 近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。 展开更多
关键词 末制导控制量 学习算法 深度强化学习 末制导 信任域策略优化
下载PDF
物联网中访问控制策略的翻译与优化
16
作者 汤伟强 郭云川 李超 《桂林电子科技大学学报》 2016年第6期495-499,共5页
为了解决不同访问控制策略语言所带来的交互授权问题,提出了一种将物联网第三方机构数据库中基于角色的访问控制策略翻译为物联网中基于属性的XACML访问控制策略的方法,将数据库策略翻译到哈希表中,再对哈希表进一步翻译生成XACML策略,... 为了解决不同访问控制策略语言所带来的交互授权问题,提出了一种将物联网第三方机构数据库中基于角色的访问控制策略翻译为物联网中基于属性的XACML访问控制策略的方法,将数据库策略翻译到哈希表中,再对哈希表进一步翻译生成XACML策略,在翻译的过程中检测角色多重继承所产生的重复授权,避免策略重复生成。并对翻译后的访问控制策略进行优化,将2条规则属性对比以检查这2条规则是否可以合并,通过策略中规则的合并减少策略的规模。实验证明了翻译与优化方法的有效性。 展开更多
关键词 物联网 访问控制策略翻译 策略优化 XACML
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部