期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
齿轮表面的在线强化研究
被引量:
2
1
作者
蒋松
程西云
+2 位作者
余红华
陈国需
陈波水
《润滑与密封》
EI
CAS
CSCD
北大核心
2000年第6期30-32,共3页
根据现有的齿轮表面处理技术 ,提出了齿轮表面的在线强化新构思 ,进而得出齿轮在线强化设计的方法。按此方法 ,在CL - 10 0齿轮实验机上实现了齿轮表面的在线强化 。
关键词
在线
强化
齿轮表面
摩擦化学
摩擦扩散
下载PDF
职称材料
齿轮传动副在线强化的实验研究
被引量:
1
2
作者
曹兴进
韦云隆
谢江华
《现代制造工程》
CSCD
北大核心
2003年第2期7-9,共3页
齿轮试件的模数为 1.75 ,齿数分别为 3 2和 17,材料为 2 0CrMo ,分别选用平均粒径在 2 μm以下的超细无机硼酸盐添加剂配制的润滑油及普通矿物油ISOVG68润滑齿轮副 ,由自制的齿轮实验台上的实验结果表明 ,选用加有超细无机硼酸盐添加剂...
齿轮试件的模数为 1.75 ,齿数分别为 3 2和 17,材料为 2 0CrMo ,分别选用平均粒径在 2 μm以下的超细无机硼酸盐添加剂配制的润滑油及普通矿物油ISOVG68润滑齿轮副 ,由自制的齿轮实验台上的实验结果表明 ,选用加有超细无机硼酸盐添加剂的润滑油时 ,齿轮副抗剥落能力大大提高。
展开更多
关键词
齿轮传动副
在线
强化
实验研究
硼酸盐
渗透
改性层
齿轮油
下载PDF
职称材料
界面摩擦渗透的数学模型
3
作者
李晓涛
陈国需
郭小川
《石油学报(石油加工)》
EI
CAS
CSCD
北大核心
2009年第B09期32-38,共7页
以100%的硼酸三丙酯作为强化剂,通过分析强化剂功能元素的扩散和渗透的条件、过程和机理,建立了扩散渗透的数学模型,并对数学模型进行了分析,从而得到有利于摩擦渗透的各种条件、摩擦副强化剂的选择、强化剂浓度的确定以及进行强化的工...
以100%的硼酸三丙酯作为强化剂,通过分析强化剂功能元素的扩散和渗透的条件、过程和机理,建立了扩散渗透的数学模型,并对数学模型进行了分析,从而得到有利于摩擦渗透的各种条件、摩擦副强化剂的选择、强化剂浓度的确定以及进行强化的工况,为以后的理论和实验研究建立起桥梁,使摩擦副有可能实现在线强化,并在此基础上完善在线强化理论。
展开更多
关键词
表面膜
摩擦渗透
摩擦化学反应
数学模型
在线
强化
下载PDF
职称材料
摩擦表面在线强化的实验研究
4
作者
李晓涛
陈国需
蒋松
《润滑与密封》
CAS
CSCD
北大核心
2003年第5期22-24,共3页
本文用纯的硼酸三丙酯在四球机摩擦磨损试验机上进行了摩擦表面在线强化的实验 。
关键词
摩擦表面
在线
强化
硼酸三丙酯
四球机摩擦磨损试验机
实验研究
渗透层
摩擦化学
下载PDF
职称材料
基于在线强化学习的风电系统自适应负荷频率控制
被引量:
21
5
作者
杨丽
孙元章
+2 位作者
徐箭
廖思阳
彭刘阳
《电力系统自动化》
EI
CSCD
北大核心
2020年第12期74-83,共10页
大规模风电接入给系统带来新的不确定性,影响系统频率响应特性,从数据驱动的角度出发,提出了一种基于自适应动态模型的在线强化学习方法,用于系统的负荷频率控制。建立低秩自编码器特征提取网络,从所量测的低维数据中发现隐藏特征;基于...
大规模风电接入给系统带来新的不确定性,影响系统频率响应特性,从数据驱动的角度出发,提出了一种基于自适应动态模型的在线强化学习方法,用于系统的负荷频率控制。建立低秩自编码器特征提取网络,从所量测的低维数据中发现隐藏特征;基于特征网络,建立非线性动态系统稀疏辨识学习模型,感知系统动态模型的潜在物理状态,提升模型在线学习效率;通过结合模型预测控制,进行实时决策控制。所提出方法能够有效解决传统模型预测控制对系统全局模型准确性的依赖问题,加强控制器对系统动态模型的自适应性,且能有效跟踪风电输出功率的随机波动。最后,以接入四型风机的负荷频率控制模型为例,验证所提方法的有效性。
展开更多
关键词
负荷频率控制
低秩自编码器
非线性动态系统稀疏辨识
模型预测控制
在线
强化
学习
下载PDF
职称材料
多无人机系统在线强化学习最优安全跟踪控制
被引量:
1
6
作者
弓镇宇
杨飞生
《航空科学技术》
2024年第4期25-30,共6页
在无人机(UAV)编队跟踪任务中,虚假数据注入(FDI)攻击者可向控制指令注入误导性数据,导致无人机无法形成指定的编队构型,故需设计安全编队跟踪控制器。为此,本文利用零和图博弈对攻防过程进行建模,其中FDI攻击者和安全控制器是博弈的参...
在无人机(UAV)编队跟踪任务中,虚假数据注入(FDI)攻击者可向控制指令注入误导性数据,导致无人机无法形成指定的编队构型,故需设计安全编队跟踪控制器。为此,本文利用零和图博弈对攻防过程进行建模,其中FDI攻击者和安全控制器是博弈的参与者,攻击者的目标是最大化设定的成本函数,而安全控制器的目标与之相反,求解博弈并获得最优安全控制策略依赖于求取Hamilton-Jacobi-Isaacs(HJI)方程的解。而HJI方程是耦合偏微分方程,难以直接求解,因此结合经验回放机制引入了有限时间收敛的在线强化学习算法,设计了单评价神经网络近似值函数并获得了最优安全控制策略。最终利用仿真验证了算法的有效性。
展开更多
关键词
FDI攻击
多无人机
在线
强化
学习
优化控制
零和图博弈
下载PDF
职称材料
双注意力记忆多智能体强化学习
7
作者
马裕博
周长东
+2 位作者
张志文
杨培泽
张博
《计算机系统应用》
2024年第12期115-122,共8页
多智能体协同在强化学习研究领域占据重要地位,旨在深入探讨智能体如何通过相互协作实现共同目标.大部分协作多智能体算法注重合作的构建,但忽略了个体策略的强化.为解决上述问题,本文提出一种BiTransformer记忆(BTM)在线强化学习模型,...
多智能体协同在强化学习研究领域占据重要地位,旨在深入探讨智能体如何通过相互协作实现共同目标.大部分协作多智能体算法注重合作的构建,但忽略了个体策略的强化.为解决上述问题,本文提出一种BiTransformer记忆(BTM)在线强化学习模型,该模型不仅考虑多智能体之间的协同,还利用记忆模块辅助个体决策.BTM由双注意力编码器和双注意力解码器组成,分别用于个体策略的增强和多智能体系统的协作.在双注意力编码器中,受人类的决策经验依赖的启发,提出记忆注意力模块为当前决策提供历史决策经验.与传统利用RNN的方法不同,BTM为每一个提供的是一个显式历史决策经验库,而非隐藏单元.此外,提出融合注意力模块,在历史决策经验的辅助下处理当下的局部观测信息,从而获取环境中最具决策价值的信息,进一步提高智能体个体的决策能力.在双注意力解码器中,本文提出了决策注意力模块和合作注意力模块两个模块,通过综合考虑其他已经做出决策智能体与当前智能体的合作收益以及带有历史决策经验的局部观察,从而促进历史决策辅助下的多智能体潜在合作的形成.最终本文在星际争霸中的多个场景下对BTM进行了测试,取得了93%的平均胜率.
展开更多
关键词
多智能体协同
在线
强化
学习
局部观测
历史决策经验
合作收益
个体策略增强
下载PDF
职称材料
多伺服电机智能化协调容错轨迹跟踪控制系统设计
被引量:
3
8
作者
朱俊威
顾曹源
+2 位作者
王鼎
张文安
王鑫
《控制理论与应用》
EI
CAS
CSCD
北大核心
2021年第7期1023-1032,共10页
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可...
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可以显著提高估计性能,其核心是自适应切换机制与源故障模式定位功能块的集成,并根据估计值设计了协调容错轨迹跟踪控制器.同时,设计了可视化人机交互操作界面,可将伺服电机的实时位置、速度、相应的位置、速度估计值及控制性能等信息反馈至监控中心.操作人员可随时调节伺服输入,完成任务调整,可有效提升系统实用性.多伺服电机控制系统的实验结果验证了所提方法的有效性及优越性.
展开更多
关键词
多伺服电机
协调容错轨迹跟踪控制
智能化
在线
强化
学习估计策略
人机交互
下载PDF
职称材料
水面无人艇自适应危险规避决策过程收敛性分析
被引量:
7
9
作者
张汝波
唐平鹏
+2 位作者
杨歌
李雪耀
史长亭
《计算机研究与发展》
EI
CSCD
北大核心
2014年第12期2644-2652,共9页
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法...
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.
展开更多
关键词
水面无人艇
复杂海况
Sarsa
在线
策略
强化
学习
自适应危险规避决策过程
渐进贪心策略
下载PDF
职称材料
在线深度强化学习探索策略生成方法综述
10
作者
李石磊
叶清
+3 位作者
袁志民
陈云
何涛
付钰
《机器人》
EI
CSCD
北大核心
2024年第6期753-768,共16页
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的...
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的探索策略生成方法,对在奖励空间中引入内在激励的探索方法进行了分类介绍并结合优缺点分析给出了相关研究进展;结合任务性能和多样性需求,对参数空间神经进化算法中的个体适应度函数表征方法进行了详细分析。随后,对动作空间探索和参数空间探索相结合的思路与方法进行了综述分析,并对高层任务目标空间和任务无关探索策略生成方法进行了介绍。最后,对探索策略安全约束处理方法进行了分类讨论,并给出了探索策略生成面临的难题与下一步研究方向。
展开更多
关键词
在线
深度
强化
学习
探索策略
任务策略
内在激励
参数空间
安全探索
原文传递
N80钢管在线常化强化作用研究
被引量:
2
11
作者
刘忆征
孟畅
《轧钢》
1996年第2期20-22,共3页
利用金属物理实验方法,研究了在线常化工艺对N80钢管组织和性能的影响。结果表明,在线常化工艺可以在适当减小强度值的情况下大幅度提高钢管的冲击韧性,尤其可使微合金化钢获得较好的强韧化效果。
关键词
钢管
在线
常化
强化
正火
热处理
下载PDF
职称材料
《在线学习——强化企业优势的知识策略》
12
作者
马克·J·罗森伯格
《科技智囊》
2003年第1期109-109,共1页
关键词
书评
《
在线
学习--
强化
企业优势的知识策略》
终身学习
因特网
企业
学习型组织
下载PDF
职称材料
题名
齿轮表面的在线强化研究
被引量:
2
1
作者
蒋松
程西云
余红华
陈国需
陈波水
机构
重庆大学机械传动国家重点实验室
后勤工程学院油品应用化学系
出处
《润滑与密封》
EI
CAS
CSCD
北大核心
2000年第6期30-32,共3页
基金
国家自然科学基金! (5 9875 0 83)
重庆大学机械传动国家重点实验室开放基金
文摘
根据现有的齿轮表面处理技术 ,提出了齿轮表面的在线强化新构思 ,进而得出齿轮在线强化设计的方法。按此方法 ,在CL - 10 0齿轮实验机上实现了齿轮表面的在线强化 。
关键词
在线
强化
齿轮表面
摩擦化学
摩擦扩散
Keywords
On line Strengthening Gear Surface Tribochemistry Tribodiffusion
分类号
TH132.41 [机械工程—机械制造及自动化]
TG162.73 [金属学及工艺—热处理]
下载PDF
职称材料
题名
齿轮传动副在线强化的实验研究
被引量:
1
2
作者
曹兴进
韦云隆
谢江华
机构
重庆大学
重庆工学院
重庆宗申摩托车集团
出处
《现代制造工程》
CSCD
北大核心
2003年第2期7-9,共3页
基金
国家自然科学基金 (5990 50 2 4 )
宗申公司项目资助
文摘
齿轮试件的模数为 1.75 ,齿数分别为 3 2和 17,材料为 2 0CrMo ,分别选用平均粒径在 2 μm以下的超细无机硼酸盐添加剂配制的润滑油及普通矿物油ISOVG68润滑齿轮副 ,由自制的齿轮实验台上的实验结果表明 ,选用加有超细无机硼酸盐添加剂的润滑油时 ,齿轮副抗剥落能力大大提高。
关键词
齿轮传动副
在线
强化
实验研究
硼酸盐
渗透
改性层
齿轮油
Keywords
Borate Diffuse Changing lay
分类号
TH132.41 [机械工程—机械制造及自动化]
TH117
下载PDF
职称材料
题名
界面摩擦渗透的数学模型
3
作者
李晓涛
陈国需
郭小川
机构
中国人民解放军空军油料研究所
中国人民解放军后勤工程学院军事油料应用与管理工程系
出处
《石油学报(石油加工)》
EI
CAS
CSCD
北大核心
2009年第B09期32-38,共7页
基金
国家自然科学基金项目(59875083)资助
文摘
以100%的硼酸三丙酯作为强化剂,通过分析强化剂功能元素的扩散和渗透的条件、过程和机理,建立了扩散渗透的数学模型,并对数学模型进行了分析,从而得到有利于摩擦渗透的各种条件、摩擦副强化剂的选择、强化剂浓度的确定以及进行强化的工况,为以后的理论和实验研究建立起桥梁,使摩擦副有可能实现在线强化,并在此基础上完善在线强化理论。
关键词
表面膜
摩擦渗透
摩擦化学反应
数学模型
在线
强化
Keywords
surface film
tribo-infiltration
tribochemical reaction
mathematics model
online strengthen
分类号
TG115.5 [金属学及工艺—物理冶金]
下载PDF
职称材料
题名
摩擦表面在线强化的实验研究
4
作者
李晓涛
陈国需
蒋松
机构
空军油料研究所一室
解放军后勤工程学院军事油料应用工程系
出处
《润滑与密封》
CAS
CSCD
北大核心
2003年第5期22-24,共3页
基金
国家自然科学基金 (5 9875 0 83)资助
文摘
本文用纯的硼酸三丙酯在四球机摩擦磨损试验机上进行了摩擦表面在线强化的实验 。
关键词
摩擦表面
在线
强化
硼酸三丙酯
四球机摩擦磨损试验机
实验研究
渗透层
摩擦化学
Keywords
On line Strengthening Infiltration Film
分类号
TH117.1 [机械工程—机械设计及理论]
下载PDF
职称材料
题名
基于在线强化学习的风电系统自适应负荷频率控制
被引量:
21
5
作者
杨丽
孙元章
徐箭
廖思阳
彭刘阳
机构
武汉大学电气与自动化学院
出处
《电力系统自动化》
EI
CSCD
北大核心
2020年第12期74-83,共10页
基金
国家重点研发计划资助项目(2018AAA0101501)。
文摘
大规模风电接入给系统带来新的不确定性,影响系统频率响应特性,从数据驱动的角度出发,提出了一种基于自适应动态模型的在线强化学习方法,用于系统的负荷频率控制。建立低秩自编码器特征提取网络,从所量测的低维数据中发现隐藏特征;基于特征网络,建立非线性动态系统稀疏辨识学习模型,感知系统动态模型的潜在物理状态,提升模型在线学习效率;通过结合模型预测控制,进行实时决策控制。所提出方法能够有效解决传统模型预测控制对系统全局模型准确性的依赖问题,加强控制器对系统动态模型的自适应性,且能有效跟踪风电输出功率的随机波动。最后,以接入四型风机的负荷频率控制模型为例,验证所提方法的有效性。
关键词
负荷频率控制
低秩自编码器
非线性动态系统稀疏辨识
模型预测控制
在线
强化
学习
Keywords
load frequency control
low rank autoencoder
sparse identification of nonlinear dynamic system
model predictive control
online reinforcement learning
分类号
TM614 [电气工程—电力系统及自动化]
TM761
下载PDF
职称材料
题名
多无人机系统在线强化学习最优安全跟踪控制
被引量:
1
6
作者
弓镇宇
杨飞生
机构
西北工业大学
出处
《航空科学技术》
2024年第4期25-30,共6页
基金
国家自然科学基金(62073269)
航空科学基金(2020Z034053002)
+2 种基金
陕西省重点研发计划项目(2022GY-244)
重庆市自然科学基金(CSTB2022NSCQ-MSX0963)
广东省基础与应用基础研究基金(2023A1515011220)。
文摘
在无人机(UAV)编队跟踪任务中,虚假数据注入(FDI)攻击者可向控制指令注入误导性数据,导致无人机无法形成指定的编队构型,故需设计安全编队跟踪控制器。为此,本文利用零和图博弈对攻防过程进行建模,其中FDI攻击者和安全控制器是博弈的参与者,攻击者的目标是最大化设定的成本函数,而安全控制器的目标与之相反,求解博弈并获得最优安全控制策略依赖于求取Hamilton-Jacobi-Isaacs(HJI)方程的解。而HJI方程是耦合偏微分方程,难以直接求解,因此结合经验回放机制引入了有限时间收敛的在线强化学习算法,设计了单评价神经网络近似值函数并获得了最优安全控制策略。最终利用仿真验证了算法的有效性。
关键词
FDI攻击
多无人机
在线
强化
学习
优化控制
零和图博弈
Keywords
FDI attack
multi-UAVs
online reinforcement learning
optimal control
zero-sum graphical game
分类号
V249.1 [航空宇航科学与技术—飞行器设计]
下载PDF
职称材料
题名
双注意力记忆多智能体强化学习
7
作者
马裕博
周长东
张志文
杨培泽
张博
机构
大连海事大学人工智能学院
出处
《计算机系统应用》
2024年第12期115-122,共8页
文摘
多智能体协同在强化学习研究领域占据重要地位,旨在深入探讨智能体如何通过相互协作实现共同目标.大部分协作多智能体算法注重合作的构建,但忽略了个体策略的强化.为解决上述问题,本文提出一种BiTransformer记忆(BTM)在线强化学习模型,该模型不仅考虑多智能体之间的协同,还利用记忆模块辅助个体决策.BTM由双注意力编码器和双注意力解码器组成,分别用于个体策略的增强和多智能体系统的协作.在双注意力编码器中,受人类的决策经验依赖的启发,提出记忆注意力模块为当前决策提供历史决策经验.与传统利用RNN的方法不同,BTM为每一个提供的是一个显式历史决策经验库,而非隐藏单元.此外,提出融合注意力模块,在历史决策经验的辅助下处理当下的局部观测信息,从而获取环境中最具决策价值的信息,进一步提高智能体个体的决策能力.在双注意力解码器中,本文提出了决策注意力模块和合作注意力模块两个模块,通过综合考虑其他已经做出决策智能体与当前智能体的合作收益以及带有历史决策经验的局部观察,从而促进历史决策辅助下的多智能体潜在合作的形成.最终本文在星际争霸中的多个场景下对BTM进行了测试,取得了93%的平均胜率.
关键词
多智能体协同
在线
强化
学习
局部观测
历史决策经验
合作收益
个体策略增强
Keywords
multi-agent collaboration
online reinforcement learning
partial observation
historical decision-making experience
collaborative benefit
individual policy enhancement
分类号
G63 [文化科学—教育学]
下载PDF
职称材料
题名
多伺服电机智能化协调容错轨迹跟踪控制系统设计
被引量:
3
8
作者
朱俊威
顾曹源
王鼎
张文安
王鑫
机构
浙江工业大学信息工程学院
浙江省嵌入式系统联合重点实验室
北京工业大学信息学部
黑龙江大学数学科学学院
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2021年第7期1023-1032,共10页
基金
国家自然科学基金项目(61803334,61822311,61703148)
浙江省自然科学基金项目(LQ18F030012)
+3 种基金
黑龙江省自然科学基金项目(F2017023)
中国国家留学基金项目(201908330040)
黑龙江大学优秀青年基金项目(JCL201903)
NFSC-浙江两化融合联合基金项目(U1709213)资助。
文摘
针对一类具有执行器、传感器故障的多伺服电机控制系统,设计了相应的多伺服电机智能化协调容错轨迹跟踪控制系统.首先,提出了一种新结构的分布式中间估计器,修改了其设计结构,提高了估计方案的可行性.其次,通过在线强化学习估计策略,可以显著提高估计性能,其核心是自适应切换机制与源故障模式定位功能块的集成,并根据估计值设计了协调容错轨迹跟踪控制器.同时,设计了可视化人机交互操作界面,可将伺服电机的实时位置、速度、相应的位置、速度估计值及控制性能等信息反馈至监控中心.操作人员可随时调节伺服输入,完成任务调整,可有效提升系统实用性.多伺服电机控制系统的实验结果验证了所提方法的有效性及优越性.
关键词
多伺服电机
协调容错轨迹跟踪控制
智能化
在线
强化
学习估计策略
人机交互
Keywords
multi-servo motors
cooperative fault-tolerant trajectory tracking control
intelligence
online reinforcement learning estimation strategy
man-machine interaction
分类号
TM383.4 [电气工程—电机]
TP273 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
水面无人艇自适应危险规避决策过程收敛性分析
被引量:
7
9
作者
张汝波
唐平鹏
杨歌
李雪耀
史长亭
机构
哈尔滨工程大学计算机科学与技术学院
大连民族学院机电信息学院
武汉第二船舶设计研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第12期2644-2652,共9页
基金
国家自然科学基金项目(60975071
61100005
60975019)
文摘
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.
关键词
水面无人艇
复杂海况
Sarsa
在线
策略
强化
学习
自适应危险规避决策过程
渐进贪心策略
Keywords
unmanned surface vehicle (USV)
complicated sea-state~ Sarsa on-policy reinforcement learning
adaptive obstacle avoidance decision process
greedy in the limit and infinite exploration (GLIE)
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
在线深度强化学习探索策略生成方法综述
10
作者
李石磊
叶清
袁志民
陈云
何涛
付钰
机构
海军工程大学信息安全系
出处
《机器人》
EI
CSCD
北大核心
2024年第6期753-768,共16页
基金
海军武器装备综合研究项目(2022108010)
军委科技委基础加强计划技术领域基金项目(2019-JCJQ-JJ-042)。
文摘
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的探索策略生成方法,对在奖励空间中引入内在激励的探索方法进行了分类介绍并结合优缺点分析给出了相关研究进展;结合任务性能和多样性需求,对参数空间神经进化算法中的个体适应度函数表征方法进行了详细分析。随后,对动作空间探索和参数空间探索相结合的思路与方法进行了综述分析,并对高层任务目标空间和任务无关探索策略生成方法进行了介绍。最后,对探索策略安全约束处理方法进行了分类讨论,并给出了探索策略生成面临的难题与下一步研究方向。
关键词
在线
深度
强化
学习
探索策略
任务策略
内在激励
参数空间
安全探索
Keywords
on-line deep reinforcement learning
exploratory policy
task policy
intrinsic reward
parametric space
safe exploration
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
原文传递
题名
N80钢管在线常化强化作用研究
被引量:
2
11
作者
刘忆征
孟畅
机构
冶金部钢铁研究总院
出处
《轧钢》
1996年第2期20-22,共3页
文摘
利用金属物理实验方法,研究了在线常化工艺对N80钢管组织和性能的影响。结果表明,在线常化工艺可以在适当减小强度值的情况下大幅度提高钢管的冲击韧性,尤其可使微合金化钢获得较好的强韧化效果。
关键词
钢管
在线
常化
强化
正火
热处理
Keywords
tube steel, on line normalizing
分类号
TG162.84 [金属学及工艺—热处理]
TG156.4 [金属学及工艺—金属学]
下载PDF
职称材料
题名
《在线学习——强化企业优势的知识策略》
12
作者
马克·J·罗森伯格
出处
《科技智囊》
2003年第1期109-109,共1页
关键词
书评
《
在线
学习--
强化
企业优势的知识策略》
终身学习
因特网
企业
学习型组织
分类号
G236 [文化科学]
F270 [经济管理—企业管理]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
齿轮表面的在线强化研究
蒋松
程西云
余红华
陈国需
陈波水
《润滑与密封》
EI
CAS
CSCD
北大核心
2000
2
下载PDF
职称材料
2
齿轮传动副在线强化的实验研究
曹兴进
韦云隆
谢江华
《现代制造工程》
CSCD
北大核心
2003
1
下载PDF
职称材料
3
界面摩擦渗透的数学模型
李晓涛
陈国需
郭小川
《石油学报(石油加工)》
EI
CAS
CSCD
北大核心
2009
0
下载PDF
职称材料
4
摩擦表面在线强化的实验研究
李晓涛
陈国需
蒋松
《润滑与密封》
CAS
CSCD
北大核心
2003
0
下载PDF
职称材料
5
基于在线强化学习的风电系统自适应负荷频率控制
杨丽
孙元章
徐箭
廖思阳
彭刘阳
《电力系统自动化》
EI
CSCD
北大核心
2020
21
下载PDF
职称材料
6
多无人机系统在线强化学习最优安全跟踪控制
弓镇宇
杨飞生
《航空科学技术》
2024
1
下载PDF
职称材料
7
双注意力记忆多智能体强化学习
马裕博
周长东
张志文
杨培泽
张博
《计算机系统应用》
2024
0
下载PDF
职称材料
8
多伺服电机智能化协调容错轨迹跟踪控制系统设计
朱俊威
顾曹源
王鼎
张文安
王鑫
《控制理论与应用》
EI
CAS
CSCD
北大核心
2021
3
下载PDF
职称材料
9
水面无人艇自适应危险规避决策过程收敛性分析
张汝波
唐平鹏
杨歌
李雪耀
史长亭
《计算机研究与发展》
EI
CSCD
北大核心
2014
7
下载PDF
职称材料
10
在线深度强化学习探索策略生成方法综述
李石磊
叶清
袁志民
陈云
何涛
付钰
《机器人》
EI
CSCD
北大核心
2024
0
原文传递
11
N80钢管在线常化强化作用研究
刘忆征
孟畅
《轧钢》
1996
2
下载PDF
职称材料
12
《在线学习——强化企业优势的知识策略》
马克·J·罗森伯格
《科技智囊》
2003
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部