期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于异环境重要性采样的增强DDRQN网络
被引量:
1
1
作者
樊龙涛
张森
+1 位作者
普杰信
刘源源
《火力与指挥控制》
CSCD
北大核心
2020年第1期47-52,共6页
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循...
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对DeepMind的PySC2平台DefeatRoaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。
展开更多
关键词
多智能体
强化学习
局部
可
观测
经验回放机制
重要性采样
下载PDF
职称材料
局部可观测理论在INSGPS机动对准中的应用
被引量:
4
2
作者
刘准
陈哲
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2001年第6期702-705,共4页
从研究INS GPS(InertialNavigationSystem GlobalPositioningSystem)组合系统的姿态角误差可观测性出发 ,首次将局部可观测性理论应用于INS GPS组合系统 ,定量地计算出各种不同机动方式的局部可观测矩阵的条件数 ,找到了提高姿态角误差...
从研究INS GPS(InertialNavigationSystem GlobalPositioningSystem)组合系统的姿态角误差可观测性出发 ,首次将局部可观测性理论应用于INS GPS组合系统 ,定量地计算出各种不同机动方式的局部可观测矩阵的条件数 ,找到了提高姿态角误差可观测性的最佳机动方式 .研究结果表明 ,通过载体做正弦水平机动飞行可以提高姿态角误差局部可观测性 ,使空中对准时间明显减少 ,姿态角误差大大降低 .当对准时间为 1 2 0s时 ,东北天向姿态角误差的均值分别为 1 2 .3 4″,1 2 .1 9″和- 2 8.3 1″,它们的均方根值分别为 0 .97″,1 .0 5″和 0 .6 2″ .
展开更多
关键词
惯性系统
组合导航
全球定位系统
姿态角误差
局部
可
观测
理论
机动对准
下载PDF
职称材料
局部可观测环境下未来信息辅助的无模型深度强化学习
3
作者
常芳芳
陈祺航
刘云龙
《南京大学学报(自然科学版)》
CAS
CSCD
北大核心
2022年第5期796-804,共9页
深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态...
深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态,即所处环境为局部可观测环境.同时,现有的无模型强化学习算法往往仅依赖以往历史数据来确定决策策略,不能利用可辅助智能体决策的未来有关信息.以局部可观测问题为应用背景,通过利用对比预测编码(Contrastive Prediction Code,CPC)对未来信息的预测能力实现局部可观测环境下未来信息辅助的无模型决策学习,提出的算法既保留了无模型强化学习算法端对端的训练、性能优势,又能充分利用预测的信息来辅助智能体的决策.在不同的局部可观测环境任务上对提出的算法进行了验证和对比,实验结果验证了该算法的有效性.
展开更多
关键词
深度强化学习
局部
可
观测
环境
对比预测编码
未来信息
表征学习
下载PDF
职称材料
题名
基于异环境重要性采样的增强DDRQN网络
被引量:
1
1
作者
樊龙涛
张森
普杰信
刘源源
机构
河南科技大学信息工程学院
出处
《火力与指挥控制》
CSCD
北大核心
2020年第1期47-52,共6页
文摘
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对DeepMind的PySC2平台DefeatRoaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。
关键词
多智能体
强化学习
局部
可
观测
经验回放机制
重要性采样
Keywords
multi-agent
reinforcement learning
partially observation
experience replay
importance sampling
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
局部可观测理论在INSGPS机动对准中的应用
被引量:
4
2
作者
刘准
陈哲
机构
北京航空航天大学自动控制系
出处
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2001年第6期702-705,共4页
文摘
从研究INS GPS(InertialNavigationSystem GlobalPositioningSystem)组合系统的姿态角误差可观测性出发 ,首次将局部可观测性理论应用于INS GPS组合系统 ,定量地计算出各种不同机动方式的局部可观测矩阵的条件数 ,找到了提高姿态角误差可观测性的最佳机动方式 .研究结果表明 ,通过载体做正弦水平机动飞行可以提高姿态角误差局部可观测性 ,使空中对准时间明显减少 ,姿态角误差大大降低 .当对准时间为 1 2 0s时 ,东北天向姿态角误差的均值分别为 1 2 .3 4″,1 2 .1 9″和- 2 8.3 1″,它们的均方根值分别为 0 .97″,1 .0 5″和 0 .6 2″ .
关键词
惯性系统
组合导航
全球定位系统
姿态角误差
局部
可
观测
理论
机动对准
Keywords
inertial systems
integrated navigation
local observability
global positioning system
attitude errors
分类号
TN967.2 [电子电信—信号与信息处理]
下载PDF
职称材料
题名
局部可观测环境下未来信息辅助的无模型深度强化学习
3
作者
常芳芳
陈祺航
刘云龙
机构
厦门大学自动化系
出处
《南京大学学报(自然科学版)》
CAS
CSCD
北大核心
2022年第5期796-804,共9页
基金
国家自然科学基金(61772438,61375077)
文摘
深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态,即所处环境为局部可观测环境.同时,现有的无模型强化学习算法往往仅依赖以往历史数据来确定决策策略,不能利用可辅助智能体决策的未来有关信息.以局部可观测问题为应用背景,通过利用对比预测编码(Contrastive Prediction Code,CPC)对未来信息的预测能力实现局部可观测环境下未来信息辅助的无模型决策学习,提出的算法既保留了无模型强化学习算法端对端的训练、性能优势,又能充分利用预测的信息来辅助智能体的决策.在不同的局部可观测环境任务上对提出的算法进行了验证和对比,实验结果验证了该算法的有效性.
关键词
深度强化学习
局部
可
观测
环境
对比预测编码
未来信息
表征学习
Keywords
deep reinforcement learning(DRL)
partially observable environment
contrastive prediction code(CPC)
future information
representation learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于异环境重要性采样的增强DDRQN网络
樊龙涛
张森
普杰信
刘源源
《火力与指挥控制》
CSCD
北大核心
2020
1
下载PDF
职称材料
2
局部可观测理论在INSGPS机动对准中的应用
刘准
陈哲
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2001
4
下载PDF
职称材料
3
局部可观测环境下未来信息辅助的无模型深度强化学习
常芳芳
陈祺航
刘云龙
《南京大学学报(自然科学版)》
CAS
CSCD
北大核心
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部