期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于异环境重要性采样的增强DDRQN网络 被引量:1
1
作者 樊龙涛 张森 +1 位作者 普杰信 刘源源 《火力与指挥控制》 CSCD 北大核心 2020年第1期47-52,共6页
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循... 针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制。并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络。通过对DeepMind的PySC2平台DefeatRoaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升。 展开更多
关键词 多智能体 强化学习 局部观测 经验回放机制 重要性采样
下载PDF
局部可观测理论在INSGPS机动对准中的应用 被引量:4
2
作者 刘准 陈哲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2001年第6期702-705,共4页
从研究INS GPS(InertialNavigationSystem GlobalPositioningSystem)组合系统的姿态角误差可观测性出发 ,首次将局部可观测性理论应用于INS GPS组合系统 ,定量地计算出各种不同机动方式的局部可观测矩阵的条件数 ,找到了提高姿态角误差... 从研究INS GPS(InertialNavigationSystem GlobalPositioningSystem)组合系统的姿态角误差可观测性出发 ,首次将局部可观测性理论应用于INS GPS组合系统 ,定量地计算出各种不同机动方式的局部可观测矩阵的条件数 ,找到了提高姿态角误差可观测性的最佳机动方式 .研究结果表明 ,通过载体做正弦水平机动飞行可以提高姿态角误差局部可观测性 ,使空中对准时间明显减少 ,姿态角误差大大降低 .当对准时间为 1 2 0s时 ,东北天向姿态角误差的均值分别为 1 2 .3 4″,1 2 .1 9″和- 2 8.3 1″,它们的均方根值分别为 0 .97″,1 .0 5″和 0 .6 2″ . 展开更多
关键词 惯性系统 组合导航 全球定位系统 姿态角误差 局部观测理论 机动对准
下载PDF
局部可观测环境下未来信息辅助的无模型深度强化学习
3
作者 常芳芳 陈祺航 刘云龙 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第5期796-804,共9页
深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态... 深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态,即所处环境为局部可观测环境.同时,现有的无模型强化学习算法往往仅依赖以往历史数据来确定决策策略,不能利用可辅助智能体决策的未来有关信息.以局部可观测问题为应用背景,通过利用对比预测编码(Contrastive Prediction Code,CPC)对未来信息的预测能力实现局部可观测环境下未来信息辅助的无模型决策学习,提出的算法既保留了无模型强化学习算法端对端的训练、性能优势,又能充分利用预测的信息来辅助智能体的决策.在不同的局部可观测环境任务上对提出的算法进行了验证和对比,实验结果验证了该算法的有效性. 展开更多
关键词 深度强化学习 局部观测环境 对比预测编码 未来信息 表征学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部