局部可观测环境下未来信息辅助的无模型深度强化学习

Model-free deep reinforcement learning with future information in partially observable domains

下载PDF

导出

摘要深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态,即所处环境为局部可观测环境.同时,现有的无模型强化学习算法往往仅依赖以往历史数据来确定决策策略,不能利用可辅助智能体决策的未来有关信息.以局部可观测问题为应用背景,通过利用对比预测编码(Contrastive Prediction Code,CPC)对未来信息的预测能力实现局部可观测环境下未来信息辅助的无模型决策学习,提出的算法既保留了无模型强化学习算法端对端的训练、性能优势,又能充分利用预测的信息来辅助智能体的决策.在不同的局部可观测环境任务上对提出的算法进行了验证和对比,实验结果验证了该算法的有效性. By combining the abilities of feature extraction of deep learning and decision-making of reinforcement learning,deep reinforcement learning algorithms have been widely applied in various domains in recent years.While current algorithms mainly focus on planning in fully observable environments,in reality,the states of many applications can only be partially observed due to the limitation of the agents′perception,i.e.,the environments are partially observable.Furthermore,for model-free reinforcement learning algorithms,the decision usually relies on historical data,and no future information that may help the decision making is utilized.In this paper,aims to address the planning problem in partially observable domains,we propose a model-free reinforcement learning algorithm where future information can be incorporated as in the model-based reinforcement learning framework,and the future information is predicted by Contrastive Prediction Code(CPC).Our proposed algorithm can not only retain the end-to-end training and performance advantages of the model-free reinforcement learning algorithm,but also utilize future information for the decision of the agent.The proposed algorithm has been verified and compared on different locally observable environmental tasks.Experimental results demonstrate the effectiveness of the proposed algorithm.

作者常芳芳陈祺航刘云龙 Chang Fangfang;Chen Qihang;Liu Yunlong(Department of Automation,Xiamen University,Xiamen,361102,China)

机构地区厦门大学自动化系

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2022年第5期796-804,共9页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(61772438,61375077)

关键词深度强化学习局部可观测环境对比预测编码未来信息表征学习 deep reinforcement learning(DRL) partially observable environment contrastive prediction code(CPC) future information representation learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1范家伟,张如如,陆萌,何佳雯,康霄阳,柴文俊,石珅达,宋美娜,鄂海红,欧中洪.深度学习方法在糖尿病视网膜病变诊断中的应用[J].自动化学报,2021,47(5):985-1004. 被引量：21
2孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：29

二级参考文献19

1李曼华,孙昊鹏,尤启冬.CYP1A2抑制剂预测模型的建立及评价[J].中国药科大学学报,2013,44(5):401-409. 被引量：3
2孙延奎.光学相干层析医学图像处理及其应用[J].光学精密工程,2014,22(4):1086-1104. 被引量：26
3占伟伟,王伟,陈能成,王超.一种利用改进A*算法的无人机航迹规划[J].武汉大学学报（信息科学版）,2015,40(3):315-320. 被引量：55
4于观贞,魏培莲,陈颖,朱明华.人工智能在肿瘤病理诊断和评估中的应用与思考[J].第二军医大学学报,2017,38(11):1349-1354. 被引量：31
5张巧丽,赵地,迟学斌.基于深度学习的医学影像诊断综述[J].计算机科学,2017,44(B11):1-7. 被引量：36
6吴江,侯绍新,靳萌萌,胡忠义.基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究[J].情报学报,2017,36(11):1183-1191. 被引量：44
7田娟秀,刘国才,谷珊珊,鞠忠建,刘劲光,顾冬冬.医学图像分析深度学习方法研究与挑战[J].自动化学报,2018,44(3):401-424. 被引量：102
8郑光远,刘峡壁,韩光辉.医学影像计算机辅助检测与诊断系统综述[J].软件学报,2018,29(5):1471-1514. 被引量：71
9郭潇雅.嵩岳机器人惊艳亮相[J].中国医院院长,2018,14(14):28-29. 被引量：3
10孙扬,李琪欢,田思佳,张杰,王友信,平昭,王嵬,郭秀花.免疫球蛋白G N-糖基化与糖尿病视网膜病变的相关性研究[J].中国预防医学杂志,2018,19(10):734-737. 被引量：5

共引文献48

1焦玮,杨雪寒,孟洁,张倩.针对电子医疗档案的数据分析[J].微型电脑应用,2020,36(9):32-35. 被引量：5
2张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：22
3郑雯,沈琪浩,任佳.基于Improved DR-Net算法的糖尿病视网膜病变识别与分级[J].光学学报,2021,41(22):64-75. 被引量：11
4聂佩晗,张雅婷,陈勇.爬壁机器人发展与关键技术综述[J].机床与液压,2022,50(4):155-161. 被引量：11
5黄硕,刘黎明,邢孟豪.基于Web的糖尿病视网膜病变分类检测系统[J].科技视界,2022(7):112-114.
6李远哲,胡纪滨.强化学习在无人车领域的应用与展望[J].信息与控制,2022,51(2):129-141. 被引量：6
7杨春雨,张鑫.煤矿机器人环境感知与路径规划关键技术[J].煤炭学报,2022,47(7):2844-2872. 被引量：33
8柴慧敏,张勇,李欣粤,宋雅楠.基于深度学习的空中目标威胁评估方法[J].系统仿真学报,2022,34(7):1459-1467. 被引量：6
9董中阳.半监督学习优化多任务学习网络在糖网病变分类的应用[J].工业控制计算机,2022,35(8):121-123. 被引量：1
10高玮玮,单明陶,宋楠,樊博,方宇.嵌入SENet的改进YOLOv4眼底图像微动脉瘤自动检测算法[J].生物医学工程学杂志,2022,39(4):713-720. 被引量：6

1Xiao-Qi Han,Sheng-Song Xu,Zhen Feng,Rong-Qiang He,Zhong-Yi Lu.Framework for Contrastive Learning Phases of Matter Based on Visual Representations[J].Chinese Physics Letters,2023,40(2):50-54.
2Xiao Liang,Weiwu Yan,Yusun Fu,Huihe Shao.Process Monitoring Based on Temporal Feature Agglomeration and Enhancement[J].IEEE/CAA Journal of Automatica Sinica,2023,10(3):825-827.
3齐晓飞.比较分析腹部CT与核磁胰胆管成像在肝外胆管结石诊断中的临床效果研究[J].中文科技期刊数据库（全文版）医药卫生,2022(2):168-171.
4Chaofan ZHOU,Meiqin LIU,Senlin ZHANG,Ping WEI,Badong CHEN.A graph-based two-stage classification network for mobile screen defect inspection[J].Frontiers of Information Technology & Electronic Engineering,2023,24(2):203-216.

南京大学学报（自然科学版）

2022年第5期

浏览历史

内容加载中请稍等...

局部可观测环境下未来信息辅助的无模型深度强化学习

参考文献2

二级参考文献19

共引文献48

相关作者

相关机构

相关主题

浏览历史