检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到2篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

Q学习算法中网格离散化方法的收敛性分析被引量：9: 1; 作者蒋国飞高慧琪吴沧浦《控制理论与应用》 EI CAS CSCD 北大核心 1999年第2期194-198,共5页; Q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连... 展开更多; 关键词 Q学习算法网格离散化收敛性马尔可夫决策; 下载PDF 职称材料

Feature-Based Aggregation and Deep Reinforcement Learning:A Survey and Some New Implementations 被引量：14: 2; 作者 Dimitri P.Bertsekas 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2019年第1期1-31,共31页; In this paper we discuss policy iteration methods for approximate solution of a finite-state discounted Markov decision problem, with a focus on feature-based aggregation methods and their connection with deep reinfor... 展开更多; 关键词 REINFORCEMENT learning dynamic programming markovian decision problems AGGREGATION feature-based ARCHITECTURES policy ITERATION DEEP neural networks rollout algorithms; 下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	Q学习算法中网格离散化方法的收敛性分析	蒋国飞高慧琪吴沧浦	《控制理论与应用》 EI CAS CSCD 北大核心	1999	9	下载PDF 职称材料
2	Feature-Based Aggregation and Deep Reinforcement Learning:A Survey and Some New Implementations	Dimitri P.Bertsekas	《IEEE/CAA Journal of Automatica Sinica》 EI CSCD	2019	14	下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

使用帮助返回顶部