检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到8篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

深度Q学习的二次主动采样方法被引量：16: 1; 作者赵英男刘鹏 +1 位作者赵巍唐降龙《自动化学报》 EI CSCD 北大核心 2019年第10期1870-1882,共13页; 实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样... 展开更多; 关键词优先经验回放 TD-error 深度Q网络累积回报; 下载PDF 职称材料

基于情节经验回放的深度确定性策略梯度方法被引量：8: 2; 作者张建行刘全《计算机科学》 CSCD 北大核心 2021年第10期37-43,共7页; 强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效... 展开更多; 关键词深度确定性策略梯度连续控制任务经验回放累积回报分类经验回放; 下载PDF 职称材料

基于斯蒂芬森价值迭代的改进DDPG算法: 3; 作者张秋娟宋文广李博文《计算机工程与设计》北大核心 2024年第12期3607-3614,共8页; 针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处... 展开更多; 关键词深度强化学习深度确定性策略梯度连续控制任务价值迭代经验回放累积奖励注意力经验回放; 下载PDF 职称材料

独立董事治理与声誉回报——基于累积投票选举的分析被引量：3: 4; 作者韩晴《暨南学报（哲学社会科学版）》 CSSCI 北大核心 2016年第3期95-104,131-132,共10页; 增加独立董事的中小股东代表性,有利于平衡不同股东的利益、降低资金被占用的风险。经过实证检验,累积投票制在该方面具有显著的治理效果。通过对深、沪市A股上市公司2007—2012年的样本数据进行分析,累积投票制度促使一部分不清楚如何... 展开更多; 关键词独立董事累积投票制大股东侵占声誉约束; 下载PDF 职称材料

养老金奖惩机制对退休决策的影响研究——基于累积前景理论的视角被引量：6: 5; 作者莫一茗何林《保险研究》 CSSCI 北大核心 2022年第10期112-127,共16页; 随着人口老龄化问题的日益严峻,延迟退休势在必行。如何通过机制设计有效引导参保人自愿选择延迟退休是重要的研究课题。本文参考国际上弹性退休政策和养老金奖惩机制的实践经验,旨在设计一种符合我国人口变化规律和经济发展状况的养老... 展开更多; 关键词延迟退休养老金财富累积前景理论奖惩机制退休决策; 原文传递

基于平均序列累计奖赏的自适应ε-greedy策略被引量：5: 6; 作者杨彤秦进《计算机工程与应用》 CSCD 北大核心 2021年第11期148-155,共8页; 探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能... 展开更多; 关键词深度强化学习探索与利用序列累计奖赏 ε-greedy策略; 下载PDF 职称材料

同分布强化学习优化多决策树及其在非平衡数据集中的应用被引量：2: 7; 作者焦江丽张雪英 +1 位作者李凤莲牛壮《中南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2019年第5期1112-1118,共7页; 针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单... 展开更多; 关键词非平衡数据集多决策树累积回报机制属性选择策略同分布随机抽样强化学习; 下载PDF 职称材料

基于Q学习的新闻图像检索方法: 8; 作者赵娟《计算机工程与设计》 CSCD 北大核心 2012年第8期3210-3213,共4页; 针对新闻图像检索的应用特点,提出了一种多反馈、合作型的图像检索方法。通过构造动态的Q表,保存图像的折算累计反馈;设计从探索型逐渐过渡到利用型的图像选择策略;在方差分析的基础上,设计了多反馈综合方法,全面地获取用户检索需求,从... 展开更多; 关键词图像检索相关反馈 Q学习选择策略折算累计反馈; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部