期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
深度Q学习的二次主动采样方法 被引量:16
1
作者 赵英男 刘鹏 +1 位作者 赵巍 唐降龙 《自动化学报》 EI CSCD 北大核心 2019年第10期1870-1882,共13页
实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样... 实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error(Temporal-difference error)分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果. 展开更多
关键词 优先经验回放 TD-error 深度Q网络 累积回报
下载PDF
基于情节经验回放的深度确定性策略梯度方法 被引量:8
2
作者 张建行 刘全 《计算机科学》 CSCD 北大核心 2021年第10期37-43,共7页
强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效... 强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储。然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量。在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Optimization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较。实验结果表明,EER-DDPG方法有更好的性能表现。 展开更多
关键词 深度确定性策略梯度 连续控制任务 经验回放 累积回报 分类经验回放
下载PDF
基于斯蒂芬森价值迭代的改进DDPG算法
3
作者 张秋娟 宋文广 李博文 《计算机工程与设计》 北大核心 2024年第12期3607-3614,共8页
针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处... 针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处状态与经验中状态的相似性,优先采样相似度高的经验,使智能体专注学习包含当前策略频繁访问的状态的经验。在PyBullet环境的6个连续动作控制任务中进行实验,其结果表明,相比DDPG算法、TD3算法、CDLR-DDPG算法和EER-DDPG算法,所提算法收敛更快,性能更好。 展开更多
关键词 深度强化学习 深度确定性策略梯度 连续控制任务 价值迭代 经验回放 累积奖励 注意力经验回放
下载PDF
独立董事治理与声誉回报——基于累积投票选举的分析 被引量:3
4
作者 韩晴 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2016年第3期95-104,131-132,共10页
增加独立董事的中小股东代表性,有利于平衡不同股东的利益、降低资金被占用的风险。经过实证检验,累积投票制在该方面具有显著的治理效果。通过对深、沪市A股上市公司2007—2012年的样本数据进行分析,累积投票制度促使一部分不清楚如何... 增加独立董事的中小股东代表性,有利于平衡不同股东的利益、降低资金被占用的风险。经过实证检验,累积投票制在该方面具有显著的治理效果。通过对深、沪市A股上市公司2007—2012年的样本数据进行分析,累积投票制度促使一部分不清楚如何运用投票权或者原本"搭便车"的中小股东对投票权进行委托,把代表中小股东利益的独立董事送进董事会。由于当选独立董事具有明显的标签效应,不容易受大股东控制,因此对关联交易中的资金侵占行为具有显著的监督效果。在此前提下,独立董事也获得相应的声誉回报:潜在雇主通过选举过程对当选独立董事具有更清楚的认识,并转化为独立董事兼职数量和薪酬的提高,体现出声誉造成的回报差异。从长远看,应用累积投票制有利于外部声誉约束的引入,有利于独立董事的轮替形成良性循环。 展开更多
关键词 独立董事 累积投票制 大股东侵占 声誉约束
下载PDF
养老金奖惩机制对退休决策的影响研究——基于累积前景理论的视角 被引量:6
5
作者 莫一茗 何林 《保险研究》 CSSCI 北大核心 2022年第10期112-127,共16页
随着人口老龄化问题的日益严峻,延迟退休势在必行。如何通过机制设计有效引导参保人自愿选择延迟退休是重要的研究课题。本文参考国际上弹性退休政策和养老金奖惩机制的实践经验,旨在设计一种符合我国人口变化规律和经济发展状况的养老... 随着人口老龄化问题的日益严峻,延迟退休势在必行。如何通过机制设计有效引导参保人自愿选择延迟退休是重要的研究课题。本文参考国际上弹性退休政策和养老金奖惩机制的实践经验,旨在设计一种符合我国人口变化规律和经济发展状况的养老金领取待遇奖惩机制。在此机制下,通过比较养老金财富的精算净现值作为退休决策的依据。同时,考虑到参保人的不完全理性,引入累积前景理论刻画其对领取低于缴费的厌恶,以及对早亡概率的扭曲认知。研究结果表明:即使考虑到参保人的不完全理性行为,奖惩机制依然可以有效激励参保人选择延迟退休。此外,部分奖惩参数存在门槛效应,需要谨慎设计奖惩机制的微观方案,以起到有效的激励效果。 展开更多
关键词 延迟退休 养老金财富 累积前景理论 奖惩机制 退休决策
原文传递
基于平均序列累计奖赏的自适应ε-greedy策略 被引量:5
6
作者 杨彤 秦进 《计算机工程与应用》 CSCD 北大核心 2021年第11期148-155,共8页
探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能... 探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。 展开更多
关键词 深度强化学习 探索与利用 序列累计奖赏 ε-greedy策略
下载PDF
同分布强化学习优化多决策树及其在非平衡数据集中的应用 被引量:2
7
作者 焦江丽 张雪英 +1 位作者 李凤莲 牛壮 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第5期1112-1118,共7页
针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单... 针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。 展开更多
关键词 非平衡数据集 多决策树 累积回报机制属性选择策略 同分布随机抽样 强化学习
下载PDF
基于Q学习的新闻图像检索方法
8
作者 赵娟 《计算机工程与设计》 CSCD 北大核心 2012年第8期3210-3213,共4页
针对新闻图像检索的应用特点,提出了一种多反馈、合作型的图像检索方法。通过构造动态的Q表,保存图像的折算累计反馈;设计从探索型逐渐过渡到利用型的图像选择策略;在方差分析的基础上,设计了多反馈综合方法,全面地获取用户检索需求,从... 针对新闻图像检索的应用特点,提出了一种多反馈、合作型的图像检索方法。通过构造动态的Q表,保存图像的折算累计反馈;设计从探索型逐渐过渡到利用型的图像选择策略;在方差分析的基础上,设计了多反馈综合方法,全面地获取用户检索需求,从而构造了基于Q学习的相关反馈检索算法。实验结果表明了该算法是有效的,并具有更高的性能。 展开更多
关键词 图像检索 相关反馈 Q学习 选择策略 折算累计反馈
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部