期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的区域化视觉导航方法 被引量:9
1
作者 李鹏 阮晓钢 +3 位作者 朱晓庆 柴洁 任顶奇 刘鹏飞 《上海交通大学学报》 EI CAS CSCD 北大核心 2021年第5期575-585,共11页
针对移动机器人在分布式环境中的导航问题,提出一种基于深度强化学习的区域化视觉导航方法.首先,根据分布式环境特征,在不同区域内独立学习控制策略,同时构建区域化模型,实现导航过程中控制策略的切换和结合.然后,为使机器人具有更好的... 针对移动机器人在分布式环境中的导航问题,提出一种基于深度强化学习的区域化视觉导航方法.首先,根据分布式环境特征,在不同区域内独立学习控制策略,同时构建区域化模型,实现导航过程中控制策略的切换和结合.然后,为使机器人具有更好的目标导向行为,在区域导航子模块中增加奖励预测任务,并结合经验池回放奖励序列.最后,在原有探索策略的基础上添加景深约束,防止因碰撞导致的遍历停滞.结果表明:奖励预测和景深避障的应用有助于提升导航性能.在多区域环境测试过程中,区域化模型在训练时间和所获奖励上展现出单一模型不具备的优势,表明其能更好地应对大范围导航.此外,实验在第一人称视角的3D环境下进行,状态是部分可观察的,利于实际应用. 展开更多
关键词 深度强化学习 分布式环境 区域化模型 奖励预测 景深避障
下载PDF
一种分层强化学习的知识推理方法
2
作者 孙崇 王海荣 +1 位作者 荆博祥 马赫 《计算机应用研究》 CSCD 北大核心 2024年第3期805-810,共6页
针对知识推理过程中,随着推理路径长度的增加,节点的动作空间急剧增长,使得推理难度不断提升的问题,提出一种分层强化学习的知识推理方法(knowledge reasoning method of hierarchical reinforcement learning,MutiAg-HRL),降低推理过... 针对知识推理过程中,随着推理路径长度的增加,节点的动作空间急剧增长,使得推理难度不断提升的问题,提出一种分层强化学习的知识推理方法(knowledge reasoning method of hierarchical reinforcement learning,MutiAg-HRL),降低推理过程中的动作空间大小。MutiAg-HRL调用高级智能体对知识图谱中的关系进行粗略推理,通过计算下一步关系及给定查询关系之间的相似度,确定目标实体大致位置,依据高级智能体给出的关系,指导低级智能体进行细致推理,选择下一步动作;模型还构造交互奖励机制,对两个智能体的关系和动作选择及时给予奖励,防止模型出现奖励稀疏问题。为验证该方法的有效性,在FB15K-237和NELL-995数据集上进行实验,将实验结果与TransE、MINERVA、HRL等11种主流方法进行对比分析,MutiAg-HRL方法在链接预测任务上的hits@k平均提升了1.85%,MRR平均提升了2%。 展开更多
关键词 知识推理 分层强化学习 交互奖励 链接预测
下载PDF
缰核与奖赏和稳态 被引量:1
3
作者 王绍 《生理科学进展》 CAS CSCD 北大核心 2008年第4期292-296,共5页
奖赏可以激励动物去进行和维持与个体生存和种族延续有关的行为。有机体在完成这些行为所进行的稳态调节过程中,从总体上要经历和脑内多巴胺神经元的活动密切相关的奖赏预测和奖赏预测失误。外侧缰核神经元在无奖赏预测过程中对多巴胺... 奖赏可以激励动物去进行和维持与个体生存和种族延续有关的行为。有机体在完成这些行为所进行的稳态调节过程中,从总体上要经历和脑内多巴胺神经元的活动密切相关的奖赏预测和奖赏预测失误。外侧缰核神经元在无奖赏预测过程中对多巴胺神经元有强力抑制作用。保持稳态平衡是机体活动的根本目标,奖赏是推动稳态平衡的驱动力。缰核能独立完成奖赏功能,并参与众多与生命活动攸关的生理功能调节,所以它可能也是机体稳态调节的中心之一。 展开更多
关键词 奖赏 奖赏预测 缰核
下载PDF
前额叶皮层和纹状体的局域场电位的功率编码奖励信息 被引量:1
4
作者 陈钰莹 潘晓川 +1 位作者 王如彬 SAKAGAMI Masamichi 《生理学报》 CAS CSCD 北大核心 2017年第4期385-396,共12页
前额叶皮层和纹状体是大脑内两个重要的区域,研究表明它们都参与了许多高级认知过程,如学习记忆、奖励信息处理、行为决策等。单细胞电生理记录实验已显示前额叶皮层和纹状体的神经元能够编码奖励信息,但不清楚这两个区域的局域场电位(l... 前额叶皮层和纹状体是大脑内两个重要的区域,研究表明它们都参与了许多高级认知过程,如学习记忆、奖励信息处理、行为决策等。单细胞电生理记录实验已显示前额叶皮层和纹状体的神经元能够编码奖励信息,但不清楚这两个区域的局域场电位(local field potential,LFP)是否也能编码奖励信息。为研究这个问题,当猴子在进行一个奖励预测实验时,用多通道电极同时记录了前额叶皮层和纹状体的LFP。采用短时傅里叶变换,将记录的LFP转换为时、频域上的信号,比较不同奖励条件(大容量水奖励和小容量水奖励)下功率值的分布。结果显示前额叶皮层和纹状体的LFP的功率能够区分不同的奖励条件,并且小容量水奖励条件下的功率值大于大容量水奖励条件下的功率值;进一步研究显示LFP在β频段(14~30 Hz)能更好地编码奖励信息。以上结果表明前额叶皮层和纹状体的LFP能够有效地编码奖励信息,有助于进一步理解LFP在处理奖励信息过程中的作用。 展开更多
关键词 前额叶皮层 纹状体 奖励预测 局域场电位 非参数置换检验
原文传递
前额叶皮层和纹状体间功能性连接的量化分析 被引量:1
5
作者 文再治 张建华 潘晓川 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期316-327,共12页
奖励预测对于大脑的学习记忆、行为决策等高级认知功能具有至关重要的意义。前额叶皮层(Prefrontal Cortex,PFC)和纹状体(Striatum)是大脑中的两个重要脑区,以往的研究发现,前额叶皮层和纹状体中的神经元都参与了对奖励信息的编码,然而... 奖励预测对于大脑的学习记忆、行为决策等高级认知功能具有至关重要的意义。前额叶皮层(Prefrontal Cortex,PFC)和纹状体(Striatum)是大脑中的两个重要脑区,以往的研究发现,前额叶皮层和纹状体中的神经元都参与了对奖励信息的编码,然而,对于这两个脑区之间信息交流、相互影响的具体方式仍然不够明确。为了研究这一问题,在对猴子进行非对称奖励预测实验的过程中,用多通道电极同时记录了其前额叶皮层和纹状体两个部位的局域场电位(Local Field Potentials, LFP)信号。通过计算非线性相互依赖性(Nonlinear Interdependence,NLI)来量化分析前额叶皮层和纹状体之间功能性连接的强度。结果显示,在β频段(15~30 Hz),小水奖励条件下前额叶皮层和纹状体间的功能性连接强度显著高于大水奖励条件下的结果,同时,前额叶皮层和纹状体间不同方向的连接强度也有显著差别。实验结果表明,前额叶皮层中LFP的β频段可能与纹状体神经元的活动有关,并在一定程度上调节猴子在奖励预测过程中的行为。 展开更多
关键词 前额叶皮层 纹状体 奖励预测 功能性连接 非线性相互依赖性
下载PDF
预测误差和期待价值在精神分裂症患者奖赏决策中的应用研究
6
作者 程小燕 张琪 +2 位作者 刘美玲 袁杰 易正辉 《同济大学学报(医学版)》 CAS 2022年第6期819-827,共9页
目的探讨不同严重度阴性症状的精神分裂症(schizophrenia,SZ)患者奖赏决策过程中预测误差和期待价值使用情况。方法纳入稳定期SZ患者80例,其中阴性症状低分组(low-negative symptom,LNS)和阴性症状高分组(high-negative symptom,HNS)各4... 目的探讨不同严重度阴性症状的精神分裂症(schizophrenia,SZ)患者奖赏决策过程中预测误差和期待价值使用情况。方法纳入稳定期SZ患者80例,其中阴性症状低分组(low-negative symptom,LNS)和阴性症状高分组(high-negative symptom,HNS)各40例。并纳入健康对照(health control,HC)40例。使用汉化的强化学习任务范式,比较代表不同指标的图片的正确率在三组间是否有差异。结果HNS组在赢得奖励条件下的正确率低于HC组,差异具有统计学意义(P=0.04),而避免损失条件下与HC组相当,差异无统计学意义(P>0.05)。代表期待价值使用的高概率赢钱-高概率避免损失(frequent winners vs frequent loss avoiders,FW-FLA)图片的正确率在三组间差异无统计学意义(F=1.68,P=0.19)。结论阴性症状重的SZ患者在赢得奖励条件不能很好地运用预测误差指导奖赏决策,但在防止损失条件下可以。认知功能相对较好的SZ患者在期待价值使用方面没有明显受损。 展开更多
关键词 精神分裂症 阴性症状 奖赏决策 预测误差 期待价值
下载PDF
前额叶皮层和纹状体群体神经元编码视觉刺激和奖励信息
7
作者 陈素华 潘晓川 Masamichi Sakagami 《生理学报》 CAS CSCD 北大核心 2020年第6期765-776,共12页
以往的文献报道了前额叶皮层和纹状体中的一些神经元编码视觉刺激(visual stimulus)和奖励(reward)信息,但从单个神经元角度来看,编码信息的方式很复杂,不同的神经元在不同时刻各自编码刺激或奖励信息。本文旨在研究这两个区域的群体神... 以往的文献报道了前额叶皮层和纹状体中的一些神经元编码视觉刺激(visual stimulus)和奖励(reward)信息,但从单个神经元角度来看,编码信息的方式很复杂,不同的神经元在不同时刻各自编码刺激或奖励信息。本文旨在研究这两个区域的群体神经元能否在整个试验期间(in a whole trial)稳定地表征与任务相关的信息。在一个刺激-奖励预测实验中,记录了日本猕猴(Macaca fuscata)前额叶皮层和纹状体中单个神经元的活动,采用多变量回归分析和线性支持向量机分类的方法研究了群体神经元编码的信息。结果显示,尽管与任务相关的神经元的比例在整个试验中变化较大,但前额叶皮层群体神经元稳定、可靠地编码了奖励和刺激信息,纹状体群体神经元在整个试验期间也编码了奖励信息,但没有编码刺激信息。这两个区域的神经元都编码了刺激和奖励的组合信息,并且前额叶皮层的神经元编码了一组刺激(一个集合)与奖励的关系,而纹状体神经元编码了一个特定刺激与奖励的关系。以上结果提示,前额叶皮层和纹状体群体神经元都能稳定地表达任务相关的参数,但各自编码的信息是不一样的,对应于它们在价值决策中不同的作用。 展开更多
关键词 前额叶皮层 纹状体 奖励预测 群体神经元 支持向量机
原文传递
反馈负波及其近10年理论解释 被引量:15
8
作者 李丹阳 李鹏 李红 《心理科学进展》 CSSCI CSCD 北大核心 2018年第9期1642-1650,共9页
个体决策后的反馈对随后的结果监控和行为调整起着至关重要的作用。事件相关脑电位研究发现,反馈负波(feedback-related negativity,FRN)是与决策后反馈加工过程紧密相关的脑电成分。近10年来关于FRN的理论解释,在最初经典的强化学习理... 个体决策后的反馈对随后的结果监控和行为调整起着至关重要的作用。事件相关脑电位研究发现,反馈负波(feedback-related negativity,FRN)是与决策后反馈加工过程紧密相关的脑电成分。近10年来关于FRN的理论解释,在最初经典的强化学习理论和情绪动机假说的基础上又提出了反应-结果的预测模型、奖赏正波理论以及积极情绪启动模型。未来的研究应该立足于大样本,采用互补的研究手段和多样的分析技术来探讨FRN的心理意义;同时考虑将FRN作为奖赏加工的脑电指标,研究社会互动情境下的人类行为。 展开更多
关键词 反馈负波 强化学习 前扣带回 奖赏正波 奖赏预测误差
下载PDF
多巴胺信号表征奖赏预测误差的理论起源和进展
9
作者 刘文卿 许淑媛 +5 位作者 程强强 吴美霖 魏春玲 孙宗鹏 韩静 任维 《生命科学》 CSCD 2024年第2期143-150,共8页
学会寻求自然奖赏对人和高等动物的生存和繁衍极为重要。脑内多巴胺能神经元活动在处理奖赏信息时发生具有表征意义的增强,产生多巴胺信号。人们相继提出快感、激励显著性、奖赏预测误差等一系列假说,日益精确地揭示了多巴胺信号所表征... 学会寻求自然奖赏对人和高等动物的生存和繁衍极为重要。脑内多巴胺能神经元活动在处理奖赏信息时发生具有表征意义的增强,产生多巴胺信号。人们相继提出快感、激励显著性、奖赏预测误差等一系列假说,日益精确地揭示了多巴胺信号所表征的意义内涵。这一进展历程对神经科学、心理学和人工智能研究具有深刻启迪,其成果更具有基础性的科学价值。本文简要回顾这些假说的发展历程,介绍奖赏预测误差假说如何继承多学科成果并相对准确地揭示多巴胺信号的重要功能,分析部分最新成果对奖赏预测误差假说的充实和扩展,并初步展望该领域进一步发展的可能方向。 展开更多
关键词 奖赏 惩罚 奖赏预测误差 多巴胺 强化学习
原文传递
奖赏预测误差对项目和联结记忆影响的分离:元记忆的作用 被引量:1
10
作者 龙翼婷 姜英杰 +1 位作者 崔璨 岳阳 《心理学报》 CSCD 北大核心 2023年第6期877-891,共15页
选取奖赏预测误差(reward prediction error,RPE)效价和凸显性为自变量,通过3个实验考察RPE对项目和联结记忆影响的差异及其元记忆机制。被试在对图片的奖赏猜测-奖赏反馈中形成RPE,且需要同时记忆图片(项目)以及图片-奖赏联结,最后进... 选取奖赏预测误差(reward prediction error,RPE)效价和凸显性为自变量,通过3个实验考察RPE对项目和联结记忆影响的差异及其元记忆机制。被试在对图片的奖赏猜测-奖赏反馈中形成RPE,且需要同时记忆图片(项目)以及图片-奖赏联结,最后进行记忆测试。结果表明,(1)联结记忆成绩存在RPE正效价和低凸显性优势,其信心判断准确性在RPE正效价时更高,而项目记忆成绩存在RPE负效价和高凸显性优势;(2)在编码过程中,RPE正效价和低凸显性提高了个体的瞳孔变化均值和峰值;RPE低凸显性增加了分值注视时间,缩短了图片注视时间;(3)增加RPE水平后,RPE对项目和联结记忆成绩的分离影响仍稳定存在。这些结果表明,RPE对项目和联结记忆的影响存在分离:编码阶段中,个体以RPE效价和凸显性为线索,通过元记忆控制对项目和联结记忆加工中的认知资源进行差异性分配;提取阶段中,RPE正效价提高了对联结记忆提取的元记忆监测水平。 展开更多
关键词 奖赏预测误差 联结记忆 眼动 情景记忆 元记忆
下载PDF
奖赏预测误差对记忆辨别的影响:行为及眼动的证据
11
作者 岳阳 姜英杰 +1 位作者 龙翼婷 王凯玉 《心理科学》 CSCD 北大核心 2023年第4期817-824,共8页
记忆辨别反映了个体对所经历事件能够形成独特的记忆表征并正确拒斥相似诱饵的能力,是情景记忆最重要的特征之一。研究采用奖赏条件学习范式和记忆相似任务考察奖赏预测误差对记忆辨别的影响。结果显示奖赏预测误差的绝对值越大,记忆辨... 记忆辨别反映了个体对所经历事件能够形成独特的记忆表征并正确拒斥相似诱饵的能力,是情景记忆最重要的特征之一。研究采用奖赏条件学习范式和记忆相似任务考察奖赏预测误差对记忆辨别的影响。结果显示奖赏预测误差的绝对值越大,记忆辨别值越高;在诱饵击中项目中,高奖赏预测误差绝对值条件下的瞳孔扩张值(pupil dilation,PD)显著高于低绝对值条件;而在诱饵虚报项目中,两者无显著差异;瞳孔扩张值是记忆辨别的正向预测因子。综上,不带符号的奖赏预测误差能够引发个体的意外反应、提高其情绪唤醒水平(瞳孔扩张)、促进个体对细节信息的加工、提高记忆辨别。 展开更多
关键词 记忆辨别 奖赏预测误差 奖赏条件化 情景记忆 眼动追踪
下载PDF
奖赏预测误差对时间顺序记忆和来源记忆的影响
12
作者 张弘弛 成旋 毛伟宾 《心理学报》 CSCD 北大核心 2023年第7期1049-1062,共14页
先前研究表明,事件边界会增强边界处来源记忆、削弱跨边界的时间顺序记忆,但对于两者之间是否存在一种权衡关系,以及内在的、具有社会性意义的变化作为事件边界是如何影响记忆的,尚鲜有研究。本研究以奖赏预测误差(reward prediction er... 先前研究表明,事件边界会增强边界处来源记忆、削弱跨边界的时间顺序记忆,但对于两者之间是否存在一种权衡关系,以及内在的、具有社会性意义的变化作为事件边界是如何影响记忆的,尚鲜有研究。本研究以奖赏预测误差(reward prediction errors,RPE)作为事件边界,通过两个行为实验和一个ERP实验,探讨RPE事件边界对时间顺序记忆和来源记忆的影响。结果发现,RPE事件边界增强了边界处信息的来源记忆,高RPE事件边界引发了记忆权衡效应;相对于事件内/非边界条件,跨事件/边界条件记忆的正确提取诱发出更大的N400波幅,时间顺序记忆的激活主要集中在头皮中前部,来源记忆的激活主要集中在头皮中后部。本研究表明,事件边界的切分强度是影响记忆权衡效应的重要因素,N400成分可能是反映事件边界对情景记忆的整合与切分的重要指标。 展开更多
关键词 奖赏预测误差 事件边界 时间顺序记忆 来源记忆 记忆权衡效应
下载PDF
不确定失效阈值影响下考虑设备剩余寿命预测信息的最优替换策略 被引量:3
13
作者 王泽洲 陈云翔 +2 位作者 蔡忠义 王莉莉 项华春 《国防科技大学学报》 EI CAS CSCD 北大核心 2021年第1期145-154,共10页
为了进一步提升设备维修决策的科学性,通过建立综合设备剩余寿命预测数据与不确定失效阈值的最优维修决策模型,实现了不可维修设备的最优替换策略。构建基于非线性Wiener过程的设备性能退化模型,并采用极大似然法估计退化模型参数;提出... 为了进一步提升设备维修决策的科学性,通过建立综合设备剩余寿命预测数据与不确定失效阈值的最优维修决策模型,实现了不可维修设备的最优替换策略。构建基于非线性Wiener过程的设备性能退化模型,并采用极大似然法估计退化模型参数;提出一种基于期望最大(Expectation Maximization,EM)算法的不确定失效阈值分布系数估计方法,通过引入虚拟失效阈值数据实现对失效阈值分布系数的同步迭代更新;基于首达时的概念推导出不确定失效阈值条件下设备剩余寿命的概率密度函数,并基于更新报酬理论建立维修决策模型,从而实现设备的最优维修决策。算例分析表明,设备的失效阈值会对维修决策结果产生重要影响,考虑设备失效阈值的不确定性既有助于提升剩余寿命预测的准确性,又可以有效降低设备的寿命周期费用。 展开更多
关键词 维修决策 更新报酬理论 剩余寿命预测 不确定失效阈值 EM算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部