期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
焦虑情绪对奖赏学习的影响 被引量:8
1
作者 古若雷 徐鹏飞 +4 位作者 徐蕊 施媛媛 杨紫嫣 王娱琦 蔡华俭 《心理科学进展》 CSSCI CSCD 北大核心 2016年第4期475-483,共9页
焦虑是在我们日常生活中占据重要地位的一种情绪,对人类的决策行为能够产生显著影响。探讨决策研究的重要领域——奖赏学习,可以帮助我们更深入地认识焦虑情绪在决策过程中扮演的角色。过往研究者较少关注焦虑对奖赏学习的潜在影响,而... 焦虑是在我们日常生活中占据重要地位的一种情绪,对人类的决策行为能够产生显著影响。探讨决策研究的重要领域——奖赏学习,可以帮助我们更深入地认识焦虑情绪在决策过程中扮演的角色。过往研究者较少关注焦虑对奖赏学习的潜在影响,而且已有研究在实验技术和任务范式方面存在一定的局限性。考虑到奖赏学习概念的复杂性,为了全面地考察个体焦虑水平与奖赏学习的关系,本文作者建议设置不同类型的奖赏学习情境,例如概率学习、联结学习、逆向学习和社会学习等。在上述各类不同任务中,个体焦虑水平对奖赏学习能力的影响模式可能并不一致,有待研究者们进行深入探讨。 展开更多
关键词 焦虑 决策 奖赏学习
下载PDF
精神分裂症社会动机损伤的研究进展 被引量:4
2
作者 崔慧茹 王继军 《中华精神科杂志》 CAS CSCD 北大核心 2021年第3期219-223,共5页
社会动机损伤是精神分裂症患者阴性症状的主要表现之一。本文从不同动机成分的角度探讨精神分裂症社会动机的损伤特征。精神分裂症患者存在奖赏学习、愉快体验和决策努力分配等多个成分的社会动机损伤,涉及社会交互神经环路的多个脑区... 社会动机损伤是精神分裂症患者阴性症状的主要表现之一。本文从不同动机成分的角度探讨精神分裂症社会动机的损伤特征。精神分裂症患者存在奖赏学习、愉快体验和决策努力分配等多个成分的社会动机损伤,涉及社会交互神经环路的多个脑区功能异常,如扣带回、背外侧前额叶、纹状体等。未来研究可考虑开发新型任务范式并结合多学科技术来深入探索精神分裂症社会动机异常的神经机制,为发展针对阴性症状的临床干预策略提供更多证据支撑。 展开更多
关键词 精神分裂症 社会动机 奖赏学习 愉快体验 努力分配
原文传递
概率奖赏任务及其在中国大学生样本中的应用研究 被引量:1
3
作者 范乐佳 张蓓 +6 位作者 欧阳紫榕 罗兴伟 李欢欢 张江华 熊燕 罗伏生 王湘 《中国临床心理学杂志》 CSSCI CSCD 北大核心 2017年第1期1-5,24,共6页
目的:本研究首次在中国健康大学生样本中应用概率奖赏任务(Probabilistic Reward Task,PRT),并对其奖赏强化学习行为的机制进行探讨。方法:127名健康大学生被试完成计算机汉化版的概率奖赏任务(长短嘴版本,300试次),采用重复测量方差分... 目的:本研究首次在中国健康大学生样本中应用概率奖赏任务(Probabilistic Reward Task,PRT),并对其奖赏强化学习行为的机制进行探讨。方法:127名健康大学生被试完成计算机汉化版的概率奖赏任务(长短嘴版本,300试次),采用重复测量方差分析对反应偏向、鉴别力、准确率、反应时等指标进行统计。结果:反应偏向与鉴别力的组块主效应显著(F(2,252)=20.05,P<0.001;F(2,252)=13.02,P<0.001),随操作次数增多,反应偏向与鉴别力逐渐提高。反应时和准确率的刺激类型主效应显著(F(1,126)=84.09,P<0.001;F(2,126)=143.08,P<0.001),奖多刺激(获奖赏机率高的刺激)的反应时显著低于奖少刺激(获奖赏机率低的刺激),奖多刺激的准确率显著高于奖少刺激(P<0.001)。反应时和准确率的组块和刺激类型的交互作用均显著(F(2,252)=14.15,P<0.001;F(2,252)=17.79,P<0.001)。在奖多刺激条件下,反应时组块1>组块2=组块3(P<0.05),准确率组块3>组块2>组块1(均P<0.001);而奖少刺激条件下,三个组块之间的反应时及准确率均没有显著差异。结论:中国大学生群体在PRT任务操作过程中,表现出明显的追求更高机率奖赏的动机与欲望,并存在渐进累积的奖赏学习效应。 展开更多
关键词 概率奖赏任务 奖赏学习 积极强化
原文传递
Movement and behavior analysis using neural spike signals in CA1 of rat hippocampus
4
作者 Hyejin An Kyungjin You +1 位作者 Minwhan Jung Hyunchool Shin 《Journal of Measurement Science and Instrumentation》 CAS 2013年第4期392-396,共5页
The hippocampus which lies in the temporal lobe plays an important role in spatial navigation,learning and memory.Several studies have been made on the place cell activity,spatial memory,prediction of future locations... The hippocampus which lies in the temporal lobe plays an important role in spatial navigation,learning and memory.Several studies have been made on the place cell activity,spatial memory,prediction of future locations and various learning paradigms.However,there are no attempts which have focused on finding whether neurons which contribute largely to both spatial memory and learning about the reward exist.This paper proposes that there are neurons that can simultaneously engage in forming place memory and reward learning in a rat hippocampus' s CA1 area.With a trained rat,a reward experiment was conducted in a modified 8-shaped maze with five stages,and utterance information was obtained from a CA1 neuron.The firing rate which is the count of spikes per unit time was calculated.The decoding was conducted with log-maximum likelihood estimation(Log-MLE) using Gaussian distribution model.Our outcomes provide evidence of neurons which play a part in spatial memory and learning regarding reward. 展开更多
关键词 HIPPOCAMPUS CA1 place cell reward learning spatial memory Gaussian distribution maximum likelihood estimation(MLE)Document code:AArticle ID:1674-8042(2013)04-0392-05
下载PDF
奖赏学习对非目标情绪面孔注意捕获的影响
5
作者 周星 郝爽 +1 位作者 赵立立 何蔚祺 《心理科学》 CSSCI CSCD 北大核心 2023年第6期1298-1304,共7页
研究发现和奖赏关联的刺激会更突显从而捕获注意难以抑制其加工优势。为揭示奖赏学习对情绪注意捕获加工的影响,本研究用奖赏学习范式考察情绪面孔习得奖赏联结后对目标的干扰作用特点。在奖赏训练阶段将三种情绪面孔和不同程度奖赏建... 研究发现和奖赏关联的刺激会更突显从而捕获注意难以抑制其加工优势。为揭示奖赏学习对情绪注意捕获加工的影响,本研究用奖赏学习范式考察情绪面孔习得奖赏联结后对目标的干扰作用特点。在奖赏训练阶段将三种情绪面孔和不同程度奖赏建立学习联结;测试阶段考察情绪面孔对目标任务完成的干扰是否受到奖赏学习调节。结果显示,高奖赏条件下,相比高兴和中性面孔,恐惧面孔作为非目标刺激时被试完成任务反应时更短,揭示了奖赏学习能有效调节注意资源,且对恐惧面孔干扰具有削弱作用。 展开更多
关键词 奖赏学习 情绪面孔 注意捕获 干扰
下载PDF
奖赏学习措施引发学生注意警觉的教改实验研究
6
作者 吴弦 《成都师范学院学报》 2022年第2期51-57,共7页
探究奖赏学习对视觉注意选择的影响,并有效分离与奖赏建立价值联结的颜色注意警觉和注意脱离困难。采用学习—测试范式,在学习阶段用视觉搜索范式建立价值联结,使目标颜色能够捕获被试注意,在测试阶段用点探测范式分离注意警觉和注意脱... 探究奖赏学习对视觉注意选择的影响,并有效分离与奖赏建立价值联结的颜色注意警觉和注意脱离困难。采用学习—测试范式,在学习阶段用视觉搜索范式建立价值联结,使目标颜色能够捕获被试注意,在测试阶段用点探测范式分离注意警觉和注意脱离困难。在四川省成都市数所初级中学里随机选择100名自愿参加实验的在校学生作为测试对象,对测试的正确率与反应时进行分析发现:经过练习,被试学生确实建立了与高奖赏颜色对应的价值联结(没有发现速度—准确率权衡);高奖赏颜色对与无奖赏颜色对的注意警觉指数之间差异显著,且高奖赏颜色对的注意警觉指数显著大于0;测试对象产生了注意警觉,无注意脱离困难现象。 展开更多
关键词 奖赏学习 注意警觉 注意脱离 警觉指数 点探测范式 视觉搜索范式 学习—测试范式
下载PDF
预测误差和期待价值在精神分裂症患者奖赏决策中的应用研究
7
作者 程小燕 张琪 +2 位作者 刘美玲 袁杰 易正辉 《同济大学学报(医学版)》 CAS 2022年第6期819-827,共9页
目的探讨不同严重度阴性症状的精神分裂症(schizophrenia,SZ)患者奖赏决策过程中预测误差和期待价值使用情况。方法纳入稳定期SZ患者80例,其中阴性症状低分组(low-negative symptom,LNS)和阴性症状高分组(high-negative symptom,HNS)各4... 目的探讨不同严重度阴性症状的精神分裂症(schizophrenia,SZ)患者奖赏决策过程中预测误差和期待价值使用情况。方法纳入稳定期SZ患者80例,其中阴性症状低分组(low-negative symptom,LNS)和阴性症状高分组(high-negative symptom,HNS)各40例。并纳入健康对照(health control,HC)40例。使用汉化的强化学习任务范式,比较代表不同指标的图片的正确率在三组间是否有差异。结果HNS组在赢得奖励条件下的正确率低于HC组,差异具有统计学意义(P=0.04),而避免损失条件下与HC组相当,差异无统计学意义(P>0.05)。代表期待价值使用的高概率赢钱-高概率避免损失(frequent winners vs frequent loss avoiders,FW-FLA)图片的正确率在三组间差异无统计学意义(F=1.68,P=0.19)。结论阴性症状重的SZ患者在赢得奖励条件不能很好地运用预测误差指导奖赏决策,但在防止损失条件下可以。认知功能相对较好的SZ患者在期待价值使用方面没有明显受损。 展开更多
关键词 精神分裂症 阴性症状 奖赏决策 预测误差 期待价值
下载PDF
自动驾驶奖励函数贝叶斯逆强化学习方法
8
作者 曾迪 郑玲 +1 位作者 李以农 杨显通 《机械工程学报》 EI CAS CSCD 北大核心 2024年第10期245-260,共16页
研究具有广泛场景适应性的自动驾驶汽车的驾驶策略,对实现安全、舒适、和谐的自动驾驶至关重要。深度强化学习以其优异的函数逼近和表示能力,在驾驶策略学习方面展示了巨大潜力。但设计适用于各种复杂驾驶场景的奖励函数极具挑战性,驾... 研究具有广泛场景适应性的自动驾驶汽车的驾驶策略,对实现安全、舒适、和谐的自动驾驶至关重要。深度强化学习以其优异的函数逼近和表示能力,在驾驶策略学习方面展示了巨大潜力。但设计适用于各种复杂驾驶场景的奖励函数极具挑战性,驾驶策略的场景泛化能力亟待提升。针对复杂驾驶场景下的奖励函数难以设计问题,考虑人类驾驶行为偏好,建立人类驾驶策略的近似似然函数模型,通过基于曲线插值的动作空间稀疏采样和近似变分推理方法,学习奖励函数的近似后验分布,建立基于贝叶斯神经网络的奖励函数模型。针对神经网络奖励函数不确定性产生的错误奖励,采用蒙特卡洛方法,对贝叶斯神经网络奖励函数不确定性进行度量,在最大化奖励函数的同时,对认知不确定性进行适当惩罚,提出基于奖励函数后验分布的不确定性认知型类人驾驶策略训练方法。采用NGSIM US-101高速公路数据集和nuPlan城市道路数据集,对所提出方法的有效性进行测试和验证。研究结果表明,基于贝叶斯逆强化学习的近似变分奖励学习方法,克服基于人工构造状态特征线性组合的奖励函数性能不佳的问题,实现奖励函数不确定性的度量,提升奖励函数对高维非线性问题的泛化能力,其学习的奖励函数及训练稳定性明显优于主流逆强化学习方法。在奖励函数中适当引入不确定性的惩罚,有利于提升驾驶策略的类人性、安全性及其训练的稳定性,提出的不确定性认知型类人驾驶策略显著优于行为克隆学习的策略和基于最大熵逆强化学习的策略。 展开更多
关键词 智能汽车 自动驾驶 近似变分奖励学习 近似变分推理 贝叶斯逆强化学习
原文传递
平均奖赏强化学习算法研究 被引量:38
9
作者 高阳 周如益 +1 位作者 王皓 曹志新 《计算机学报》 EI CSCD 北大核心 2007年第8期1372-1378,共7页
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证... 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能. 展开更多
关键词 平均奖赏强化学习 性能势 G-学习 马尔可夫决策过程 半马尔可夫决策过程
下载PDF
平均报酬模型强化学习理论、算法及应用 被引量:4
10
作者 黄炳强 曹广益 李建华 《计算机工程》 CAS CSCD 北大核心 2007年第18期18-19,39,共3页
折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬... 折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。 展开更多
关键词 平均报酬强化学习 R学习 H学习
下载PDF
基于平均强化学习的订单生产方式企业订单接受策略 被引量:6
11
作者 郝鹃 余建军 周文慧 《计算机应用》 CSCD 北大核心 2013年第4期976-979,共4页
从收益管理思想出发,采用平均强化学习算法研究不确定环境下订单生产(MTO)方式企业的订单接受问题。以最大化平均期望收益为优化目标,采用多级价格机制,把订单类型、价格和提前期的不同组合作为系统状态划分标准,结合平均强化学习原理,... 从收益管理思想出发,采用平均强化学习算法研究不确定环境下订单生产(MTO)方式企业的订单接受问题。以最大化平均期望收益为优化目标,采用多级价格机制,把订单类型、价格和提前期的不同组合作为系统状态划分标准,结合平均强化学习原理,提出了具有学习能力的订单接受算法(RLOA)。仿真结果表明,RLOA算法具有学习和选择性接受订单的能力,与其他订单接受规则相比,在平均收益、订单类型接受状况和适应性等方面都有较好表现。 展开更多
关键词 订单接受 平均强化学习 订单生产方式企业 收益管理
下载PDF
可重入生产系统的平均报酬型强化学习调度 被引量:5
12
作者 柳长春 沈志江 于海斌 《信息与控制》 CSCD 北大核心 2004年第2期145-150,共6页
在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优... 在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优于两种熟知的优先权调度策略 . 展开更多
关键词 可重入生产系统 平均报酬型强化学习调度 优化 调度策略
下载PDF
基于平均报酬模型的强化学习算法研究 被引量:1
13
作者 黄炳强 曹广益 +1 位作者 费燕琼 王占全 《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化... 对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向. 展开更多
关键词 平均报酬强化学习 R学习 H学习 LC学习
下载PDF
学习的付出-回馈失衡评价量表的修订 被引量:5
14
作者 楚克群 王志卉 +1 位作者 马超超 宋国萍 《中国心理卫生杂志》 CSSCI CSCD 北大核心 2015年第11期848-851,共4页
目的:对学习的付出-回馈失衡评价量表(LERIS)进行修订,并检验其效度和信度。方法:选取陕西省2所初级中学的学生230名,进行LERIS中文版初测(回收有效问卷214份),通过条目分析及探索性因子分析确定正式量表。选取陕西、山东两省4所... 目的:对学习的付出-回馈失衡评价量表(LERIS)进行修订,并检验其效度和信度。方法:选取陕西省2所初级中学的学生230名,进行LERIS中文版初测(回收有效问卷214份),通过条目分析及探索性因子分析确定正式量表。选取陕西、山东两省4所初级中学的510名学生正式施测(回收有效问卷474份),进行验证性因子分析和内部一致性信度检验;同时选取中学生学习压力问卷(SSQMSS)作为效标。1个月后,选取其中260人以检验问卷的重测信度。结果:LERIS中文版包含10个条目,分为付出、回馈以及过度投入3个分量表;验证性因子分析表明量表具有良好的结构效度(RMSEA=0.08,NFI=0.901,CFI=0.910,GFI=0.905,PGFI=0.521)。LERIS的3个分量表得分与SSQM SS总分均呈正相关(r=0.27~0.43,均P﹤0.01)。3个分量表的内部一致性信度在0.86~0.89之间,重测信度在0.63~0.71之间。结论:学习的付出-回馈失衡评价量表有良好的测量学指标,可以作为我国初中学生学业压力的测量工具。 展开更多
关键词 学习的付出-回馈失衡评价量表 过度投入 中学生 效度 信度
下载PDF
奖励性操作条件反射实时测试分析处理系统研制 被引量:4
15
作者 陈铃铃 石哲 +6 位作者 陈善广 李莹辉 曲丽娜 李海清 李翊华 刘新民 曾建国 《航天医学与医学工程》 CAS CSCD 北大核心 2013年第4期278-282,共5页
目的为研究认知功能障碍发生机制及药物的防治提供一种功能完善、高智能化和自动化的动物认知行为分析方法。方法集成图像分析处理和模式识别等多种技术建立奖励操作条件反射实时测试分析处理系统,系统软件采用Microsoft Visual C#2008.... 目的为研究认知功能障碍发生机制及药物的防治提供一种功能完善、高智能化和自动化的动物认知行为分析方法。方法集成图像分析处理和模式识别等多种技术建立奖励操作条件反射实时测试分析处理系统,系统软件采用Microsoft Visual C#2008.net语言环境开发,利用Wistar大鼠对系统的稳定性和可靠性进行验证。结果本系统能对刺激信号种类、操作方式、奖励物质进行复杂组合,建立分阶段的认知行为检测模式,建立动物对复杂信号的认知行为评价指标体系,动物验证结果显示系统稳定可靠。结论本系统可应用于航天环境下动物兴趣、注意力、反应力、决策力等认知行为的研究。 展开更多
关键词 奖励性操作条件反射 认知行为 分析系统
下载PDF
高中学生学习付出-回馈失衡与学习倦怠的相关性研究 被引量:3
16
作者 刘琳慧 莫颖绿 +1 位作者 应益飞 张岩 《预防医学》 2017年第11期1089-1093,共5页
目的了解高中学生学习付出-回馈失衡与学习倦怠情况以及两者的相互关系。方法采用分层随机抽样方法在丽水市抽取420名高中学生,采用《学习的付出-回馈失衡评价量表》和《中学生学习倦怠问卷》进行调查,采用多重线性回归模型分析学习付出... 目的了解高中学生学习付出-回馈失衡与学习倦怠情况以及两者的相互关系。方法采用分层随机抽样方法在丽水市抽取420名高中学生,采用《学习的付出-回馈失衡评价量表》和《中学生学习倦怠问卷》进行调查,采用多重线性回归模型分析学习付出-回馈失衡与学习倦怠的关系。结果共发放问卷420份,回收有效问卷387份,回收有效率为92.14%。42.38%(164/387)的学生存在学习付出-回馈失衡情况;城镇和农村及不同年级学生在付出、回馈和学习付出-回馈失衡率方面比较差异均无统计学意义(P>0.05);女生过度付出程度高于男生(P<0.05)。调查对象学习倦怠得分为(56.93±13.22)分;城镇和农村及不同性别学生学习倦怠得分差异均无统计学意义(P>0.05);学习付出-回馈失衡学生的学习倦怠得分高于未失衡的;高三学生学习倦怠得分高于高一和高二学生(均P<0.05)。多重线性回归分析结果显示,学习回馈、过度投入与学习倦怠均呈负相关(P<0.05)。结论丽水市高中学生学习付出-回馈失衡和学习倦怠情况较普遍,学习回馈和过度投入是学习倦怠的影响因素。 展开更多
关键词 高中生 学习付出-回馈失衡 学习倦怠
原文传递
基于强化学习的认知雷达目标跟踪波形挑选方法
17
作者 朱培坤 梁菁 +1 位作者 罗子涵 沈晓峰 《雷达学报(中英文)》 EI CSCD 北大核心 2023年第2期412-424,共13页
认知雷达通过不断与环境互动并从经验中学习,根据获得的知识不断调整其波形、参数和照射策略,以在复杂多变的场景中实现稳健的目标跟踪,其波形设计在提高跟踪性能方面一直备受关注。该文提出了一种用于跟踪高机动目标的认知雷达波形选... 认知雷达通过不断与环境互动并从经验中学习,根据获得的知识不断调整其波形、参数和照射策略,以在复杂多变的场景中实现稳健的目标跟踪,其波形设计在提高跟踪性能方面一直备受关注。该文提出了一种用于跟踪高机动目标的认知雷达波形选择框架,该框架考虑了恒定速度(CV)、恒定加速度(CA)和协同转弯(CT)模型的组合,在该框架的基础上设计了基于准则优化(CBO)和熵奖励Q学习(ERQL)方法进行最优波形选择。该方法将雷达与目标集成到一个闭环中,发射波形随目标状态的变化实时更新,从而达到对目标的最佳跟踪性能。数值结果表明,与CBO方法相比,所提出的ERQL方法大大减少了获取最优波形的处理时间,并实现了与CBO相近的跟踪性能,相比于固定参数(Fixed-P)方法,极大地提高了机动目标的跟踪精度。 展开更多
关键词 目标跟踪 认知雷达 波形挑选 基于准则优化(CBO) 熵奖励Q学习(ERQL)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部