期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
满足匹配律的策略参数搜索决策模型
1
作者
程振波
张宇
邓志东
《中国科学:信息科学》
CSCD
2012年第1期83-98,共16页
匹配律是决策理论的基本定律之一,它建立了对备选目标的偏好与所获奖励之间的对应关系.通过构建获得匹配律的策略模型,研究了该定律成立的可能机制.基于再励学习理论,提出了通过调整策略参数以满足决策目标的策略搜索模型.在该策略模型...
匹配律是决策理论的基本定律之一,它建立了对备选目标的偏好与所获奖励之间的对应关系.通过构建获得匹配律的策略模型,研究了该定律成立的可能机制.基于再励学习理论,提出了通过调整策略参数以满足决策目标的策略搜索模型.在该策略模型的基础上,通过设定简单的假设条件推导出满足匹配律的策略算法.理论分析和数值仿真结果均验证了算法的正确性.另一方面利用该算法模拟了经典的心理学与神经生理学的匹配行为实验.研究结果不仅对匹配行为给出了合理的解释,也为建立基于奖励的决策模型提供了一种有效的理论建模方法.
展开更多
关键词
策略模型
匹配
律
再励学习
决策模型
神经回路
原文传递
优化策略模型下的匹配律算法
2
作者
程振波
邓志东
《东南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2009年第S1期146-151,共6页
利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔...
利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔可夫性,通过计算值函数期望值的梯度可求得优化行为的策略搜索算法.理论分析与仿真结果表明,如果策略参数与值函数的期望值仅受当前经验的影响,则可由获得优化行为的策略算法推导出符合匹配律的策略算法.研究结果揭示了匹配行为与优化策略搜索算法之间的关系,表明满足匹配律的决策行为是一类达到次优的决策行为.
展开更多
关键词
部分可观马尔可夫决策过程
再励学习
优化策略搜索
匹配
律
下载PDF
职称材料
换热器两侧性能的最佳匹配关系
被引量:
4
3
作者
陈维汉
孙毅
《华中理工大学学报》
CSCD
北大核心
1997年第2期76-78,共3页
基于换热器的传热方程和投资费用方程,在单位投资费用换热热流量最大的条件下导出换热器两侧的最佳性能匹配关系式,即最佳投资分配、最佳表面积分配及最佳热阻分配的平方根律.结果表明,由于投资费用的影响,换热器两侧的最佳换热性...
基于换热器的传热方程和投资费用方程,在单位投资费用换热热流量最大的条件下导出换热器两侧的最佳性能匹配关系式,即最佳投资分配、最佳表面积分配及最佳热阻分配的平方根律.结果表明,由于投资费用的影响,换热器两侧的最佳换热性能匹配并不是等值匹配.因此。
展开更多
关键词
换热器
性能价格比
最佳
匹配
律
下载PDF
职称材料
题名
满足匹配律的策略参数搜索决策模型
1
作者
程振波
张宇
邓志东
机构
清华信息科学与技术国家实验室(筹)智能技术与国家重点实验室清华大学计算机系
浙江工业大学计算机科学与技术学院
出处
《中国科学:信息科学》
CSCD
2012年第1期83-98,共16页
基金
国家自然科学基金(批准号:61005085
60775040
90820305)资助项目
文摘
匹配律是决策理论的基本定律之一,它建立了对备选目标的偏好与所获奖励之间的对应关系.通过构建获得匹配律的策略模型,研究了该定律成立的可能机制.基于再励学习理论,提出了通过调整策略参数以满足决策目标的策略搜索模型.在该策略模型的基础上,通过设定简单的假设条件推导出满足匹配律的策略算法.理论分析和数值仿真结果均验证了算法的正确性.另一方面利用该算法模拟了经典的心理学与神经生理学的匹配行为实验.研究结果不仅对匹配行为给出了合理的解释,也为建立基于奖励的决策模型提供了一种有效的理论建模方法.
关键词
策略模型
匹配
律
再励学习
决策模型
神经回路
Keywords
policy model, matching law, reinforcement learning, decision-making model, neural circuit
分类号
O225 [理学—运筹学与控制论]
原文传递
题名
优化策略模型下的匹配律算法
2
作者
程振波
邓志东
机构
清华大学智能技术与系统国家重点实验室
清华信息科学与技术国家实验室
清华大学计算机科学与技术系
出处
《东南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2009年第S1期146-151,共6页
基金
国家自然科学基金资助项目(60621062
60775040)
文摘
利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔可夫性,通过计算值函数期望值的梯度可求得优化行为的策略搜索算法.理论分析与仿真结果表明,如果策略参数与值函数的期望值仅受当前经验的影响,则可由获得优化行为的策略算法推导出符合匹配律的策略算法.研究结果揭示了匹配行为与优化策略搜索算法之间的关系,表明满足匹配律的决策行为是一类达到次优的决策行为.
关键词
部分可观马尔可夫决策过程
再励学习
优化策略搜索
匹配
律
Keywords
partially observable Markov decision process
reinforcement learning
optimal policy search
matching law
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
换热器两侧性能的最佳匹配关系
被引量:
4
3
作者
陈维汉
孙毅
出处
《华中理工大学学报》
CSCD
北大核心
1997年第2期76-78,共3页
文摘
基于换热器的传热方程和投资费用方程,在单位投资费用换热热流量最大的条件下导出换热器两侧的最佳性能匹配关系式,即最佳投资分配、最佳表面积分配及最佳热阻分配的平方根律.结果表明,由于投资费用的影响,换热器两侧的最佳换热性能匹配并不是等值匹配.因此。
关键词
换热器
性能价格比
最佳
匹配
律
Keywords
heat exchanger
performance price ratio
optimal matching law
分类号
TK172 [动力工程及工程热物理—热能工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
满足匹配律的策略参数搜索决策模型
程振波
张宇
邓志东
《中国科学:信息科学》
CSCD
2012
0
原文传递
2
优化策略模型下的匹配律算法
程振波
邓志东
《东南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2009
0
下载PDF
职称材料
3
换热器两侧性能的最佳匹配关系
陈维汉
孙毅
《华中理工大学学报》
CSCD
北大核心
1997
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部