期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
语义理解与常识推理的机器表现和人类基线之比较——怎样评估ChatGPT等大型语言模型的语言运用能力?
1
作者
袁毓林
《汉语学报》
CSSCI
北大核心
2024年第4期2-16,共15页
本文讨论怎样通过跟人类基线的比较,来合理地评估ChatGPT等现代大型语言模型的语言运用能力。首先,用代词指称歧义和否定辖域问题测试ChatGPT,展示语言大模型在语义理解和常识推理方面的优秀表现;接着简介维诺格拉德模式挑战及其升级版...
本文讨论怎样通过跟人类基线的比较,来合理地评估ChatGPT等现代大型语言模型的语言运用能力。首先,用代词指称歧义和否定辖域问题测试ChatGPT,展示语言大模型在语义理解和常识推理方面的优秀表现;接着简介维诺格拉德模式挑战及其升级版本WinoGrande数据集,还介绍了我们对于这种类型的测试题和机器表现的评估方式的改进方案(把仅触发词不同的“句对”扩展为锚定词也不同的“句偶”,把机器表现跟人类被试的表现进行比较);然后介绍我们怎样用“句对”和“句偶”测试ChatGPT和人类被试,并且把人类和机器的表现进行对比,从而得出语言大模型的语言运用能力接近人类的结论。
展开更多
关键词
语义理解/常识推理
ChatGPT/大型语言模型
维诺格拉德模式/句对与句偶
机器
表现
/
人类
基线
下载PDF
职称材料
题名
语义理解与常识推理的机器表现和人类基线之比较——怎样评估ChatGPT等大型语言模型的语言运用能力?
1
作者
袁毓林
机构
澳门大学人文学院中国语言文学系
北京大学中文系、中国语言学研究中心
出处
《汉语学报》
CSSCI
北大核心
2024年第4期2-16,共15页
基金
澳门大学讲座教授研究与发展基金(编号:CPG2024-00005-FAH)
启动研究基金(编号:SRG2022-00011-FAH)的资助。
文摘
本文讨论怎样通过跟人类基线的比较,来合理地评估ChatGPT等现代大型语言模型的语言运用能力。首先,用代词指称歧义和否定辖域问题测试ChatGPT,展示语言大模型在语义理解和常识推理方面的优秀表现;接着简介维诺格拉德模式挑战及其升级版本WinoGrande数据集,还介绍了我们对于这种类型的测试题和机器表现的评估方式的改进方案(把仅触发词不同的“句对”扩展为锚定词也不同的“句偶”,把机器表现跟人类被试的表现进行比较);然后介绍我们怎样用“句对”和“句偶”测试ChatGPT和人类被试,并且把人类和机器的表现进行对比,从而得出语言大模型的语言运用能力接近人类的结论。
关键词
语义理解/常识推理
ChatGPT/大型语言模型
维诺格拉德模式/句对与句偶
机器
表现
/
人类
基线
Keywords
semantic understanding/commonsense reasoning
ChatGPT/large language models
Winograd Schema/sentence pairs and sentence couples
machine performance/human baseline
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
H08 [自动化与计算机技术—控制科学与工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
语义理解与常识推理的机器表现和人类基线之比较——怎样评估ChatGPT等大型语言模型的语言运用能力?
袁毓林
《汉语学报》
CSSCI
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部