期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
语义理解与常识推理的机器表现和人类基线之比较——怎样评估ChatGPT等大型语言模型的语言运用能力?
1
作者 袁毓林 《汉语学报》 CSSCI 北大核心 2024年第4期2-16,共15页
本文讨论怎样通过跟人类基线的比较,来合理地评估ChatGPT等现代大型语言模型的语言运用能力。首先,用代词指称歧义和否定辖域问题测试ChatGPT,展示语言大模型在语义理解和常识推理方面的优秀表现;接着简介维诺格拉德模式挑战及其升级版... 本文讨论怎样通过跟人类基线的比较,来合理地评估ChatGPT等现代大型语言模型的语言运用能力。首先,用代词指称歧义和否定辖域问题测试ChatGPT,展示语言大模型在语义理解和常识推理方面的优秀表现;接着简介维诺格拉德模式挑战及其升级版本WinoGrande数据集,还介绍了我们对于这种类型的测试题和机器表现的评估方式的改进方案(把仅触发词不同的“句对”扩展为锚定词也不同的“句偶”,把机器表现跟人类被试的表现进行比较);然后介绍我们怎样用“句对”和“句偶”测试ChatGPT和人类被试,并且把人类和机器的表现进行对比,从而得出语言大模型的语言运用能力接近人类的结论。 展开更多
关键词 语义理解/常识推理 ChatGPT/大型语言模型 维诺格拉德模式/句对与句偶 机器表现/人类基线
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部