期刊文献+

汉语学习者文本多维标注语料库建设

The Construction of Chinese Multi-dimensional Learner Corpus:YACLC
下载PDF
导出
摘要 本研究以中介语多元对比分析的理论和方法为指引,以计算机智能辅助写作为导向,构建了一个大规模、高质量、篇章级别的汉语学习者文本多维标注语料库——YACLC。YACLC设计了一套多维度富信息标注体系,包括最小改动、流利度提升、句子可接受度、上下文依赖性四个维度,采用众包策略标注了2,421篇、32,124句语言使用场景下的汉语学习者文本,获取到331,292个最小改动标注句和137,708个流利提升标注句。YACLC的建设既解决了现有汉语学习者语料库语料来源封闭、标注结果单一和流利维度欠缺的问题,又为学界分析学习者语言与两个参照语变体三者之间的多元互动,揭示二语习得的规律提供了参考及扩展空间。 Guided by the theory and the methods of Contrastive Interlanguage Analysis and intelligent computer-assisted writing,this paper constructs a large-scale,high-quality,document-level,multi-dimensional annotated Chinese learner corpus,Yet Another Chinese Learner Corpus(YACLC).YACLC designs a multi-dimensional informative annotation guideline,including minimal edit,fluency edit,sentence acceptability,and context dependence.Then YACLC annotates 2,421 Chinese learner texts of language usage scenarios with 32,124 sentences using a crowdsourcing strategy,to obtain 331,292minimal edit annotations and 137,708 fluency edit annotations.The construction of YACLC not only solves the problems of closed data resources,single annotation and lacking of fluency dimension of the Chinese learner corpus,but also supports and extends the comparative analysis between the learner language and the two reference language variants to reveal the laws of second language acquisition.
作者 王莹莹 孔存良 杨麟儿 胡韧奋 杨尔弘 孙茂松 WANG Yingying;KONG Cunliang;YANG Liner;HU Renfen;YANG Erhong;SUN Maosong
出处 《语言文字应用》 CSSCI 北大核心 2023年第1期88-100,共13页 Applied Linguistics
基金 国家语委科研中心重点项目“智能辅助汉语应用文写作研究”(ZDI135-131) 教育部中外语言交流合作中心2021年度项目“汉语学习者偏误多维度标注语料库建设”(YHJC21YB-129) 北京语言大学语言资源高精尖创新中心项目“智能辅助汉语写作研究”(TYZ19005) 国家语言资源监测与研究平面媒体中心研究经费资助。
关键词 学习者语料库 流利度 众包 语法自动纠错 learner corpus fluency crowdsourcing grammatical error correction contrastive interlanguage analysis
  • 相关文献

参考文献10

二级参考文献74

共引文献374

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部