-
题名大语言模型的中文文本简化能力研究
- 1
-
-
作者
杨尔弘
朱君辉
朱浩楠
宗绪泉
杨麟儿
-
机构
北京语言大学国家语言资源监测与研究平面媒体中心/信息科学学院
-
出处
《语言战略研究》
北大核心
2024年第5期34-47,共14页
-
基金
国家语委重大科研项目“大语言模型的评测技术和方法研究”(ZDA145-17)。
-
文摘
大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词表和少样本+规则这4种提示策略,综合已有的和本研究特有的语言特征评估指标,测评了6种国内外常用大语言模型在不同提示策略下的中文文本简化能力。研究发现,少样本提示策略在文本特征上表现最佳,显著提高了信息保存度;在提示中加入外部词表,有助于大语言模型使用相对简单的词语;在提示中融入简化规则,能使大语言模型使用更简洁的句法结构。不同的大语言模型在难度控制和语义保留程度上各有优势与局限,但在语篇衔接与连贯和段落划分上与人类专家存在明显差距,且均出现了不同程度的幻觉现象。未来仍需构建较大规模的高质量中文简化数据集,多角度诱导语言大模型的文本简化能力。
-
关键词
中文文本简化
大语言模型
语言特征分析
-
Keywords
automatic text simplifi cation
large language models(LLMs)
linguistic profi ling
-
分类号
H002
[语言文字—语言学]
-