-
题名基于词汇迁移的跨语言形态复用
- 1
-
-
作者
刘伍颖
王琳
-
机构
鲁东大学山东省语言资源开发与应用重点实验室
广东外语外贸大学外国语言学及应用语言学研究中心
上海外国语大学贤达经济人文学院
-
出处
《中文信息学报》
CSCD
北大核心
2023年第8期18-24,共7页
-
基金
教育部新文科研究与改革实践项目(2021060049)
山东省研究生教育教学改革研究项目(SDYJG21185)
+4 种基金
山东省本科教学改革研究重点项目(Z2021323)
教育部人文社会科学研究青年基金项目(20YJC740062)
上海市哲学社会科学“十三五”规划课题(2019BYY028)
教育部人文社会科学研究规划基金项目(20YJAZH069)
广州市科技计划项目(202201010061)。
-
文摘
良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语义转述应用任务中的有效性。在语言资源建设实验中,该文从马来语语料库提取印尼语多词表示,并从印尼语语料库提取马来语多词表示。在语义转述应用实验中,该文通过马来语资源增强的印尼语-汉语平行句库训练出印尼语-汉语神经机器翻译模型,并通过印尼语资源增强的马来语-汉语平行句库训练出马来语-汉语神经机器翻译模型。实验结果证明,由于同语族的形态同源性和相似性,同语族跨语言形态复用具有很强的可迁移性和可计算性。
-
关键词
形态复用
形态迁移率
低资源语言
多词表示提取
神经机器翻译
-
Keywords
morphological reuse
morphological transfer ratio
low-resource language
multiword expression extraction
neural machine translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-