期刊文献+

双语平行语料的预处理 被引量:1

Pre-processing of Bilingual Parallel Texts
原文传递
导出
摘要 本文分析和讨论了双语平行语料库建设中的纯文本化、分词处理和文本对齐三个步骤,并认为它们是双语平行语料的预处理过程。探讨了各个步骤之间的关系以及各个步骤目前发展现状和存在的问题,对我国现已建成的汉英双语语料库也作了剖析说明。 The paper focuses on the three procedures of text-formatting,word segmentation and sentence alignment in the building of bilingual parallel corpus,and regards these three procedures as the pro-procession of bilingual parallel corpora. It explores the relationship between the procedures and points out their present status and difficulties respectively in the NLP project. It also introduces the exited bilingual parallel corpus in our country.
出处 《外语教育》 2007年第1期145-149,共5页 Foreign Language Education
关键词 平行语料 预处理 纯文本化 分词处理 文本对齐 parallel corpora pre-processing text-formatting word segmentation sentence alignment
  • 相关文献

参考文献3

  • 1陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报(社会科学版),2004(6):109-113. 被引量:7
  • 2(美)Christopher,D.Manning,(德)Hinrich,Schutze著,苑春法等译..统计自然语言处理基础[M].北京:电子工业出版社,2005:416.
  • 3俞士汶主编..计算语言学概论[M].北京:商务印书馆,2003:357.

二级参考文献3

共引文献6

同被引文献6

引证文献1

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部