期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于论坛语料识别中文未登录词的方法 被引量:10
1
作者 都菁 熊海灵 《计算机工程与设计》 CSCD 北大核心 2010年第3期630-633,共4页
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Inform... 为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中。实验结果表明,该方法可以有效提高未登录词的识别效率。 展开更多
关键词 未登录词 中文分词 网络蜘蛛 论坛语料
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部