期刊文献+

基于最大匹配算法的似然导向中文分词方法 被引量:17

Likelihood Oriented Method for Chinese Word Segmentation based on Maximum Match Algorithm
下载PDF
导出
摘要 综合基于规则的分词方法与基于统计的分词方法在分词效果上的优势,提出一种基于最大匹配算法的似然导向中文分词方法。新方法在分词阶段,将训练数据的统计信息融入到基于规则的最大匹配分词算法中,并根据共现性自动识别后续词;在判定阶段,利用具有马尔可夫性的n-gram模型对分词阶段获得的多组分词模式进行判定,并基于最大似然原理确定最优的分词模式以提高分词准确率。实验结果表明,新方法有效提高了分词准确率和召回率,适用于中文文本信息挖掘。 A likelihood probability oriented Chinese word segmentation method based on maximum match algorithm is proposed in this paper,which combines the advantage of statistical methods and rule methods for Chinese word segmentation.In the word segmentation step,the statistical information is integrated into maximum match algorithm.Then the follow up words can be identified according to the cooccurrence to improve the efficiency of the word segmentation.In the decision step,in order to obtain the optimal word segmentation sequence,n-gram model with Markov property is used for likelihood probability oriented decision.Experimental results indicate that new approach generally obtains higher accuracy and has good adaption in the domain of Chinese information processing.
作者 杨贵军 徐雪 凤丽洲 徐玉慧 YANG Gui-jun;XU Xue;FENG Li-zhou;XU Yu-hui(School of Statistics,Tianjin University of Finance & Economics,Tianjin 300222,China;QingDao Branch,China United Network Communications Limited,Qingdao 266000,China)
出处 《统计与信息论坛》 CSSCI 北大核心 2019年第3期18-23,共6页 Journal of Statistics and Information
基金 国家社会科学基金青年项目<社交媒体中敏感信息可信度评估方法研究>(18CTJ008) 全国统计科学研究一般项目<基于多源数据融合的人民群众获得感和幸福感测度研究>(2018LY50) 全国统计科学研究重点项目<Web社会网络中敏感信息识别及突发事件预测研究>(2017LZ05)
关键词 中文分词 N-GRAM 最大匹配 似然导向 Chinese word segmentation n-gram maximum match likelihood oriented
  • 相关文献

参考文献12

二级参考文献109

共引文献410

同被引文献221

引证文献17

二级引证文献38

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部