摘要
综合基于规则的分词方法与基于统计的分词方法在分词效果上的优势,提出一种基于最大匹配算法的似然导向中文分词方法。新方法在分词阶段,将训练数据的统计信息融入到基于规则的最大匹配分词算法中,并根据共现性自动识别后续词;在判定阶段,利用具有马尔可夫性的n-gram模型对分词阶段获得的多组分词模式进行判定,并基于最大似然原理确定最优的分词模式以提高分词准确率。实验结果表明,新方法有效提高了分词准确率和召回率,适用于中文文本信息挖掘。
A likelihood probability oriented Chinese word segmentation method based on maximum match algorithm is proposed in this paper,which combines the advantage of statistical methods and rule methods for Chinese word segmentation.In the word segmentation step,the statistical information is integrated into maximum match algorithm.Then the follow up words can be identified according to the cooccurrence to improve the efficiency of the word segmentation.In the decision step,in order to obtain the optimal word segmentation sequence,n-gram model with Markov property is used for likelihood probability oriented decision.Experimental results indicate that new approach generally obtains higher accuracy and has good adaption in the domain of Chinese information processing.
作者
杨贵军
徐雪
凤丽洲
徐玉慧
YANG Gui-jun;XU Xue;FENG Li-zhou;XU Yu-hui(School of Statistics,Tianjin University of Finance & Economics,Tianjin 300222,China;QingDao Branch,China United Network Communications Limited,Qingdao 266000,China)
出处
《统计与信息论坛》
CSSCI
北大核心
2019年第3期18-23,共6页
Journal of Statistics and Information
基金
国家社会科学基金青年项目<社交媒体中敏感信息可信度评估方法研究>(18CTJ008)
全国统计科学研究一般项目<基于多源数据融合的人民群众获得感和幸福感测度研究>(2018LY50)
全国统计科学研究重点项目<Web社会网络中敏感信息识别及突发事件预测研究>(2017LZ05)
关键词
中文分词
N-GRAM
最大匹配
似然导向
Chinese word segmentation
n-gram
maximum match
likelihood oriented