摘要
目前效果最好的中文分词方法是基于字标注的机器学习方法。作为中文分词领域使用最广泛并且效果最好的机器学习模型,条件随机场(CRF)模型进行机器学习的代价很高,非常耗费时间和内存。通过对条件随机场机器学习模型的改进,增加模型导出功能和使其支持预定义Tag,降低了机器学习的代价。使用MSRA 2005开放测试语料库和6词位标注集,以及赵海博士提出的针对6词位的特征模板做实验,实验数据表明,改进后的模型缩短了机器学习的训练时间,提高了分词的速度,对F值也有小幅提高。
The best method of Chinese word segmentation(CWS)is character-based tagging.As the most popular and best model used for CWS,conditional random fields(CRF)costs much,including time and memory.Through some optimization,including adding functions of model exportation and tag pre-definition,the cost can be reduced.We use MSRA 2005 open test corpus,6 tag set and characteristic template to do experiment,It is proved that these optimizations can shorten training time,speed up CWS,and get a slightly higher F score.
出处
《微计算机信息》
2010年第12期169-170,147,共3页
Control & Automation
关键词
条件随机场
中文分词
字标注
CRF
Chinese word segmentation
character-based tagging