期刊文献+

一种优化的用于中文分词的CRF机器学习模型 被引量:1

An optimized CRF model used for Chinese word segmentation
下载PDF
导出
摘要 目前效果最好的中文分词方法是基于字标注的机器学习方法。作为中文分词领域使用最广泛并且效果最好的机器学习模型,条件随机场(CRF)模型进行机器学习的代价很高,非常耗费时间和内存。通过对条件随机场机器学习模型的改进,增加模型导出功能和使其支持预定义Tag,降低了机器学习的代价。使用MSRA 2005开放测试语料库和6词位标注集,以及赵海博士提出的针对6词位的特征模板做实验,实验数据表明,改进后的模型缩短了机器学习的训练时间,提高了分词的速度,对F值也有小幅提高。 The best method of Chinese word segmentation(CWS)is character-based tagging.As the most popular and best model used for CWS,conditional random fields(CRF)costs much,including time and memory.Through some optimization,including adding functions of model exportation and tag pre-definition,the cost can be reduced.We use MSRA 2005 open test corpus,6 tag set and characteristic template to do experiment,It is proved that these optimizations can shorten training time,speed up CWS,and get a slightly higher F score.
出处 《微计算机信息》 2010年第12期169-170,147,共3页 Control & Automation
关键词 条件随机场 中文分词 字标注 CRF Chinese word segmentation character-based tagging
  • 相关文献

参考文献11

  • 1马志强,周长胜,丁维,杨娜.自扩充中文分词词典的研究与实现[J].计算机与数字工程,2007,35(6):143-146. 被引量:3
  • 2朱小娟,陈特放.基于SVM的词频统计中文分词研究[J].微计算机信息,2007,23(30):205-207. 被引量:10
  • 3Richard Sproat and Thomas Emerson.The First International Chinese Word Segmentation Bakeoff.In:Proceedings of the Second SIGHAN Workshop on Chinese Language Processing [C].Japan:July 11-12,2003,133-143. 被引量:1
  • 4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量:101
  • 5杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量:16
  • 6John Lafferty,Andrew McCallum,Fernando Pereira.Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]//Microtome Publishing.In Proceedings of the Eighteenth International Conference on Machine Learning (ICML- 2001).USA:June 28-July 1,Massachusetts :Microtome Publishing.,2001,282-289. 被引量:1
  • 7Hanna M,Wallach. Conditional Random Fields: An Introduction [R]. University of Pennsylvania CIS Technical Report MS-CIS-04- 21, 2004. 被引量:1
  • 8Ruiqiang Zhang,Genichiro Kikui,Eiichiro Sumita. Subword- based Tagging for Confidence-dependent Chinese Word Segmentation[C]//2006 Association for Computational Linguistics. Proceeding of the COLING/ACL 2006 Main Conference Poster Sessions:961- 968, Sydney, 2006. 被引量:1
  • 9Nianwen Xue.Chinese Word Segmentation as Character Tagging [J].Computational Linguistics and Chinese Language Processing, 2003,Vol. 8(1): 29-48. 被引量:1
  • 10黄昌宁,赵海.由字构词一中文分词新方法[EB/OL].[出版地不详],[出版社不详],2006-12,[2009-03-27].http://www.cipsc.org.cn/upload/huangchangning2006.pdf. 被引量:1

二级参考文献81

共引文献145

同被引文献27

引证文献1

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部