期刊文献+

基于Web文本挖掘中的一种中文分词算法研究 被引量:2

Research on a Chinese Word Segment Algorithm based on Web Text Mining
下载PDF
导出
摘要 基于Web文本挖掘问题,提出了一种改进的索引结构的词库组织体系及基于该词典结构的中文分词算法。同时,加强消除歧义方面的处理,分词精度有所提高。试验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。 In the paper, we will give a improving method of organizing Chinese word library and the segment algorithm based on Web text mining. Also, we strengthen the processing of dispelling ambiguity in order to increase the segment precision. A large number of simulation experiments show that this method can greatly improve the speed of Chinese word segmentation, the recall ratio and precision of information.
作者 谢红薇 王栋
机构地区 太原理工大学
出处 《电脑开发与应用》 2007年第7期6-8,共3页 Computer Development & Applications
基金 国家自然科学基金资助项目(No.60472093)
关键词 中文信息处理 分词算法 字典索引 匹配 Chinese information processing, segment algorithm, dictionary index ,matching
  • 相关文献

参考文献5

二级参考文献22

  • 1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量:45
  • 2吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量:49
  • 3张国煊.快速书面自动分词系统及其算法设计[J].计算机研究与发展,1993,1. 被引量:3
  • 4夏征农.辞海缩印本[M].上海辞书出版社,1989.. 被引量:1
  • 5刘源.信息处理用现代汉词分词规范及自动分词方法[M].清华大学出版社,1992.. 被引量:1
  • 6马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996.. 被引量:4
  • 7Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491. 被引量:1
  • 8Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56. 被引量:1
  • 9MitchellTM著 曾华军 张银奎译.机器学习[M].北京:机械工业出版社,2003.. 被引量:46
  • 10梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52. 被引量:45

共引文献215

同被引文献13

引证文献2

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部