期刊文献+

藏文停用词选取与自动处理方法研究 被引量:8

Research on Tibetan Stop Words Selection and Automatic Processing Method
下载PDF
导出
摘要 停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。 Stop words processing is a key preprocessing step in the text mining. In this paper, the selection method of stop words in Tibetan based on statistics is studied by combining with the existing techniques. Through experiments, TF, DF, and entropy calculation methods in the selection of Tibetan stop words are analyzed. An approach for the selection of Tibetan stop words is presented by the combination of Tibetan function words, special verb and automatic approach. The experimental results show that the proposed method can determine a reasonable Tibetan stop words list.
作者 珠杰 李天瑞
出处 《中文信息学报》 CSCD 北大核心 2015年第2期125-132,共8页 Journal of Chinese Information Processing
基金 国家自然基金(61262058 60763010) CCF中文信息技术开放基金项目(CCF2012-02-01) 藏文信息技术教育部"长江学者与创新团队发展计划"(IRT0975)
关键词 藏文停用词 词频统计 文档频数 Tibetan stop word TF DF entropy
  • 相关文献

参考文献7

二级参考文献45

  • 1顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量:35
  • 2唐振民,靳从,杨静宇,李远复.一种用于自动标引系统的主题词自动切分方法[J].南京理工大学学报,1995,19(5):401-404. 被引量:2
  • 3化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量:39
  • 4什么是停用词、静止词[EB/OL][2010-10-25]http://www.semshare.net/什么是停用词、静止词SEO中的StopWords/. 被引量:1
  • 5GongZheng, Guangaowa. The Selection of Mongolian Stop Words[C]//Proceedings 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems Volume 2. Xiamen, China.. IEEE Comput, 2010: 71-74. 被引量:1
  • 6白音宝力高.蒙古语同形侧词典[M].呼和浩特:内蒙古人民出版社,2001. 被引量:1
  • 7Kjersti Aas,et al. Text Classification: A Survey[ M]. 1999. 被引量:1
  • 8Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization[ J]. Information Retrieval, 1999,1 ( 1/2 ) :67-88. 被引量:1
  • 9Yiming Yang, Xin Liu. A Re-Examination of Text Categorization Methods[ C]. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) , 1999. 42-49. 被引量:1
  • 10Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420. 被引量:2

共引文献228

同被引文献58

引证文献8

二级引证文献37

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部