期刊文献+

不可靠语料库的提纯及词权度量指标IDF的改进 被引量:1

The purification of unreliable corpus and the improvement of word weight index IDF
下载PDF
导出
摘要 不良短信的泛滥严重影响了社会风气,干扰了人们正常的生活秩序,研发不良短信过滤技术具有相当高的实用价值。研究了文本分类中的两个问题,可应用于不良短信过滤。其一是应用聚类方法进行不可靠语料集的提纯,实验表明,该方法对不可靠数据的提纯效果比较明显;其二是关于IDF词权度量指标的一点改进。 The spread of bad message seriously affects the social ethos and disrupt the normal life order of people. It has considerable practical value to research and develop the filtering technology of bad short message. Two problems in text classification are studied in this paper, which can be used in the bad short message fiheriug. The first is the application of clustering method to purify unreliable corpus. Experiment shows that the method is quite obvious on purification effect of unreliable data; The second is about a little improvement of word weight index IDF.
作者 徐山 杜卫锋
出处 《微型机与应用》 2013年第4期61-63,66,共4页 Microcomputer & Its Applications
基金 国家自然科学基金(61070213)
关键词 短信过滤 不可靠语料库 向量空间模型 IDF 聚类 message filtration unreliable corpus vector space model IDF clustering
  • 相关文献

参考文献4

二级参考文献9

  • 1梁久祯,兰东俊.基于先验知识的网页特征压缩与线性分类器设计[C].第十二届全国神经计算学术大会讨论文集.北京:人民邮电出版社,2002:494-501. 被引量:1
  • 2Rudolph G.Convergence Properties of Canonical Genetic Algorithms[J].IEEE Trans.on Neural Networks,1994,5(1):96-101. 被引量:1
  • 3Yiming Y.An Evaluation of Statistic Approaches to Text Categorization[J].Information Retrieval,1999,1(1/2):69-90. 被引量:1
  • 4Salton G,Wong A,Yang C.A Vector Space Model for Automatic Indexing[J].Communications of ACM,1975,18(11):613-620. 被引量:1
  • 5Mnic D,Grobelnik M.Feature Selection for Unbalanced Class Distribution and Naive Bayees[C].Proceedings of the 6^th International Conference on Machine Learning.Blrf:Morgan Kaufmann,1999:258-267. 被引量:1
  • 6Rocchio J.Relevance Feedback in Information Retrieval[C].Proc.of SMART Retrieval System:Experiments in Automatic Doc.,NJ,USA:Prentice-hall,1971:313-323. 被引量:1
  • 7邹涛,王继成,朱华宇,金翔宇,张福炎.WWW上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024. 被引量:120
  • 8范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量:53
  • 9刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量:48

共引文献120

同被引文献11

引证文献1

二级引证文献22

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部