期刊文献+

基于覆盖算法的垃圾邮件过滤 被引量:3

Spam Filtering Based on Covering Algorithm
下载PDF
导出
摘要 电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用。将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较。给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果。另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程。根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险。 The correction rate and the risk rate of classification are important factors for evaluating an E-Mail system's performance,and spare filtering is a particular application of text categorization. This paper introduced covering algorithm (CA) of NN into spam filtering, and used several feature reduction methods to classify E-Mail. Comparing with SVM, the results of experiments indicated that it is an effective method to realize a spam filter using the combination of covering algorithm,appropriated feature selection and reduction methods. For the need of minimum risk of sparn filtering,we proposed an improvement of one process in the handling of rejection samples by employing cross cover algorithm according to the result of analysis. The results show that this method can reduce the risk by changing the area which is affected by normal mail.
出处 《计算机科学》 CSCD 北大核心 2009年第8期217-219,253,共4页 Computer Science
基金 国家自然科学基金(60675031) 973计划(2004CB318108 2007BC311003)资助
关键词 垃圾邮件过滤 覆盖算法 特征选择 特征降维 Spare filtering, Covering algorithm, Feature selection, Feature reduction
  • 相关文献

参考文献13

  • 1曹麒麟,张千里编著..垃圾邮件与反垃圾邮件技术[M].北京:人民邮电出版社,2003:162.
  • 2陈凯..反垃圾邮件技术的研究与实践[D].北京邮电大学,2006:
  • 3张铃,张钹.神经网络中BP算法的分析[J].模式识别与人工智能,1994,7(3):191-195. 被引量:58
  • 4张铃,张钹著..人工神经网络理论及应用[M].杭州:浙江科学技术出版社,1997:374.
  • 5张铃,张钹,殷海风.多层前向网络的交叉覆盖设计算法[J].软件学报,1999,10(7):737-742. 被引量:158
  • 6吴涛,张燕平,张铃.前向神经网络交叉覆盖算法的一种改进[J].微机发展,2003,13(3):50-52. 被引量:8
  • 7王倩倩,段震.基于神经网络的垃圾邮件过滤[J].合肥学院学报(自然科学版),2006,16(1):55-57. 被引量:1
  • 8Salton G, Wong A. On the specification of term value in automatic indexing [J]. Journal of Documentation, 1973,29 (4): 351- 372. 被引量:1
  • 9Yang Y,Pedersen J O. A comparative study on feature selection in text categorization[A]//Proceedings of the 14th International Conference on Machine Learning (ICML'97)[C]. San Francisco: Morgan Kaufmann Publishers, 1997 : 412-420. 被引量:1
  • 10Li Wenbin, Liu Chunnian, Chen Yiying. Design and Implement Cost2Sensitive Email Filtering Algorithms [A]//Proceedings of the Artificial Intelligence Applications and Innovations[C]. Beijing(CN), 2005 : 325-334. 被引量:1

二级参考文献28

  • 1叶振宇,刘晶.基于模糊模式识别的中文邮件过滤探讨[J].计算机时代,2004(11):38-40. 被引量:1
  • 2张铃,张钹,吴福朝.神经网络的规划学习算法[J].计算机学报,1994,17(9):669-675. 被引量:13
  • 3张铃.A Geometrical Representation of McCulloch-Pitts Neural Model andIts Applications[J].IEEE Trans,on Neural Networks,1999,10(4):925-929. 被引量:1
  • 4边肇祺 张学工.模式识别[M].北京:清华大学出版社,2001.. 被引量:29
  • 5张铃 张钹.人工神经网络理论及应用[M].杭州:浙江科学技术出版社,1996.. 被引量:5
  • 6Y. Yang , J. P. Pedersen. A comparative study on feature selection in text categorization. In: Proc. of the 14th ICML' 971997,412 ~ 420 被引量:1
  • 7Fabrizio Sebastian. Machine learning in automated text categorization. Journal of the ACM(JACM) ,2002,34(1) :1 ~ 47 被引量:1
  • 8边肇祺,张学工.模式识别(第二版).北京:清华大学出版社,2000 被引量:1
  • 9.[EB/OL].TREC官方网站http://trec.nist.gov,. 被引量:1
  • 10.北大中文网页自动分类竞赛规则.[S].李小明,2003.. 被引量:1

共引文献231

同被引文献26

引证文献3

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部