中文垃圾邮件过滤系统中的特征提取算法被引量：1

Feature Selection Method in Chinese Spam Filtering

下载PDF

导出

摘要针对垃圾邮件过滤,首先对获取的垃圾邮件及合法邮件进行分词,预处理,构建文本矢量,然后用四种常用的特征词提取方法进行矢量降维,再在此基础上,给出了一种综合性的特征词提取算法,即按照各个评估函数的排序结果,取它们交集的前n个特征词作为候选词进行分类测试,仿真比较了各个算法中n对分类结果的影响,从而验证了该算法的有效性。 The paper, aimmed at spam filter, at first separationing, preproccessing and building text vector for the obtained spam mails and legitimate mails, then proccessing vector dimensional reduction using four common key extraction methods, and based on this, presents a comprehensive key extraction algorithm, which takes front n key words of their intersection as a candidate word for classification test according to sort results of each assessment function. Finally, Simulation verifies the effection of ＂n＂ on the classification in the algorithm, thus verifying the effectiveness of the proposed algorithm.

作者白飞云王新房

机构地区西安理工大学自动化与信息工程学院

出处《计算机系统应用》 2012年第3期106-110,共5页 Computer Systems & Applications

关键词垃圾邮件过滤邮件预处理特征提取 Rocchio方法评价指标 spam filtering preprocessing mail feature selection method rocchio evaluation indicator

分类号 TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1曹麒麟,张千里编著..垃圾邮件与反垃圾邮件技术[M].北京:人民邮电出版社,2003:162.
2侯汉清.文本自动标引与自动分类研究.南京:东南大学出版社,2009.57-64. 被引量：1
3谷波刘开瑛.中文文本分类中一种简单高效的特征词选择方法[J].计算机研究与发展,2005,42:359-360. 被引量：1
4戴文华著..基于遗传算法的文本分类及聚类研究[M].北京:科学出版社,2008:222.
5王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
6李晓飞.垃圾邮件过滤算法研究及系统实现.南京:南京理工大学,2008. 被引量：1

二级参考文献32

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2M. DeSouza, J. Fitzgerald, C. Kempand G. Truong, A Decision Tree based Spam Filtering Agent[EB] . from http:∥www. cs. mu. oz. au/481/2001- projects/gntr/index. html, 2001. 被引量：1
3N. Littlestone, Learning quickly when irrelevant attributes abound: A new linear-threshold algorithm[J]. Machine Learning, 2(4) :285- 318, 1988[J]. 被引量：1
4R. Krishnamurthy and C. Orasan, A corpus-based investigation of junk emails[A]. In: Proceedings of Language Resources and Evaluation Conference (LREC 2002)[C]. Las Palmas de Gran Canaria, Spain, pp. 1773- 1780,May 2002. 被引量：1
5M. Sahami, S. Dumais, D. Heckerman and E. Horvitz, A Bayesian approach to filtering junk e-mail[A]. In:Proc. of AAAI Workshop on Learning for Text Categorization[C]. pp. 55-62, 1998. 被引量：1
6W. Cohen, Fast effective rule induction[A]. In: Machine Learning Proceedings of the Twelfth International Conference[C]. Lake Taho, California, Mongan Kanfmann, pp. 115-123, 1995. 被引量：1
7W. Cohen, Learning rules that classify email[A]. In: Proceedings of the AAAI spring symposium of Machine Learning in Information Access, Palo Alto[C]. California, pp. 18 - 25. 1996. 被引量：1
8X. Carreras and L. Marquez, Boosting Trees for Anti-Spam Email Filtering[A]. In: Proceedings of Euro Conference Recent Advances in NLP (RANLP-2001)[C]. pp. 58-64, Sep. 2001. 被引量：1
9T. Nicholas, Using AdaBoost and Decision Stumps to Identify Spam E-mail[ EB]. Stanford University Course Project (Spring 2002/2003) Report, from http: ∥nlp. stanford. edu/courses/cs224n/2003/fp/. 被引量：1
10Y. Diao, H. LuandD. Wu, A Comparative Study of Classification Based PersonalE-mail Filtering[A]. In: Proceedings of PAKDD-2000[C], pp.408-419, Apr. 2000. 被引量：1

共引文献128

1张登科,易秀双,王兴伟.一种基于相似度测量的新垃圾邮件发现机制[J].中国海洋大学学报（自然科学版）,2008,38(S1):147-150. 被引量：1
2刘洋,曹津宁,刘昊,秦玉平.基于贝叶斯方法的垃圾邮件处理模型研究[J].长春工程学院学报（自然科学版）,2007,8(3):75-76.
3张平.追求[J].就业与保障,2005(11):1-1.
4王金宝.基于增量学习和阈值优化的自适应信息过滤研究[J].计算机应用,2006,26(5):1099-1101.
5庄锁法,陈兴梅.客户端防范垃圾邮件策略的探讨[J].电脑知识与技术,2006(8):172-172.
6张洪军,段会川.基于支持向量机的电子邮件分类模型设计[J].信息技术与信息化,2006(5):89-90. 被引量：1
7徐卫.一种垃圾邮件过滤网关的设计[J].电脑知识与技术,2006(12):64-65.
8黄鹏鹤.垃圾邮件内容过滤测试平台的设计与实现[J].仪器仪表用户,2007,14(1):93-94.
9陈超,陈盛雄.一种基于SMO算法的垃圾邮件过滤系统设计[J].福建电脑,2007,23(3):131-132. 被引量：1
10张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(4):75-78. 被引量：14

同被引文献10

1龚伟.基于Bayes的一种改良垃圾邮件过滤模型[J].微计算机信息,2007,23(3):104-106. 被引量：2
2王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
3闫鹏,郑雪峰,李明祥,陈松华.关于贝叶斯推理的垃圾邮件特征选择评估函数[J].计算机工程与应用,2008,44(33):105-107. 被引量：5
4惠孛,吴跃.基于全局的即时垃圾邮件过滤模型的研究[J].电子测量与仪器学报,2009,23(5):46-51. 被引量：6
5奚建荣.基于综合过滤技术的邮件过滤终端研究[J].计算机应用与软件,2011,28(6):186-188. 被引量：3
6桑寅,孟少卿,鹿凯宁.基于DPI和机器学习方法传输层检测的P2P流量识别模型[J].电子测量技术,2011,34(10):45-48. 被引量：9
7王中锋,王志海,解文杰.基于树型贝叶斯网络的场景分类引擎训练算法[J].仪器仪表学报,2012,33(4):863-869. 被引量：4
8宋冬冬,马玉泉,林红举.基于GA-SVM的多总线自动化测试系统故障诊断优化研究[J].电子测量与仪器学报,2013,27(2):162-166. 被引量：13
9贾海艳,苏滢滢.异常情况下基于贝叶斯的多传感器融合方法[J].电子测量技术,2013,36(8):104-107. 被引量：9
10孙小进,郭恩全,陈晓明.基于AI-ESTATE贝叶斯诊断的软件架构设计[J].国外电子测量技术,2013,32(11):23-27. 被引量：4

引证文献1

1陆晓玮,陈健.基于深度包检测技术的邮件过滤研究[J].电子测量技术,2014,37(4):25-28. 被引量：3

二级引证文献3

1钱伟强.基于海量存储云调度机制的云网络数据存储算法[J].国外电子测量技术,2017,36(3):27-30. 被引量：7
2孙科.基于计算机图形用户界面的导弹总体设计方法[J].国外电子测量技术,2017,36(9):95-98.
3孙科,王茜.基于自动化软件的采集参数创建方法研究[J].国外电子测量技术,2018,37(2):71-74.

1曾砺锋.基于Rocchio方法和k均值聚类的支持向量机文本分类方法[J].软件导刊,2008,7(6):37-39. 被引量：4
2莱鸟.邮件早知道[J].电脑时空,2002(11):107-107.
3李六杏,区凤霞.基于最优属性约简的中文邮件过滤系统[J].电脑知识与技术,2007(3):1240-1241.
4刘慧,马军,雷景生,宋玲.基于词频的权值计算在邮件过滤算法中的应用[J].计算机工程,2006,32(17):60-62.
5张义,孔颖,朱翔.基于神经网络模型的垃圾邮件过滤器的设计与实现[J].电脑知识与技术,2010,6(4X):2909-2911.
6马玉春,宋瀚涛.基于基因算法的信息免疫模型[J].北京理工大学学报,2004,24(12):1084-1087. 被引量：2
7向学哲.改进的支撑向量机(SVM)算法在邮件过滤中的应用[J].华中师范大学学报（自然科学版）,2007,41(1):31-34.
8汪晓刚,蒋健安,孙志挥.一种面向专利信息的文本自动分类算法[J].科技创新导报,2009,6(15):25-26. 被引量：2
9刘慧,马军,雷景生,连莉.基于特征域词频的邮件过滤方法的研究[J].山东大学学报（理学版）,2006,41(3):134-138. 被引量：1
10孔颖.基于HTML卡方算法的垃圾邮件过滤器设计[J].浙江科技学院学报,2010,22(6):525-529.

计算机系统应用

2012年第3期

浏览历史

内容加载中请稍等...

中文垃圾邮件过滤系统中的特征提取算法被引量：1

参考文献6

二级参考文献32

共引文献128

同被引文献10

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

中文垃圾邮件过滤系统中的特征提取算法 被引量：1

参考文献6

二级参考文献32

共引文献128

同被引文献10

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

中文垃圾邮件过滤系统中的特征提取算法被引量：1