结合特征和非特征信息改进Nave Bayes及其应用被引量：2

Improved Nave Bayes combining feature with noncharacteristic information and its application

下载PDF

导出

摘要朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。 Nave Bayes algorithm was widely used in the content-based filtering,but traditional Nave Bayes faced many problems,such as the uncertainty of classifying e-mails by analyzing e-mail content,the incompleteness of e-mail representation.In order to overcome these shortcomings,this paper analyzed different attributes between ham e-mail header and spam e-mail header,extracted noncharacteristic information,and improved Nave Bayes algorithm which combined feature information with noncharacteristic information.Experimental results show that the improved Nave Bayes classification approach increases the recall and the precision of spam,covers e-mail information,and makes up for the shortage of content-based filtering,compared with that of only using feature information.

作者赵静刘培玉陈孝礼

机构地区山东师范大学信息科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2011年第2期514-516,共3页 Application Research of Computers

基金国家自然科学基金资助项目(60873247) 山东省高新自主创新专项工程(2008ZZ28) 山东省自然科学基金重点资助项目(ZR2009GZ007)

关键词邮件过滤非特征信息特征信息朴素贝叶斯算法 e-mail filtering noncharacteristic information feature information Nave Bayes algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1中国互联网协会反垃圾邮件中心.2009年第四季度中国反垃圾邮件状况调查报告[EB/OL].(2010-04-23)[2010-05-27].http://www.12321.cn/viewnews.php?id=12679. 被引量：1
2SALTON G, LESK M E. Computer evaluation of indexing and text processing[J].Journal of the ACM,1968,15(1):8-36. 被引量：1
3LANGLEY P, LBA W, THOMPSON K. An analysis of Bayesian classifiers[C]//Proc of the 10th National Conference on Artificial Intelligence. Menlo Park: AAAI Press and MIT Press, 1992: 223-228. 被引量：1
4齐浩亮,程晓龙,杨沐昀,何晓宁,李生,雷国华.高性能中文垃圾邮件过滤器[J].中文信息学报,2010,24(2):76-83. 被引量：7
5王军,史科,王辉.垃圾邮件过滤中特征选择方法研究[J].合肥工业大学学报（自然科学版）,2009,32(12):1863-1866. 被引量：2
6梁刚,刘晓洁,李涛,蒋亚平,杨进,龚勋.NSC:一种新型的垃圾邮件过滤器[J].小型微型计算机系统,2008,29(1):158-161. 被引量：5
7李洋,赵骅.基于信息熵和决策分类技术的邮件识别研究[J].计算机科学,2008,35(2):87-89. 被引量：1
8刘洋,杜孝平,周二胜,等. 垃圾邮件的智能分析、过滤及Rough 集讨论[C]//第十二届中国计算机学会网络与数据通信学术会议论文集.2002: 515-521. 被引量：1
9胡英飞..基于行为识别的垃圾邮件过滤研究[D].北京邮电大学,2009:
10赵利,廖闻剑,彭艳兵. 基于中文主题的垃圾邮件过滤方法研究[C]//中国通信学会第六届学术年会论文集(上).2009:16-19. 被引量：1

二级参考文献43

1王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
2LI Tao.An immune based dynamic intrusion detection model[J].Chinese Science Bulletin,2005,50(22):2650-2657. 被引量：17
3Nicholas T. Using AdaBoost and decision stumps to identify spam e-mailER/OLd. Stanford University Course Project (Spring 2002/2003) Report, 2003. http://nlp, stanford. edu/courses/es224n/2003/fp/. 2003-06-07. 被引量：1
4Drucker H,Vapnik V N. Support vector machines for spam categorization [ J ]. IEEE Transactions on Neural Networks, 1999, 20(5) :1048--1054. 被引量：1
5Carreras X,Marquez L. Boosting trees for anti spam email filtering[C]//Proeeedings of Euro Conference Recent Advances in NLP (RANLP-2001), 2001: 58-64. 被引量：1
6Sahami M, Dumais S, Heckerman D, et al. A Bayesian approach to filtering junk e-mail[C]//Proc of AAAI Workshop on Learning for Text Categorization, 1998:55--62. 被引量：1
7Androutsopoulos I, Paliouras G,Karkaletsis V, et al. Learning to filter spare e-mail: a comparison of a naive Bayesian and a memory-based approach [C]//Proc 4th European Conference on Principles and Practice of Knowledge Diseov cry in Databases (PKDD 2000),2000:1-13. 被引量：1
8Salton G. On the specification of term values in automatic indexing [ J ]. Journal of Documentation, 1973, 29 ( 4 ) : 351--372. 被引量：1
9Yang Y. A comparative study on feature selection in text categofization[C]//Proceeding of the Fourteenth International Conference on Machine Learning ( ICMI. ' 97 ), 1997 : 412--420. 被引量：1
10Peat H J, Willet P. The limitations of term data for query expansion in document retrieval systems[J]. Journal of the American Society for Information Science, 1991,42(5) :378--383. 被引量：1

共引文献11

1郑晓霞,刘超,邹钰.基于逻辑回归模型的中文垃圾短信过滤[J].黑龙江工程学院学报,2010,24(4):36-39. 被引量：2
2邓蔚,秦志光,刘峤,程红蓉.抗好词攻击的中文垃圾邮件过滤模型[J].电子测量与仪器学报,2010,24(12):1146-1152. 被引量：5
3陈葡,谢晓尧,徐洋.基于词序列核的垃圾邮件过滤[J].武汉大学学报（理学版）,2011,57(5):419-423. 被引量：1
4丁华福,王莹莹,韩咏,闵莉,邹钰.面向垃圾邮件过滤的典型机器学习算法比较研究[J].黑龙江工程学院学报,2012,26(2):65-69.
5张爱文,陆上,安波.基于ARM平台的增量学习式垃圾短信判别分检系统[J].计算机应用与软件,2012,29(12):133-136.
6邹钰.基于逻辑回归模型的垃圾短信过滤系统的研究[J].数字技术与应用,2013,31(2):77-77. 被引量：2
7蒋亚平,田月霞,梅骁,卢林.基于疫苗机制的垃圾邮件过滤模型[J].安徽大学学报（自然科学版）,2015,39(2):24-31.
8蒋亚平,梅骁.基于免疫多Agent的垃圾邮件过滤模型研究[J].现代计算机,2016,22(7):17-20.
9蒋亚平,梅骁.基于支持向量机与人工免疫系统的垃圾邮件过滤模型[J].现代计算机（中旬刊）,2016(4):55-57. 被引量：1
10彭成,展万里,周晓红.基于随机森林的异常邮件检测方法研究与实现[J].湖南工业大学学报,2020,34(1):70-76. 被引量：3

同被引文献14

1王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
2张亚萍,张震.基于贝叶斯分类算法的参赛情况预测系统[J].淮北煤炭师范学院学报（自然科学版）,2007,28(1):58-60. 被引量：1
3谢斌.朴素贝叶斯分类在数据挖掘中的应用[J].甘肃联合大学学报（自然科学版）,2007,21(4):79-82. 被引量：12
4中国教育和科研计算机网紧急响应组.CCERT中文邮件数据集CSDCE[DB/OL].2010-05-15.http://www.ccert.edu.cn/spam/sa/datasets.htm#4. 被引量：3
5刘进峰.动态关联规则的理论与应用研究[D].浙江:浙江大学,2006. 被引量：2
6Gou K X,Jun G X,Zhao Z. Learning Bayesian network structure from distributed homogenous data [C]//SPND. Chicago: IEEE Computer Soeiety, 2007: 250-254. 被引量：1
7Yang Yiming, Pederson J O. A Comparative Study on Feature Selection in Text Categorization [ A]. Proceedings of the 14th International Conference on Machina learning [ C ]. Nashville : Morgan Kaufmann, 1997: 412 - 418. 被引量：1
8Mehmet Aci, Cigdem Inan, Mutlu Avci A hybrid class ification method of k nearest neighbor , Bayesian methods and genetic algorithm [ J ]. Expert Systems With Applications, 2010, 37 (7) : 5061 - 5067. 被引量：1
9董立岩,李真,阎鹏飞.基于贝叶斯分类器的重大危险源辨识[J].吉林大学学报（理学版）,2009,47(4):800-804. 被引量：4
10卢扬竹,张新有,祁玉.邮件过滤中特征选择算法的研究及改进[J].计算机应用,2009,29(10):2812-2815. 被引量：8

引证文献2

1汪明,张征.SQL Server 2008 R2贝叶斯算法研究[J].河北软件职业技术学院学报,2011,13(3):58-61.
2赵俊生,苏依拉.多特征结合的中文垃圾邮件过滤特征选择方法研究[J].内蒙古工业大学学报（自然科学版）,2013,32(3):209-213.

1李兴军.垃圾邮件过滤的贝叶斯算法研究[J].硅谷,2008,1(8):43-44.
2花小朋,蓝少华.垃圾邮件综合过滤法在校园网中的应用[J].信息安全与通信保密,2007,29(10):69-70. 被引量：1
3管建和,邓刚.用贝叶斯算法实现垃圾邮件过滤[J].电脑编程技巧与维护,2006(6):53-56. 被引量：1
4曹翠玲,王媛媛,袁野,赵国冬.用于垃圾邮件的贝叶斯过滤算法研究[J].网络与信息安全学报,2017,3(3):64-70. 被引量：2
5戴劲松,白英彩.基于贝叶斯理论的垃圾邮件过滤技术[J].计算机应用与软件,2006,23(1):110-111. 被引量：16
6魏延良,侯立刚,任立军.垃圾邮件过滤系统的设计[J].辽宁石油化工大学学报,2008,28(1):48-51. 被引量：1
7王文华,姜雪梅.浅谈反垃圾邮件中的主要技术[J].福建电脑,2012,28(3):72-72.
8熊志勇.基于贝叶斯过滤的反垃圾邮件技术[J].软件导刊,2010,9(9):163-165. 被引量：1
9陈叶旺,余金山.一种改进的朴素贝叶斯文本分类方法[J].华侨大学学报（自然科学版）,2011,32(4):401-404. 被引量：11
10杜选.基于加权补集的朴素贝叶斯文本分类算法研究[J].计算机应用与软件,2014,31(9):253-255. 被引量：13

计算机应用研究

2011年第2期

浏览历史

内容加载中请稍等...

结合特征和非特征信息改进Nave Bayes及其应用被引量：2

参考文献11

二级参考文献43

共引文献11

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

结合特征和非特征信息改进Nave Bayes及其应用 被引量：2

参考文献11

二级参考文献43

共引文献11

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

结合特征和非特征信息改进Nave Bayes及其应用被引量：2