基于RSSI的贝叶斯垃圾邮件过滤算法

RSSI-based Bayesian anti-spam filtering algorithm

下载PDF

导出

摘要针对现有贝叶斯算法应用于垃圾邮件过滤时,贝努利模型精度低、不能区分文本特征重要性、多项式模型计算量大、无关特征项浪费计算时间、对出现次数少的特征项反应敏感等缺点,提出RSSI(remove similar and sensitive items)特征模型。通过计算并比较特征项出现的频率,去除无关和敏感特征项,减小运算量,增加正确率,减少过拟合。Matlab仿真结果表明,与现有的朴素贝叶斯算法(nave Bayes)和支持向量机(support vector machine,SVM)等算法相比,RSSI算法能显著减少分类时间,降低合法邮件被误判的概率。 When Bayesian algorithm is applied in spam filtering,Bernoulli model＇s accuracy is low and can not distinguish the importance of text features,and the multinomial model has larger computation.In addition,it is a waste of time in calculating unrelated feature elements and this model is sensitive to low frequency elements.For these shortcomings,an improved feature extraction algorithm named RSSI was proposed,which not only reduced the amount of computation,but also improved the classification performance by calculating and comparing the occurrence frequency of feature items,so that overfitting phenomenon was reduced.Experimental results show that compared with early nave Bayes algorithm and SVM algorithm,the RSSI algorithm can significantly reduce the classification time and the probability of misjudging legitimate emails.

作者陈铁军靖丰年段谊海

机构地区郑州大学电气工程学院

出处《计算机工程与设计》北大核心 2015年第7期1790-1793,共4页 Computer Engineering and Design

基金教育部高等学校博士学科点专项科研基金项目(20114101110005)

关键词邮件分类贝叶斯分类器特征提取多项式事件模型过拟合 mail classification Bayesian classifier feature extraction multinomial event model overfitting

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1郑冬冬,宋顺林.图片垃圾邮件过滤技术综述[J].计算机工程与设计,2010,31(1):41-44. 被引量：2
2EP Sanz JGHJ. Email spam filtering [J]. Advances in Com- puters, 2008, 74 45-114. 被引量：1
3李潇,罗军勇,尹美娟.基于结构特征分析与文本分类的邮件筛选[J].计算机工程与设计,2010,31(21):4555-4558. 被引量：2
4杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
5刘红芝.中文分词技术的研究[J].电脑开发与应用,2010,23(3):1-3. 被引量：15
6梁志文,杨金民,李元旗.基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法[J].中南大学学报（自然科学版）,2013,44(7):2787-2792. 被引量：10
7赵静..基于内容特征分析的垃圾邮件过滤关键技术研究[D].山东师范大学,2012:
8郑炜,沈文,张英鹏.基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J].西北工业大学学报,2010,28(4):622-627. 被引量：26
9符会涛,卡米力.木衣丁.一种改进的文本特征选择方法的研究与设计[J].计算机应用与软件,2011,28(4):239-241. 被引量：1
10Blanzieri E, Bryl A. A survey of learning-based techniques of email spare filtering [J]. Artif Intell Rev, 2008, 29: 63-92. 被引量：1

二级参考文献52

1韩维良.汉语自动分词系统中切分歧义与未登录词的处理策略[J].青海师范大学学报（自然科学版）,2004,20(2):31-34. 被引量：3
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
4詹川,卢显良,侯孟书,邢茜.一种快速的基于URL的垃圾邮件过滤系统[J].计算机科学,2005,32(8):55-56. 被引量：3
5YU Fei,SHEN Yue,AN Ji-yao,ZHANG Ling-fen,ZHU Miao-liang.Information Audit Based on Image Content Filtering[J].Wuhan University Journal of Natural Sciences,2006,11(1):234-238. 被引量：3
6尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
7吴慧玲,沈建京,贺广生.基于不良文本信息过滤预处理方法的研究[J].网络安全技术与应用,2006(11):61-63. 被引量：2
8张文良,黄亚楼,倪维健.基于差分贡献的垃圾邮件过滤特征选择方法[J].计算机工程,2007,33(8):80-82. 被引量：10
9董梅,胡学钢.基于多特征选择的中文文本分类[J].计算机技术与发展,2007,17(7):117-119. 被引量：11
10Masahiro Uemura,Okayama-shi.Design and evaluation of a Bayesian-filter-based image spam filtering method[C].International Conference on Information Security and Assurance,2008:46-51. 被引量：1

共引文献73

1于洪波.中文分词技术研究[J].东莞理工学院学报,2010,17(5):40-44. 被引量：2
2陈玫,蒙祖强.面向医学知识的中文分词词典设计与实现[J].大众科技,2010,12(11):140-142.
3李伟,吴及,吕萍.基于查询扩展的中文语音高效检索[J].模式识别与人工智能,2011,24(4):561-566. 被引量：1
4姚全珠,王美君,李如琼.基于子树特征的中文实体关系抽取[J].计算机工程,2012,38(1):48-50. 被引量：1
5陈钒,冯志勇.语言自然节奏在文本分类中的研究与应用[J].计算机工程与应用,2012,48(30):28-32. 被引量：2
6田野,贾李蓉,李园白,刘静,刘丽红,李敬华,于彤,杨策,张竹绿.网络论坛中中医药信息的聚类分析研究[J].世界中医药,2012,7(6):535-536. 被引量：1
7张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103-108. 被引量：6
8朱莉莉.中文搜索引擎中的中文分词应用[J].中国教育技术装备,2013(3):67-68.
9熊志斌,刘冬.朴素贝叶斯在文本分类中的应用[J].软件导刊,2013,20(2):49-51. 被引量：11
10王海洋.网页体裁自动识别研究[J].软件导刊,2013,20(4):1-3.

1方海涛,雷菁,胡昆明,龚政辉.基于RSSI修正的改进DV-Hop测距算法[J].通信技术,2012,45(2):16-18. 被引量：11
2吴艳红.一种改进型ROCRSSI算法——IROCRSSIGC算法[J].广西师范学院学报（自然科学版）,2013,30(2):55-60. 被引量：1
3刘冬艳.无线传感器网络定位技术研究[J].中国科技博览,2012(19):610-610.
4丁琳,程保彪.无线传感器网络中基于RSSI的室内节点定位改进算法[J].轻工科技,2016,32(7):75-76.
5王宁.网络节点快速定位算法的优化与仿真[J].计算机仿真,2015,32(11):290-293. 被引量：2
6秦晓晶,李海富.基于Zigbee技术的井下人员定位系统的研究[J].长春大学学报,2012,22(2):153-156. 被引量：5
7李昆,刘争,陈续阳.基于RFID的消防员定位[J].电子制作,2015,23(2Z).
8刘川来,郭蓝天,秦浩华.一种改进的ZigBee无线传感器网络定位算法及应用[J].化工自动化及仪表,2012,39(2):204-208. 被引量：10
9许红艳,王经卓,董自健,裴菊静.无线传感器网络节点定位算法的改进[J].微计算机信息,2012,28(10):303-305. 被引量：1
10云炜,段禅伦.基于粗糙集理论的双向垃圾邮件分类模型的研究[J].计算机工程与科学,2008,30(10):8-10. 被引量：1

计算机工程与设计

2015年第7期

浏览历史

内容加载中请稍等...

基于RSSI的贝叶斯垃圾邮件过滤算法

参考文献12

二级参考文献52

共引文献73

相关作者

相关机构

相关主题

浏览历史