基于文本加权KNN算法的中文垃圾短信过滤被引量：19

Chinese Spam Message Filtering Based on Text Weighted KNN Algorithm

下载PDF

导出

摘要针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。 In view of the drawback that the decision rules of classification regard for K Nearest Neighbor（ KNN）, the importance of every sample as the same, the classification results are not good. This paper proposes a method based on the text weighted KNN text classification algorithm and applies it to the classification of spam messages. After feature selection, considering the influence of frequency of feature words appearing in the text on text importance, the paper puts forward the first weighting formula. It uses association rule algorithm to mine frequent term sets from the spam message text and puts forward the second formula. Finally, it uses the two weighting formulas for the composite weighting on every message text so as to distinguish the influence of every training sample on category determination, thus improving on the classification decision rules. Experimental results show that the method has a promotion in accuracy, recall rate and F1 value which are important indexes compared with the un-improved KNN classification of spam filtering.

作者黄文明莫阳

机构地区桂林电子科技大学广西可信软件重点实验室桂林电子科技大学计算机与信息安全学院

出处《计算机工程》 CAS CSCD 北大核心 2017年第3期193-199,共7页 Computer Engineering

基金广西可信软件重点实验室研究课题(kx201106) 桂林电子科技大学研究生教育创新计划项目(2016YJCX64)

关键词垃圾过滤关联规则特征选择 K最近邻算法向量空间模型 spare filtering association rule feature selection K Nearest Neighbor （ KNN ） algorithm Vector Space Model （VSM）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1张永军,刘金岭.基于特征词的垃圾短信分类器模型[J].计算机应用,2013,33(5):1334-1337. 被引量：11
2蔡永泉,晋月培,葛安生,赵凯.基于关联分类的中文短信分类[J].北京工业大学学报,2015,41(7):1020-1027. 被引量：4
3杨柳,于剑,景丽萍.一种自适应的大间隔近邻分类算法[J].计算机研究与发展,2013,50(11):2269-2277. 被引量：15

二级参考文献62

1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
2PANGNING T,MICHAEL S,著.数据挖掘导论[M].范明、范宏建,译.北京:人民邮电出版社,2006:5. 被引量：3
3SALTON G, WANG A, YANG C S. A vector space model for auto- matic indexing [J]. Communication of the ACM, 1975, 18(5) :613 - 620. 被引量：1
4LEWIS D D. Feature selection and feature extraction for text catego- rization [ C]//Proceedings of the Workshop on Speech and Natural Language. New York: Association for Computational Linguistics, 1992:212 -217. 被引量：1
5LAN M, TAN C L, SU J, et al. Supervised and traditional term weighting methods for automatic text categorization [ J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(4): 721 -735. 被引量：1
6GANIZ M C. Higher order Naive Bayes: a novel non-IID approach to text classification[ J]. IEEE Transactions on Knowledge and Data Engineering, 2011,23 (7) : 1022 - 1034. 被引量：1
7ZHANG H J. Textual and visual content-based anti-phishing: a Bayesian approach [ J]. IEEE Transactions on Neural Networks, 2011,22(10) : 1532 - 1546. 被引量：1
8WONG T-L, LAM W. Learning to adapt Web information extractionknowledge and discovering new attributes via a Bayesian approach [ J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(4) : 523 - 536. 被引量：1
9BELEM D. Content filtering for SMS systems based on Bayesian classifier and word grouping[ C]// LANOMS 2011: The 7th Net- work Operations and Management Symposium. Piscataway: IEEE Press, 2011:1 -7. 被引量：1
10UYSAL A K, GtJNAL S, ERIGIN S, et al. Detection of SMS spam messages on mobile phones[ C]//SIU: The 20th Signal Processing and Communications Applications Conference. Piscataway: IEEE Press. 2012:1 -4. 被引量：1

共引文献27

1张永军,刘金岭,高尚兵.基于关联规则的垃圾短信分类器模型[J].南通大学学报（自然科学版）,2014,13(3):6-12. 被引量：2
2万韩永,左家莉,万剑怡,王明文.基于样本重要性原理的KNN文本分类算法[J].江西师范大学学报（自然科学版）,2015,39(3):297-303. 被引量：6
3王贵新,彭娟,郑孝宗.垃圾短信过滤系统的构建[J].科学咨询,2016(1):61-62.
4王贵新,彭娟,郑孝宗.垃圾短信过滤系统的构建[J].电子技术与软件工程,2016(4):51-51.
5王贵新,郑孝宗,张浩然,张小川.基于Word2vec的短信向量化算法[J].电子科技,2016,29(4):49-52. 被引量：4
6王贵新,郑孝宗,张浩然,张小川.利用深度置信网络的中文短信分类[J].现代电子技术,2016,39(9):37-40. 被引量：3
7朱茜,覃华,冯志新,陈晨.一种大规模文本分类大间隔近邻算法[J].计算机与现代化,2016(6):68-72. 被引量：1
8王贵新,彭娟,郑孝宗,张小川.基于稀疏自编码器和SVM的垃圾短信过滤[J].现代电子技术,2016,39(17):145-148. 被引量：1
9苏佩娟,刘赪.基于K-近邻法的不等样分类[J].绵阳师范学院学报,2016,35(11):13-16. 被引量：2
10李锋,万小强.短信自动分类的实现[J].智能计算机与应用,2016,6(6):5-8.

同被引文献135

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
3王素格,杨安娜,李德玉.基于汉语情感词表的句子情感倾向分类研究[J].计算机工程与应用,2009,45(24):153-155. 被引量：34
4刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：124
5陈功平,沈明玉,王红,张燕平.基于内容的短信分类技术[J].华东理工大学学报（自然科学版）,2011,37(6):770-774. 被引量：17
6翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34
7苏晓珂,郑远攀,万仁霞.基于共享最近邻的离群检测算法[J].计算机应用研究,2012,29(7):2426-2428. 被引量：2
8孙艳,周学广,付伟.基于主题情感混合模型的无监督文本情感分析[J].北京大学学报（自然科学版）,2013,49(1):102-108. 被引量：54
9唐伟,刘丰年,陈崇帮,欧新良,王苏.改进的基尼指数在文本分类中的应用研究[J].长沙大学学报,2013,27(5):55-57. 被引量：3
10任远,巢文涵,周庆,李舟军.基于话题自适应的中文微博情感分析[J].计算机科学,2013,40(11):231-235. 被引量：10

引证文献19

1宁琳,孙艳红.多媒体网络不良信息过滤方法仿真[J].计算机仿真,2018,35(7):343-346. 被引量：1
2何佶星,陈汶滨,牟斌皓.流行度划分结合平均偏好权重的协同过滤个性化推荐算法[J].计算机科学,2018,45(B06):493-496. 被引量：7
3马远浩,曾卫明,石玉虎,徐鹏.基于加权词向量和LSTM-CNN的微博文本分类研究[J].现代计算机,2018,24(17):18-22. 被引量：8
4刘凯.移动网络环境中不良信息智能过滤方法仿真[J].计算机仿真,2018,35(10):329-332. 被引量：3
5赖文辉,乔宇鹏.基于词向量和卷积神经网络的垃圾短信识别方法[J].计算机应用,2018,38(9):2469-2476. 被引量：13
6彭玉青,宋初柏,闫倩,赵晓松,魏铭.基于VDCNN与LSTM混合模型的中文文本分类研究[J].计算机工程,2018,44(11):190-196. 被引量：10
7陈巧红,王磊,孙麒,贾宇波.卷积神经网络的短文本分类方法[J].计算机系统应用,2019,28(5):137-142. 被引量：13
8张春英,李春虎,兰思武.基于多粒度特征融合的用户意图分类[J].华北理工大学学报（自然科学版）,2019,41(3):127-134.
9陈巧红,王磊,孙麒,贾宇波.基于混合神经网络的中文短文本分类模型[J].浙江理工大学学报（自然科学版）,2019,41(4):509-516. 被引量：1
10周显春.双缓冲通信网络中垃圾信息高效过滤仿真研究[J].计算机仿真,2019,36(7):157-160. 被引量：2

二级引证文献92

1林智健.CHI文本分类特征选择方法的改进与实现[J].信息与电脑,2018,30(7):172-176. 被引量：1
2王茂华,郝云力,柏春松.基于损失因子和数据集划分的协同过滤推荐算法[J].赤峰学院学报（自然科学版）,2019,35(1):51-53.
3曹湘,李誉坤,钱叶,闫晨阳,杨忠光.基于混合神经网络的电力短文本分类方法研究[J].计算机与数字工程,2019,47(5):1145-1150. 被引量：6
4颜培皓.基于非负矩阵分解的图书共享系统的研究及应用[J].电脑知识与技术,2019,15(4X):287-290.
5李澎林,洪之渊,李伟.基于兴趣度与类型因子的高校图书推荐算法[J].浙江工业大学学报,2019,47(4):425-429. 被引量：16
6刘月,翟东海,任庆宁.基于注意力CNLSTM模型的新闻文本分类[J].计算机工程,2019,45(7):303-308. 被引量：20
7韩萍,孙佳慧,方澄,贾云飞.基于情感融合和多维自注意力机制的微博文本情感分析[J].计算机应用,2019,39(A01):75-78. 被引量：18
8周显春.双缓冲通信网络中垃圾信息高效过滤仿真研究[J].计算机仿真,2019,36(7):157-160. 被引量：2
9周萌,厉旭杰,陈凯杰.基于微信小程序的办公通讯系统的设计与实现[J].智能计算机与应用,2019,9(5):190-193. 被引量：6
10尹丽春,王悦.基于在线评论的图书消费者满意度影响因素与作用机理[J].图书情报工作,2019,63(22):106-117. 被引量：14

1赵向军,路梅.垃圾邮件过滤算法研究[J].徐州师范大学学报（自然科学版）,2006,24(4):52-55. 被引量：1
2廖学军,罗时贵,尹锦荣.关于垃圾邮件的几点思考[J].南昌高专学报,2004,19(1):28-30. 被引量：2
3向学哲.改进的支撑向量机(SVM)算法在邮件过滤中的应用[J].华中师范大学学报（自然科学版）,2007,41(1):31-34.
4张洪军.SVM在电子邮件自动分类系统中的应用[J].山东师范大学学报（自然科学版）,2009,24(1):43-45.
5郑晓霞,刘超,邹钰.基于逻辑回归模型的中文垃圾短信过滤[J].黑龙江工程学院学报,2010,24(4):36-39. 被引量：2
6李凯,李娜,卢霄霞.一种模糊加权的孪生支持向量机算法[J].计算机工程与应用,2013,49(4):162-165. 被引量：7
7苗军民,韩铭祜,李超河.谈邮件系统的安全问题[J].网络安全技术与应用,2006(3):17-19. 被引量：2
8程传鹏.基于训练集的自动文摘方法的研究[J].中原工学院学报,2011,22(1):62-65.
9程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量：13
10幻舞.在逍遥游网管平台外逍遥[J].黑客防线,2005(B03):6-7.

计算机工程

2017年第3期

浏览历史

内容加载中请稍等...

基于文本加权KNN算法的中文垃圾短信过滤被引量：19

参考文献3

二级参考文献62

共引文献27

同被引文献135

引证文献19

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

基于文本加权KNN算法的中文垃圾短信过滤 被引量：19

参考文献3

二级参考文献62

共引文献27

同被引文献135

引证文献19

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

基于文本加权KNN算法的中文垃圾短信过滤被引量：19