基于词向量和卷积神经网络的垃圾短信识别方法被引量：13

Spam messages recognizing method based on word embedding and convolutional neural network

下载PDF

导出

摘要对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word2vec的skip-gram模型根据维基中文语料库训练出短信数据集中每个词的词向量,并将每条短信中各个词组所对应的词向量组成表示短信的二维特征矩阵;然后,把特征矩阵作为卷积神经网络的输入,通过卷积层的不同尺度卷积核提取多尺度短信特征,以及利用1-max pooling池化策略得到局部最优特征;最后,将局部最优特征组成融合特征向量放入softmax分类器中得出分类结果。在10万条短信数据上进行的实验结果表明,在特征提取方式相同的情况下,基于卷积神经网络模型的识别准确率能够达到99.5%,比传统的机器学习模型提高了2.4%~5.1%,且各模型的识别准确率均保持在94%以上。 It is of great social value and times background significance to filter and recognize spam messages.Traditional artificially designed feature selection methods may lead to data sparseness,insufficient co-occurrence of feature information and difficulty in feature extraction.To solve above problems,a spam messages recognizing method based on word embedding and convolutional neural network was proposed.Firstly,word2vec s skip-gram model was used to train the word embedding of each word in the short message dataset according to the Wiki Chinese corpus,and the two-dimensional feature matrix representing short message was composed of word embedding of each word in a short message.Then,the feature matrix was used as the input to the convolutional neural network.The multi-scale short message features were extracted by using different scale convolution kernels of the convolution layer,and the 1-max pooling strategy was used to obtain the local optimal features.Finally,the fusion feature vector,composed of the local optimal features,was put into the softmax classifier to get the classification results.Experiments were performed on 100 000 short messages.The experimental results show that the recognition accuracy based on the convolutional neural network model can reach 99.5%,which is 2.4%to 5.1%higher than that of the traditional machine learning models with the same feature extraction method,and the recognition accuracy of each model maintains above 94%.It is demonstrated that the proposed method has good recognition performance for spam messages,and can improve recognition accuracy effectively.

作者赖文辉乔宇鹏 LAI Wenhui;QIAO Yupeng(School of Automation Science and Engineering,South China University of Technology,Guangzhou Guangdong 510640,China)

机构地区华南理工大学自动化科学与工程学院

出处《计算机应用》 CSCD 北大核心 2018年第9期2469-2476,共8页 journal of Computer Applications

关键词垃圾短信识别 word2vec skip-gram 词向量卷积神经网络 spam message recognizing word2vec skip-gram word embedding Convolutional Neural Network(CNN)

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—控制科学与工程]

引文网络
相关文献

参考文献5

1陈功平,沈明玉,王红,张燕平.基于内容的短信分类技术[J].华东理工大学学报（自然科学版）,2011,37(6):770-774. 被引量：17
2李润川,昝红英,申圣亚,毕银龙,张中军.基于多特征融合的垃圾短信识别[J].山东大学学报（理学版）,2017,52(7):73-79. 被引量：7
3黄文明,莫阳.基于文本加权KNN算法的中文垃圾短信过滤[J].计算机工程,2017,34(3):193-199. 被引量：19
4郑世卓,崔晓燕.基于半监督LDA的文本分类应用研究[J].软件,2014,35(1):46-48. 被引量：10
5宗成庆编著..统计自然语言处理[M].北京:清华大学出版社,2008:475.

二级参考文献16

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2李旭升,郭耀煌.一种新颖混合贝叶斯分类模型研究[J].计算机科学,2006,33(9):135-139. 被引量：5
3Sebastiani F. Machine learning in automated text categorization[J].ACM Computing Surveys, 2002, 34(1) :1 47. 被引量：1
4熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
5石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873. 被引量：54
6邢军,韩敏.基于两层向量空间模型和模糊FCA本体学习方法[J].计算机研究与发展,2009,46(3):443-451. 被引量：13
7黄秀丽,王蔚.一种改进的文本分类特征选择方法[J].计算机工程与应用,2009,45(36):129-130. 被引量：10
8张爱华,靖红芳,王斌,徐燕.文本分类中特征权重因子的作用研究[J].中文信息学报,2010,24(3):97-104. 被引量：16
9裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：39
10张永军,刘金岭,于长辉.基于词贡献度的垃圾短信分类方法[J].山东大学学报（工学版）,2012,42(5):87-90. 被引量：3

共引文献46

1张永军,刘金岭.基于特征词的垃圾短信分类器模型[J].计算机应用,2013,33(5):1334-1337. 被引量：11
2王红,张燕平,陈功平.云计算在手机短信分类中的应用研究[J].华中师范大学学报（自然科学版）,2013,47(5):626-631. 被引量：2
3陈立.基于贝叶斯文本分类的高校设备批量集中采购[J].实验技术与管理,2014,31(5):265-268. 被引量：2
4王红,张燕平,陈功平.kNN算法在手机短信客户端分类中的应用研究[J].山东农业大学学报（自然科学版）,2014,45(2):216-222. 被引量：1
5张永军,刘金岭,高尚兵.基于关联规则的垃圾短信分类器模型[J].南通大学学报（自然科学版）,2014,13(3):6-12. 被引量：2
6张永军,刘金岭.一种改进的高效贝叶斯短信文本分类器[J].南京师范大学学报（工程技术版）,2014,14(3):70-74. 被引量：6
7黄彦,温继文,陈英义.基于文本分类的果农短信分类[J].湖北农业科学,2014,53(23):5864-5867.
8夏九将,吴荣泉,王敬平.浅析改良K-SVM算法在邮件分类中的研究应用[J].信息技术,2015,39(11):121-124.
9陈立.基于加权子图和支持向量机相融合的邮件分类算法[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(5):647-651. 被引量：1
10李锋,万小强.短信自动分类的实现[J].智能计算机与应用,2016,6(6):5-8.

同被引文献106

1中国心血管健康与疾病报告编写组,王增武,胡盛寿.中国心血管健康与疾病报告2019概要[J].中华老年病研究电子杂志,2020(4):4-15. 被引量：928
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
3肖冬平.知识网络研究综述[J].重庆工商大学学报（自然科学版）,2006,23(6):617-623. 被引量：21
4赵蓉英.论知识网络的结构[J].图书情报工作,2007,51(9):6-10. 被引量：73
5顾东蕾.论学科知识网络的理论基础[J].图书情报工作,2008,52(9):32-35. 被引量：15
6顾东蕾.论学科知识网络[J].情报杂志,2008,27(9):50-55. 被引量：16
7王晓光.科学知识网络的形成与演化（Ⅰ）：共词网络方法的提出[J].情报学报,2009,28(4):599-605. 被引量：86
8姜春林,张帆,唐悦.我国部分科学学期刊共被引网络特征研究[J].情报杂志,2010,29(4):10-15. 被引量：18
9余传明,陈雷,张小青.基于支持向量机的产品属性识别研究[J].情报学报,2010,29(6):1038-1044. 被引量：7
10徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29

引证文献13

1韩萍,孙佳慧,方澄,贾云飞.基于情感融合和多维自注意力机制的微博文本情感分析[J].计算机应用,2019,39(A01):75-78. 被引量：18
2周显春.双缓冲通信网络中垃圾信息高效过滤仿真研究[J].计算机仿真,2019,36(7):157-160. 被引量：2
3周萌,厉旭杰,陈凯杰.基于微信小程序的办公通讯系统的设计与实现[J].智能计算机与应用,2019,9(5):190-193. 被引量：6
4石凤贵.基于机器学习的垃圾短信识别应用[J].电脑知识与技术,2020,16(3):202-204. 被引量：2
5杨锐,陈伟,何涛,张敏,李蕊伶,岳芳.融合主题信息的卷积神经网络文本分类方法研究[J].现代情报,2020,40(4):42-49. 被引量：17
6蔡庆平,马海群.基于Word2Vec和CNN的产品评论细粒度情感分析模型[J].图书情报工作,2020,64(6):49-58. 被引量：29
7李慧,胡吉霞.一种基于图卷积自编码模型的多维度学科知识网络融合方法[J].图书情报工作,2020,64(18):114-125. 被引量：5
8李根,王科峰,贲卫国,宋微,刘鸿儒,徐亦晋.基于自分簇自学习算法的垃圾短信识别[J].吉林大学学报（信息科学版）,2021,39(5):583-588. 被引量：4
9邱宁佳,杨长庚,王鹏,任涛.改进卷积神经网络的文本主题识别算法研究[J].计算机工程与应用,2022,58(2):161-168. 被引量：7
10朱宵彤,庞春颖,朱涵.基于深度学习的心血管疾病预测模型[J].计算机应用,2021,41(S02):346-350. 被引量：5

二级引证文献97

1李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：4
2孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
3胡蕾.狄奥尼索斯的报复——《蝇王》之神话原型分析与重释[J].山东外语教学,2000,21(2):49-53. 被引量：13
4申莹,刘春阳,赵永翼.基于SVM算法的微博评论数据情感分析[J].数字通信世界,2020(1):111-111. 被引量：3
5任莹.基于预训练BERT模型的客服工单自动分类研究[J].云南电力技术,2020,48(1):2-7. 被引量：1
6赵亚欧,张家重,李贻斌,付宪瑞,生伟.融合基于语言模型的词嵌入和多尺度卷积神经网络的情感分析[J].计算机应用,2020,40(3):651-657. 被引量：26
7宋继哲,赵鹏辉,李品钰.基于微信小程序的会议通知系统设计与实现[J].科学技术创新,2020(6):87-88. 被引量：4
8赵小虎,赵成龙.基于多特征语义匹配的知识库问答系统[J].计算机应用,2020,40(7):1873-1878. 被引量：3
9邓君,孙绍丹,王阮,宋先智,李贺.基于Word2Vec和SVM的微博舆情情感演化分析[J].情报理论与实践,2020,43(8):112-119. 被引量：50
10朱心洲,胡誉,蒋靖妍.基于QQ小程序和Flask的高校闲置物品信息平台[J].计算机系统应用,2020,29(9):102-108. 被引量：1

1陈济楠,李少波,高宗,李政杰,杨静.基于改进CNN的年龄和性别识别[J].计算机工程与应用,2018,54(16):135-139. 被引量：11
2李帅彬,李亚星,冯旭鹏,刘利军,黄青松.基于词向量的微博话题发现方法[J].计算机应用与软件,2017,34(12):47-52. 被引量：2
3刘敏.初中英语语法教学策略之初探——以牛津初中英语8B U6 Gram mar为例[J].启迪,2018,0(9):26-27.
4邓志鹏,孙浩,雷琳,周石琳,邹焕新.基于多尺度形变特征卷积网络的高分辨率遥感影像目标检测[J].测绘学报,2018,47(9):1216-1227. 被引量：38
5刘钢,李宗晨,郭建伟.基于卷积神经网络的文档特征提取方法[J].江苏科技信息,2018,35(14):21-23.
6TDK开发出了用于电力线路的新MPZ0603-H系列积层贴片磁珠[J].磁性元件与电源,2018(9):75-76.
7习路,陆济湘,涂婷.基于多尺度卷积神经网络的立体匹配方法[J].计算机工程与设计,2018,39(9):2918-2922. 被引量：4
8卢玲,杨武,王远伦,雷子鉴,李莹.结合注意力机制的长文本分类方法[J].计算机应用,2018,38(5):1272-1277. 被引量：20
9许腾腾,黄恒君.一种改进的Supervised-LDA文本模型及其应用[J].计算机工程,2018,44(1):69-73. 被引量：3
10张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112. 被引量：14

计算机应用

2018年第9期

浏览历史

内容加载中请稍等...

基于词向量和卷积神经网络的垃圾短信识别方法被引量：13

参考文献5

二级参考文献16

共引文献46

同被引文献106

引证文献13

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

基于词向量和卷积神经网络的垃圾短信识别方法 被引量：13

参考文献5

二级参考文献16

共引文献46

同被引文献106

引证文献13

二级引证文献97

相关作者

相关机构

相关主题

浏览历史

基于词向量和卷积神经网络的垃圾短信识别方法被引量：13