卷积神经网络的短文本分类方法被引量：13

Short Text Classification Based on Convolutional Neural Network

下载PDF

导出

摘要短文本分类是自然语言处理的一个研究热点.为提高文本分类精度和解决文本表示稀疏问题,提出了一种全新的文本表示(N-of-DOC)方法.采用Word2Vec分布式表示一个短语,将其转换成的向量作为卷积神经网络模型的输入,经过卷积层和池化层提取高层特征,输出层接分类器得出分类结果.实验结果表明,与传统机器学习(K近邻,支持向量机,逻辑斯特回归,朴素贝叶斯)相比,提出的方法不仅能解决中文文本向量的维数灾难和稀疏问题,而且在分类精度上也比传统方法提高了4.23%. Short text classification is one of the hotspots of research in natural language processing. A new model of text representation is proposed in this study (N-of-DOC), and in order to solve the problem of sparse representation in Chinese, the Word2Vec distributed representation is used, finally, it is applied to the improved Convolution Neural Network (CNN) model to extract the high level features from the filter layer, the classification model is obtained by connecting the Softmax classifier after the pooling layer. In the experiment, the traditional text representation model and the improved text representation model are used as the input of the original data, respectively. It acts on the model of traditional machine learning (KNN, SVM, logistic regression, naive Bayes) and the improved CNN model. The results show that the proposed method can not only solve the dimension disaster and sparse problem of Chinese text vectors, but also improve the classification accuracy by 4.23% compared with traditional methods.

作者陈巧红王磊孙麒贾宇波 CHEN Qiao-Hong;WANG Lei;SUN Qi;JIA Yu-Bo(School of Information Science and Technology,Zhejiang Sci-Tech University,Hangzhou 310018,China)

机构地区浙江理工大学信息学院

出处《计算机系统应用》 2019年第5期137-142,共6页 Computer Systems & Applications

基金浙江省自然科学基金(LY17E050028)~~

关键词卷积神经网络短文本分类文本表示机器学习深度学习 Convolution Neural Network (CNN) short text classification text representation machine learning deep learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类技术概述[J].电脑知识与技术（过刊）,2017,23(12X):87-91. 被引量：7
2黄文明,莫阳.基于文本加权KNN算法的中文垃圾短信过滤[J].计算机工程,2017,34(3):193-199. 被引量：19
3唐伟,刘丰年,陈崇帮,欧新良,王苏.改进的基尼指数在文本分类中的应用研究[J].长沙大学学报,2013,27(5):55-57. 被引量：3
4李军政,黄海,黄瑞阳,王康利.基于卡方检验和SVM的用户搜索画像技术研究[J].电子设计工程,2017,25(24):6-10. 被引量：4
5陶伟.警务应用中基于双向最大匹配法的中文分词算法实现[J].电子技术与软件工程,2016(4):153-155. 被引量：11
6官琴,邓三鸿,王昊.中文文本聚类常用停用词表对比研究[J].数据分析与知识发现,2017,1(3):72-80. 被引量：46

二级参考文献46

1周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
2孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
5欧新良,陈松乔,方逵.基于高斯映射下自由曲面的形状分析及边界计算[J].小型微型计算机系统,2006,27(4):735-740. 被引量：3
6熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
7化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
8Shankar S, Karypis G. A feature weight adjustment algorithm for document categorization [ A ]. The 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[ C ]. Boston : ACM ,2000. 被引量：1
9Nordbeck S, Rystedt B. Computer Cartography Shortest Route Pro- grams[ M]. Sweden: The Royal University of Land, 1969. 被引量：1
10Breiman L, Fridman J. Classification and Regression Trees [ M ]. Monterey : Wadsworth International Group, 1984. 被引量：1

共引文献84

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
2楚东晓,王雯露,穆勤远.基于LDA和语义网络的产品感知价值维度研究[J].包装工程,2023,44(S01):47-55. 被引量：2
3俞琰,赵乃瑄.基于辅助集的专利主题分析领域停用词选取[J].数据分析与知识发现,2018,2(11):95-103. 被引量：6
4张毅,杨奕,邓雯.政策与部门视角下中国网络空间治理——基于LDA和SNA的大数据分析[J].北京理工大学学报（社会科学版）,2019,21(2):127-136. 被引量：14
5于重重,操镭,尹蔚彬,张泽宇,郑雅.吕苏语口语标注语料的自动分词方法研究[J].计算机应用研究,2017,34(5):1325-1328. 被引量：31
6刘明,李忠任,张海涛,于春霞,唐兴宏,丁香乾.基于二分搜索结合修剪随机森林的特征选择算法在近红外光谱分类中的应用[J].激光与光电子学进展,2017,54(10):449-456. 被引量：5
7操镭,尹蔚彬,孙沁瑶,王志,于重重,李道玮.濒危语言口语语料库的研究与构建——以吕苏语为范例[J].计算机工程与应用,2018,54(2):234-238. 被引量：6
8黄梦龙.基于分词的天地图福建多源POI重复检测方法[J].地理空间信息,2018,16(2):51-53. 被引量：1
9俞琰,赵乃瑄.专利文本主题建模中领域停用词自动选取研究[J].图书情报工作,2018,62(11):120-126. 被引量：4
10王月瑶,胡琴敏,刘伟,陈乃华,程洁.智能分类算法在游戏故障告警中的应用[J].计算机系统应用,2018,27(7):133-138. 被引量：4

同被引文献114

1李梦磊,刘新,赵梦凡,李聪.基于语句结构信息的方面级情感分类[J].计算机系统应用,2020(11):114-120. 被引量：2
2李哲,成玉宁.数字技术环境下景观规划设计教学改革与实践[J].风景园林,2019,26(S02):67-71. 被引量：28
3张红,陆谊.基于数据挖掘的电信欺诈侦测模型[J].微计算机信息,2005,21(06X):44-45. 被引量：6
4刘志荣.电子政务的数据挖掘研究[J].广东技术师范学院学报,2008,29(3):8-10. 被引量：2
5张野,杨建林.基于KNN和SVM的中文文本自动分类研究[J].情报科学,2011,29(9):1313-1317. 被引量：9
6陆洲艳.基于神经网络的电力系统潮流算法研究[J].江苏科技信息,2012(8):44-45. 被引量：1
7覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30. 被引量：28
8杜诗雨,齐佳音.基于主成分分析的微博话题影响指数评价研究[J].情报杂志,2014,33(5):129-135. 被引量：18
9刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
10刘丽元,臧长江,周靖航,马晓燕,热西提.阿不都热依木,黄锡霞,葛建军,马光辉.新疆昌吉地区荷斯坦奶牛生长发育规律分析[J].中国畜牧兽医,2015,42(8):2036-2041. 被引量：10

引证文献13

1Shengli Zhou,Xin Wang,Zerui Yang.Monitoring and Early Warning of New Cyber-Telecom Crime Platform Based on BERT Migration Learning[J].China Communications,2020,17(3):140-148. 被引量：6
2宗春梅,张月琴,赵青杉,郝耀军,郭玥鑫.可视化支持下CNN在个性化推荐算法中的应用[J].计算机系统应用,2020,29(6):204-210. 被引量：3
3代耀彬,朱燕燕,黄双华.基于卷积神经网络的群众留言分类[J].无线互联科技,2020,17(12):21-22. 被引量：1
4方晓东,刘昌辉,王丽亚,殷兴.基于BERT的复合网络模型的中文文本分类[J].武汉工程大学学报,2020,42(6):688-692. 被引量：7
5段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：73
6李灿,田秀霞,赵波.BiLSTM_DPCNN模型在电力客服工单数据分类中的应用[J].计算机系统应用,2021,30(2):243-249. 被引量：9
7解仲秋.基于时空大数据挖掘的网络舆情研判方法研究[J].电子设计工程,2021,29(8):177-181. 被引量：1
8罗俊杰,雷泽鑫,胡一可,王苗,曹磊.基于深度学习的城市公园游客情感倾向分析——以天津水上公园为例[J].中国园林,2021,37(9):65-70. 被引量：12
9陈杰,马静,李晓峰.融合预训练模型文本特征的短文本分类方法[J].数据分析与知识发现,2021,5(9):21-30. 被引量：9
10邵辉.基于BERT-TextCNN的中文短文本情感分析[J].信息与电脑,2022,34(1):77-80. 被引量：4

二级引证文献120

1王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
2郭子晨,李昆阳,娄嘉鹏.基于深度学习的多通道多任务学习判决预测模型[J].北京电子科技学院学报,2022,30(4):105-114.
3周胜利,徐啸炀.基于网络流量的用户网络行为被害性分析模型[J].电信科学,2021,37(2):125-134. 被引量：2
4尼格拉木·买斯木江,艾孜尔古丽·玉素甫.基于BERT及双向GRU模型的慕课用户评论情感倾向性分析[J].计算机与现代化,2021(4):20-26. 被引量：5
5邢照野,刘晓群.基于改进ERNIE模型的中文文本分类方法[J].信息与电脑,2021,33(8):87-89. 被引量：3
6王永鹏,周晓磊,马慧敏,曹吉龙,无.联合知识的融合训练模型[J].计算机系统应用,2021,30(7):50-56. 被引量：1
7郝彦辉,王曦,陈铎.基于BERT-BiLSTM模型的舆情监测方法及实证研究——以研究生招生考试为例[J].情报科学,2021,39(8):78-85. 被引量：10
8田沛霖,符海滕,马力禹,罗琳.融合对抗训练和CNN-BiGRU神经网络的新闻文本分类模型[J].图书情报导刊,2021,6(8):38-45. 被引量：3
9李瑜泽,栾馨,柯尊旺,李哲,吾守尔·斯拉木.知识感知的预训练语言模型综述[J].计算机工程,2021,47(9):18-33. 被引量：4
10陈国心.基于自然语言处理的评教文本分类与分析[J].西安航空学院学报,2021,39(3):91-96.

1李凯.中文文本分类方法研究[J].电脑知识与技术,2019,15(2):242-244. 被引量：2
2王倩倩,陈康.在线评论文本特征表示方法研究[J].金陵科技学院学报（社会科学版）,2019,33(1):56-60. 被引量：1
3陈巧红,董雯,孙麒,贾宇波.基于门控循环单元神经网络的广告点击率预估[J].浙江理工大学学报（自然科学版）,2018,39(5):587-592. 被引量：3
4姜旭晨,蔡应妹.师范院校本科生考研意向影响要素研究——基于浙江师范大学812个样本的实证分析[J].中国人民大学教育学刊,2017(4):53-65. 被引量：9
5王宏,门博,雷娜.K近邻算法在政府采购数据挖掘中的研究与应用[J].智能计算机与应用,2019,9(3):269-272. 被引量：1
6缪裕青,汪俊宏,刘同来,周明,武继刚.图文融合的微博情感分析方法[J].计算机工程与设计,2019,40(4):1099-1105. 被引量：13
7毛丽旦.尼加提,古丽尼尕尔.买合木提,艾斯卡尔.艾木都拉.不同维度下维吾尔语N-gram语言模型性能分析[J].现代电子技术,2019,42(10):27-30. 被引量：4
8杜沛,程晓荣.一种基于K近邻的比较密度峰值聚类算法[J].计算机工程与应用,2019,55(10):161-168. 被引量：12
9罗艳虹,胡良平.适应性回归分析(Ⅰ)——回归模型的构建与求解[J].四川精神卫生,2019,32(2):97-100.
10冯立伟,张成,李元,谢彦红.基于标准距离k近邻的多模态过程故障检测策略[J].控制理论与应用,2019,36(4):553-560. 被引量：15

计算机系统应用

2019年第5期

浏览历史

内容加载中请稍等...

卷积神经网络的短文本分类方法被引量：13

参考文献6

二级参考文献46

共引文献84

同被引文献114

引证文献13

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

卷积神经网络的短文本分类方法 被引量：13

参考文献6

二级参考文献46

共引文献84

同被引文献114

引证文献13

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

卷积神经网络的短文本分类方法被引量：13