稀疏数据下结合词向量的短文本分类模型研究被引量：8

Research on short text classification model combined with word vector for sparse data

下载PDF

导出

摘要针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-BERT)。首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WNTM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量;其次提出了一种标签图构造方法捕获主题词的结构和相关性;最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据稀疏性和主题文本异构性的问题。实验结果表明,WGA-BERT模型对于新闻评论类的短文本分类,比传统的机器学习模型在分类精度上平均提高了3%。 Due to the lack of sufficient co-occurrence information in short text, weak connections between words, and it is difficult to obtain subject words, which leads to the need to manually label a large number of training samples for short text classification, and the problems of sparse features and dimension explosion.This paper proposed a word symbiotic short text classification model based on attention mechanism and label graph(WGA-BERT).Firstly, this paper used the pretrained BERT model to calculate the context aware text representation, and used WNTM to model the potential word group distribution of each word to obtain the topic expansion feature vector.Secondly, this paper used a tag graph construction method to capture the structure and relevance of subject words.Finally, this paper used an attention mechanism to establish the relationship between subject words and between subject words and text, which solved the problems of data sparsity and subject text heterogeneity.The experimental results show that the WGA-BERT model improves the classification accuracy by an average of 3% compared with the traditional machine learning model.

作者杨阳刘恩博顾春华裴颂文 Yang Yang;Liu Enbo;Gu Chunhua;Pei Songwen(School of Optical-Electrical&Computer Engineering,University of Shanghai for Science&Technology,Shanghai 200082,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《计算机应用研究》 CSCD 北大核心 2022年第3期711-715,750,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61975124) 上海自然科学基金资助项目(20ZR1438500) 上海市科委科技行动计划资助项目(20DZ2308700) 上海市经信委软件和集成电路产业发展专项(RX-RJJC-02-20-4212)。

关键词短文本分类词嵌入单词网络主题模型注意力机制 short text classification word embedding word network topic model(WNTM) attention mechanism

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1申静波,李井辉,孙丽娜.注意力机制在评论文本情感分析中的应用研究[J].计算机技术与发展,2020,30(7):169-173. 被引量：5
2蓝雯飞,徐蔚,王涛.基于卷积神经网络的中文新闻文本分类[J].中南民族大学学报（自然科学版）,2018,37(1):138-143. 被引量：11
3张忠林,曹婷婷.基于重采样与特征选择的不均衡数据分类算法[J].小型微型计算机系统,2020,41(6):1327-1333. 被引量：16
4杨丹浩,吴岳辛,范春晓.一种基于注意力机制的中文短文本关键词提取模型[J].计算机科学,2020,47(1):193-198. 被引量：11

二级参考文献12

1唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
2程险峰,李军,李雄飞.一种基于欠采样的不平衡数据分类算法[J].计算机工程,2011,37(13):147-149. 被引量：21
3李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
4胡峰,王蕾,周耀.基于三支决策的不平衡数据过采样方法[J].电子学报,2018,46(1):135-144. 被引量：30
5沈学利,覃淑娟.基于SMOTE和深度信念网络的异常检测[J].计算机应用,2018,38(7):1941-1945. 被引量：20
6周世妍.新浪微博用户及其微博特征分析[J].新媒体研究,2017,3(21):8-9. 被引量：2
7赵庆东,郭中华.基于模型Seq2Seq机器翻译的研究[J].电子世界,2019,0(8):69-70. 被引量：2
8唐善成,马付玉,张镤月,陈熊熊.采用Seq2Seq模型的非受限词义消歧方法[J].西北大学学报（自然科学版）,2019,49(3):351-355. 被引量：5
9尹鹏,周林,郭强,刘镇江.基于短语级注意力机制的关系抽取方法[J].计算机技术与发展,2019,29(9):24-30. 被引量：2
10王大飞,解武杰,董文瀚.基于CSD-ELM的不平衡数据分类算法[J].计算机工程,2019,45(11):54-61. 被引量：6

共引文献39

1庞良健,李晗,王庆林,徐新胜.融合多层次语义的网络评价方面抽取方法研究[J].科技通报,2021,37(10):59-65.
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3朱肖颖,赖绍辉,陆科达.基于LSTM算法在新闻分类中的应用[J].梧州学院学报,2018,28(6):10-20. 被引量：4
4熊回香,杨梦婷,李玉媛.基于深度学习的信息组织与检索研究综述[J].情报科学,2020,38(3):3-10. 被引量：16
5胡万亭,贾真.基于加权词向量和卷积神经网络的新闻文本分类[J].计算机系统应用,2020,29(5):275-279. 被引量：7
6杜梦星,王彦伟.基于CNN的突发事件预警系统的设计与实现[J].武汉工程大学学报,2020,42(2):207-212.
7刘高军,王小宾.基于CNN+LSTMAttention的营销新闻文本分类[J].计算机技术与发展,2020,30(11):59-63. 被引量：1
8闫跃,霍其润,李天昊,毛煜.融合多重注意力机制的卷积神经网络文本分类设计与实现[J].小型微型计算机系统,2021,42(2):362-367. 被引量：12
9陈欢,王忠震.基于TF-IDF特征词提取的不平衡文本分类[J].智能计算机与应用,2020,10(9):73-76. 被引量：1
10白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1

同被引文献75

1李春根,罗家为.赋权与增能:“互联网+政务服务”何以打造地方发展软环境[J].中国行政管理,2021(5):47-52. 被引量：31
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
3刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
4张勇进.政府跨部门业务特征研究——以101个政府单位调研数据为基础[J].北京航空航天大学学报（社会科学版）,2013,26(1):1-5. 被引量：1
5李捷佳,贾君枝.基于关联数据的作者数据聚合研究[J].情报科学,2019,37(1):16-21. 被引量：6
6杜修明,秦佳峰,郭诗瑶,闫丹凤.电力设备典型故障案例的文本挖掘[J].高电压技术,2018,44(4):1078-1084. 被引量：67
7耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3
8刘梓权,王慧芳.基于知识图谱技术的电力设备缺陷记录检索方法[J].电力系统自动化,2018,42(14):158-164. 被引量：93
9孙昭颖,刘功申.面向短文本的神经网络聚类算法研究[J].计算机科学,2018,45(B06):392-395. 被引量：14
10王飞雪,李芳.基于主题加权LDA模型的情感分类方法[J].西南师范大学学报（自然科学版）,2018,43(9):38-44. 被引量：4

引证文献8

1钟磊,冷根.基于神经网络的文本聚类研究[J].信息与电脑,2022,34(11):154-156.
2徐绪堪,印家伟,王晓娇.基于BERT模型的“互联网+政务”群众留言文本热点追踪研究[J].情报杂志,2022,41(9):136-142. 被引量：8
3万金金,文屹,吕黔苏,张迅,范强,肖书舟,万云林.基于大数据深度挖掘电网设备缺陷体外循环的模型研制与应用[J].电力大数据,2023,26(3):61-68.
4景永霞,苟和平,刘强.基于BERT语义分析和CNN的短文本分类研究[J].洛阳理工学院学报（自然科学版）,2023,33(4):78-83. 被引量：1
5景永霞,苟和平,刘强.基于BERT语义分析的短文本分类研究[J].兰州文理学院学报（自然科学版）,2023,37(6):46-49. 被引量：1
6史丽丽,林军,朱桂阳.基于混合神经网络的中文在线评论产品特征提取及消费者需求分析[J].数据分析与知识发现,2023,7(10):63-73. 被引量：2
7马月坤,郝益锋.考虑特征稀疏特性的短文本命名实体快速识别方法[J].吉林大学学报（工学版）,2023,53(12):3529-3535.
8贾智颖.基于文本主题和地理位置的生活日志分类方法[J].计算机科学与应用,2024,14(2):480-488.

二级引证文献12

1罗宝仪,张博.舆论主题与公众情绪的综合映射——基于突发公共危机事件的舆情分析[J].新闻知识,2023(9):28-39.
2陆晨晨,王昊,石斌,裘靖文.面向电商用户评论的细粒度观点挖掘及其分布规律探究[J].知识管理论坛,2024(3):253-268.
3于益民.虚假评论对于产品购买意愿的影响--基于BERT模型的用户评论研究[J].技术与市场,2023,30(6):176-180.
4丁晓蔚,季婧,赵笑宇,王本强,丁毅杰,王献东.互联网金融安全情绪感知及风险预警应用研究——基于BERT所作的探索[J].情报杂志,2023,42(9):57-70. 被引量：3
5王艺璇.基于项目式教学法的OpenCV机器视觉实践教学[J].电脑知识与技术,2023,19(29):169-171. 被引量：2
6熊思斯,滕宇,胡珀.政务新媒体互动内容分析及诉求回应研究——以人民网留言板数据分析为例[J].情报杂志,2024,43(3):150-156.
7徐绪堪,李溢,唐津.基于LDA主题模型的社交媒体隐私政策合规性评价研究[J].科技情报研究,2024,6(2):42-57.
8屠鑫,张伟,李继东,李美姣,龙相波.面向智能在线教学的英语时态习题自动分类研究[J].计算机科学,2024,51(4):353-358.
9王昀,胡珉,塔娜,孙海涛,郭毅峰,周武爱,郭昱,张皖哲,冯建华.大语言模型及其在政务领域的应用[J].清华大学学报（自然科学版）,2024,64(4):649-658. 被引量：3
10张鸿彦.基于特征聚类与降维的新闻文本智能分类算法[J].信息技术与信息化,2024(4):106-109.

1杨丰瑞,霍娜,张许红,韦巍.基于注意力机制的主题扩展情感对话生成[J].计算机应用,2021,41(4):1078-1083. 被引量：5
2朱美荣.从边缘到中心:德国绿党的崛起与发展前景研究[J].国外社会科学前沿,2020(10):65-74. 被引量：1
3范嘉欣.从历史中寻找观点智慧[J].传媒论坛,2021,4(24):10-12.
4沈家怿,杨海英.语言与育人融合的《大学英语》思政教学研究[J].湖北开放职业学院学报,2022,35(1):183-184.
5宋泽宇,李旸,李德玉,王素格.融合标签关系的法律文本多标签分类方法[J].模式识别与人工智能,2022,35(2):185-192. 被引量：3
6丁秀莲,吴强,张朋,谢云东,刘元元,侯利,高星雨,郑圣明,余玉刚.基于管理类国际权威期刊的中国管理科学与工程学科研究现状分析[J].管理学报,2022,19(2):159-168. 被引量：5
7彭健,朱玉林.纸媒“新闻评论+短视频”的生产、运营与经营——以深圳晶报观点类短视频“晶报说”为例[J].青年记者,2022(1):40-41. 被引量：11
8胡沈明,谢艳.海报化:新闻评论视觉化表达的新趋势[J].青年记者,2022(2):77-78.
9吴舜歆,何怀文.一种融合社交信任的矩阵分解推荐算法[J].福建电脑,2022,38(3):10-12.
10王英博,韩国淼,王铭泽.基于子空间聚类的协同过滤推荐算法[J].计算机工程与应用,2022,58(3):127-134. 被引量：3

计算机应用研究

2022年第3期

浏览历史

内容加载中请稍等...

稀疏数据下结合词向量的短文本分类模型研究被引量：8

参考文献4

二级参考文献12

共引文献39

同被引文献75

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

稀疏数据下结合词向量的短文本分类模型研究 被引量：8

参考文献4

二级参考文献12

共引文献39

同被引文献75

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

稀疏数据下结合词向量的短文本分类模型研究被引量：8