基于不平衡数据与集成学习的属性级情感分类被引量：4

Aspect-level Sentiment Classification Based on Imbalanced Data and Ensemble Learning

下载PDF

导出

摘要情感分类一直是自然语言处理领域的重要研究部分。该任务一般是将带有情感色彩的样本分类成正类和负类两种类别。在很多理论模型中,都假设正负类数据样本是平衡的,而在现实中正负类样本一般是不平衡的。提出一种基于属性级的LSTM集成学习的方法,针对不平衡样本数据进行属性级情感分类。首先,对数据集进行欠采样处理,将其分成多组;其次,为每组数据分配一种分类算法进行训练;最后,将多组模型融合,得到最终分类结果。一系列的实验结果显示,基于属性级的LSTM集成学习的方法明显提高了分类的准确性,其性能优于传统的LSTM模型分类方法。 Sentiment classification remains an important part of the field of natural language processing.The general task is to classify the emotional data into two categories,which is positive and negative.In many models,it is assumed that the positive and negative data are balanced.Contrarily,the two class of data are always imbalanced in reality.This paper proposes an ensemble learning model based on aspect-levelLSTM to process aspect-level problem.Firstly,the data sets are under-sampled and divided into multiple groups.Secondly,a classification algorithm is assigned to each group of data for training.Finally,it yields the classification result through joining all models.The experimental results show that the ensemble learning model based on aspect-level LSTM significantly improves the accuracy of classification,and its performance is better than the traditional LSTM model.

作者林夕陈孜卓王中卿 LIN Xi;CHEN Zi-zhuo;WANG Zhong-qing(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)

机构地区苏州大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2022年第S01期144-149,共6页 Computer Science

关键词不平衡数据 LSTM 集成学习情感分类属性词 Imbalanced data LSTM Ensemble learning Sentiment classification Aspect word

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：546
2王志昊,王中卿,李寿山,李培峰.不平衡情感分类中的特征选择方法研究[J].中文信息学报,2013,27(4):113-118. 被引量：6
3叶枫,江永省.基于聚类融合欠采样的不平衡分类方法[J].计算机应用与软件,2020,37(1):292-297. 被引量：2

二级参考文献26

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：327
2Pang B, L Lee, S Vaithyanathan. Thumbs up? Senti?ment classification using machine learning techniques[CJ/ /Proceedings of EMNLP-02, 2002. 被引量：1
3Liu B, M Hu,J Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web[CJ/ /Proceedings of WWW-05, 2005. 被引量：1
4WiebeJ, T Wilson, C Cardie. Annotating Expressions of Opinions and Emotions in Language. Language Re?sources and Evaluation, 2005. 被引量：1
5Cui H, V Mittal , M Datar. Comparative Experiments on Sentiment Classification for Online Product Reviews[CJ/ /Proceedings of AAAI-06, 2006. 被引量：1
6Li S, CHuang, G Zhou, et al. Employing Personall Impersonal Views in Supervised and Semi-supervised Sentiment Classification[CJ/ /Proceedings of ACL-I0, 2010. 被引量：1
7Li S, G Zhou, Z Wang, et al. Imbalanced Sentiment Classification[CJ/ /Proceeding of CIKM-ll, 2011. 被引量：1
8Kubat M. and S. Matwin. Addressing the Curse of Imbalanced Training Sets: One-Sided Selection[CJ/ / Proceedings of ICML-97, 1997. 被引量：1
9Barandela R,J Sanchez, V Garcia, et al. Strategies for Learning in Class Imbalance Problems[J]. Pattern Recognition, 2003. 被引量：1
10Chawla N, NJapkowicz , A. Kotcz. Editorial. Special Issue on Learning from Imbalanced Data Sets[J]. SIGKDD Exploration Newsletter, 2004. 被引量：1

共引文献549

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
2王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：3
3王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：19
4刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
5徐晖,王中卿,李寿山,张民.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S02):99-104. 被引量：3
6张良波,任际范,周晶晶,吴欣宇.电商直播中弹幕互动特征对销售效率的影响[J].管理科学,2023,36(4):17-29. 被引量：2
7安颖,葛格.基于平行语料库的英汉电商评价对比研究[J].汉字文化,2022(23):113-115.
8蔡馥谣.抖音短视频中辽宁城市形象的呈现与传播策略研究[J].都市文化研究,2024(1):230-242.
9佘正炜,钱松荣.基于神经网络的文本倾向性分析系统的研究[J].微型电脑应用,2011(12):20-23. 被引量：2
10赵小永,赵政文.相关性计算在情感分析上的应用[J].微型电脑应用,2011(12):39-41.

同被引文献23

1麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
2唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：146
3延丰,杜腾飞,毛建华,刘学锋.基于情感词典与LDA模型的股市文本情感分析[J].电子测量技术,2017,40(12):82-87. 被引量：11
4金旭,王磊,孙国梓,李华康.一种基于质心空间的不均衡数据欠采样方法[J].计算机科学,2019,46(2):50-55. 被引量：11
5倪一涛,陈咏佳,林柏钢.基于自动解混淆的恶意网页检测方法[J].信息网络安全,2019(4):37-46. 被引量：4
6周晓敏,曹付元,余丽琴.一种基于样本分层的双向过采样方法[J].计算机科学,2019,46(12):83-88. 被引量：5
7杨敏,李君轶,徐雪.ICTs视角下的旅游流和旅游者时空行为研究进展[J].陕西师范大学学报（自然科学版）,2020,48(4):46-55. 被引量：14
8张士坤.基于多层分类器的恶意网页检测技术研究[J].现代计算机,2020,26(18):64-68. 被引量：3
9郭朝有,许喆,马砚堃,曹蒙蒙.面向不平衡数据集融合Canopy和K-means的SMOTE改进算法[J].科学技术与工程,2020,20(22):9069-9074. 被引量：8
10徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：60

引证文献4

1王法玉,于晓文,陈洪涛.基于欠采样和多层集成学习的恶意网页识别[J].计算机工程与设计,2024,45(3):669-675.
2杨俊哲,宋莹,陈逸菲.融合主题特征的文本情感分析模型[J].计算机科学,2024,51(S01):159-166.
3郑一凡,王卯宁.基于方差迁移的非平衡数据过采样方法[J].计算机科学,2024,51(S01):645-650.
4王欣羽,李薇.基于Bi-LSTM的不平衡样本文本分类模型[J].计算机科学与应用,2023,13(11):1989-1999.

1林伟.基于PSO-LSTM的中文微博情感分类研究[J].中国人民公安大学学报（自然科学版）,2022,28(1):95-101. 被引量：3
2宿晨,徐华,崔鑫,王玲娣.一种处理不均衡多分类问题的特征选择集成方法[J].重庆大学学报,2022,45(5):125-134. 被引量：1
3张壮,王士同.不平衡数据的Takagi-Sugeno-Kang模糊分类集成模型[J].计算机科学与探索,2022,16(6):1374-1382. 被引量：2
4平国楼,曾婷玉,叶晓俊.基于评分迭代的无监督网络流量异常检测[J].清华大学学报（自然科学版）,2022,62(5):819-824. 被引量：6
5刘琦玮,李俊,顾蓓蓓,赵泽方.TSAIE:图像增强文本的多模态情感分析模型[J].数据与计算发展前沿,2022,4(3):131-140. 被引量：3
6邢玉龙,王剑,上官伟,彭聪,朱林富.面向海量不平衡数据的轨道电路故障诊断方法[J].中国安全科学学报,2022,32(5):112-118. 被引量：6
7王君锋,刘凡,杨赛,吕坦悦,陈峙宇,许峰.基于多源迁移学习的大坝裂缝检测[J].计算机科学,2022,49(S01):319-324. 被引量：4
8陈果,叶潮.融合半监督学习与主动学习的细分领域新闻分类研究[J].数据分析与知识发现,2022,6(4):28-38. 被引量：2
9王福晴,王希栋,叶晓舟,欧阳晔.FBNT:基于融合模型的影视智能推荐算法[J].网络新媒体技术,2022,11(2):10-17. 被引量：1
10蒋华伟,张磊,赵丽科,郭陶,周德祥,陈斯.基于Broad-AdaBoost的小麦品质指标预测模型[J].吉林大学学报（工学版）,2022,52(5):1222-1228. 被引量：2

计算机科学

2022年第S01期

浏览历史

内容加载中请稍等...

基于不平衡数据与集成学习的属性级情感分类被引量：4

参考文献3

二级参考文献26

共引文献549

同被引文献23

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据与集成学习的属性级情感分类 被引量：4

参考文献3

二级参考文献26

共引文献549

同被引文献23

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据与集成学习的属性级情感分类被引量：4