融合SLDA主题模型的不均衡文本分类方法被引量：3

Imbalanced Text Categorization Method with SLDA Topic Model

下载PDF

导出

摘要在标签均衡分布且标注样本足够多的数据集上,监督式分类算法通常可以取得比较好的分类效果。然而,在实际应用中样本的标签分布通常是不均衡的,分类算法的分类性能就变得比较差。为此,结合SLDA(Supervised LDA)有监督主题模型,提出一种不均衡文本分类新算法ITC-SLDA(Imbalanced Text Categorization based on Supervised LDA)。基于SLDA主题模型,建立主题与稀少类别之间的精确映射,以提高少数类的分类精度。利用SLDA模型对未标注样本进行标注,提出一种新的未标注样本的置信度计算方法,以及类别约束的采样策略,旨在有效采样未标注样本,最终降低不均衡文本的倾斜度,提升不均衡文本的分类性能。实验结果表明,所提方法能明显提高不均衡文本分类任务中的Macro-F1和G-mean值。 Supervised categorization algorithms can yield better categorization performance in datasets with enough and balanced labels.However,various real-world categorization tasks suffer from the class imbalance problem which has been known to hinder the learning performance of categorization algorithms.This paper,demonstrates that SLDA model is capable of solving the class imbalance problem by sampling unlabeled instances.In order to yield a better prediction per-formance with minority classes,the semantic relationship between topics and minority classes is derived by the SLDA topic model.An efficient way of calculating confidence and sampling valuable unlabeled instances is proposed.The proposed method reduces the skewness of the imbalanced datasets efficiently and improves the categorization performance of minority classes.Our experimental results show that the the proposed method,ITC-SLDA algorithm,can significantly improve Macro-F1 and G-mean values in imbalanced text categorization.

作者唐焕玲刘艳红郑涵窦全胜鲁明羽 TANG Huanling;LIU Yanhong;ZHENG Han;DOU Quansheng;LU Mingyu(School of Computer Science and Technology,Shandong Technology and Business University,Yantai,Shandong 264005,China;Co-innovation Center of Shandong Colleges and Universities,Yantai,Shandong 264005,China;Key Laboratory of Intelligent Information Processing in Universities of Shandong(Shandong Technology and Business University),Yantai,Shandong 264005,China;Information Science and Technology College,Dalian Maritime University,Dalian,Liaoning 116026,China)

机构地区山东工商学院计算机科学与技术学院山东省高等学校协同创新中心山东省高校智能信息处理重点实验室(山东工商学院) 大连海事大学信息科学技术学院

出处《计算机工程与应用》 CSCD 北大核心 2021年第12期144-154,共11页 Computer Engineering and Applications

基金国家自然科学基金(61976124,61976125,61772319,61773244,61972235)。

关键词有监督主题模型半监督学习不均衡文本分类 supervised topic model semi-supervised learning imbalanced text categorization

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程与应用,2019,55(4):1-16. 被引量：54
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
3赵清华,张艺豪,马建芬,段倩倩.改进SMOTE的非平衡数据集分类算法研究[J].计算机工程与应用,2018,54(18):168-173. 被引量：27
4戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936. 被引量：10
5高锋,黄海燕.基于邻域混合抽样和动态集成的不平衡数据分类方法[J].计算机科学,2017,44(8):225-229. 被引量：9
6王彩文,杨有龙.针对不平衡数据的改进的近邻分类算法[J].计算机工程与应用,2020,56(7):30-38. 被引量：9
7唐焕玲,窦全胜,于立萍,宋英杰,鲁明羽.有监督主题模型的SLDA-TC文本分类新方法[J].电子学报,2019,47(6):1300-1308. 被引量：10
8唐焕玲,鲁明羽.利用置信度重取样的SemiBoost-CR分类模型[J].计算机科学与探索,2011,5(11):1048-1056. 被引量：5

二级参考文献45

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：16
4Menzies T,Greenwald J,Frank A.Data mining static code attributes to learn defect predictors[J].IEEE Transactions on Software Engineering,2007,33(1):2-13. 被引量：1
5Turhan B,Bener A.Analysis of Naive Bayes assumptions on software fault data:An empirical study[J].Data&Knowledge Engineering,2009,68(2):278-290. 被引量：1
6Boetticher G D.Improving credibility of machine learner models in software engineering[M]∥Advanced Machine Learner Applications in Software Engineering(Series on Software Engineering and Knowledge Engineering),USA:Langston University,2006:52-72. 被引量：1
7Catal C,Diri B.Investigating the effect of dataset size,metrics sets and feature selection techniques on software fault prediction problem[J].Information Sciences,2009,179(8):1040-1058. 被引量：1
8Riquelme J C,Ruiz R,Rodriguez D,et al.Finding defective modules from highly unbalanced datasets[J].Actas de los Talleres de las Jornadas de Ingeniería del Software y Bases de Datos,2008,2(1):67-74. 被引量：1
9Menzies T,Turhan B,Bener A,et al.Implications of ceiling effects in defect predictors[C]∥Proc of the 4th International Workshop on Predictor Models in Software Engineering,2008:47-54. 被引量：1
10Seiffert C,Khoshgoftaar T M,Van Hulse J.Improving software-quality predictions with data sampling and boosting[J].IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2009,39(6):1283-1294. 被引量：1

共引文献500

1姜新盈,王舒梵,严涛.基于层次密度聚类的去噪自适应混合采样[J].计算机系统应用,2022,31(10):206-210.
2李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
3张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：30
6张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
7王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
8徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
9袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
10贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1

同被引文献33

1程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
2陶鹏,童星.纵向府际关系情境下政治注意力演化的理论建构[J].江苏社会科学,2021(4):69-79. 被引量：20
3钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):142-144. 被引量：27
4李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：73
5王印红,李萌竹.地方政府生态环境治理注意力研究——基于30个省市政府工作报告(2006—2015)文本分析[J].中国人口·资源与环境,2017,27(2):28-35. 被引量：156
6叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：107
7庞明礼.领导高度重视:一种科层运作的注意力分配方式[J].中国行政管理,2019(4):93-99. 被引量：215
8林怀逸,刘箴,柴玉梅,刘婷婷,柴艳杰.基于词向量预训练的不平衡文本情绪分类[J].中文信息学报,2019,33(5):132-142. 被引量：7
9朱张莉,饶元,吴渊,祁江楠,张钰.注意力机制在深度学习中的研究进展[J].中文信息学报,2019,33(6):1-11. 被引量：127
10孙传旺,罗源,姚昕.交通基础设施与城市空气污染——来自中国的经验证据[J].经济研究,2019,54(8):136-151. 被引量：182

引证文献3

1陈欢,王忠震.基于TF-IDF特征词提取的不平衡文本分类[J].智能计算机与应用,2020,10(9):73-76. 被引量：1
2赵革委,胡海东.基于局部卷积神经网络算法的文本分类识别[J].微型电脑应用,2021,37(8):136-139. 被引量：1
3卢良栋,徐正健,魏玖长,徐佳.纵向府际关系视角下的政府生态治理态度与注意力配置[J].资源科学,2023,45(4):706-720. 被引量：4

二级引证文献6

1李思源,刘继辉,刘应波,林鸿佳,王玉真,杨晶津.消费者卷烟抽吸感知综合评价分析[J].中国市场,2022(26):127-133.
2武可心.基于卷积神经网络的公交运行时间周期预测研究[J].微型电脑应用,2023,39(12):37-40.
3司林波,熊依婕,宋兆祥.地方政府碳达峰行动方案政策注意力配置研究——基于31省(自治区、直辖市)政策文本的分析[J].行政与法,2024(2):1-19.
4汤皓然,罗桥.从项目制运行到生态社群构建环境社会工作的实践转型[J].新视野,2024(2):102-109.
5王佳,陈强强.我国生态治理体制构建、政策演进逻辑与治理现代化[J].生态学报,2024,44(10):4437-4447. 被引量：1
6宫攀,马琦清.人口老龄化对城市基本公共服务支出的影响效应研究——基于政府行为逻辑的视角[J].城市问题,2024(7):33-45.

1王彬溶,谭代伦,郑伯川.基于旅行商问题转化和遗传算法求解汽配件喷涂顺序[J].计算机应用,2021,41(3):881-886. 被引量：5
2刘藤,陈恒,李冠宇.联合FOL规则的知识图谱表示学习方法[J].计算机工程与应用,2021,57(4):100-107. 被引量：3
3俞学豪,赵子岩,马应龙,郑蓉蓉,郗子月,马超.基于BR和GBDT的电力信息通信客服系统多标签文本分类[J].电力系统自动化,2021,45(11):144-151. 被引量：20
4刘启华.闽南盆景后继有人(三十六)[J].花木盆景（下半月）,2021(5):47-47.
5翟一鸣,王斌君,周枝凝,仝鑫.面向文本分类的多头注意力池化RCNN模型[J].计算机工程与应用,2021,57(12):155-160. 被引量：5
6温瑞英,李璐,魏志强.基于遗传算法的分段多参气动阻力研究[J].飞行力学,2021,39(2):27-32. 被引量：2
7吴一平,于纯良,曲佳彬,白如江.文本主题视域下的高校论文研究前沿领域及演化发展趋势研究[J].情报科学,2021,39(5):156-162. 被引量：6
8陈瑛,刘强,刘豆豆,朱丽芳,李雁.一种新型智能健康管理模式探讨[J].中国医院,2021,25(6):94-96. 被引量：6
9刘娟.一种A-BiLSTM的中文图书分类方法[J].软件导刊,2021,20(6):49-53. 被引量：1
10赵婉辰,郑晨,肖斌,刘行,刘璐,余童昕,刘艳洁,董自强,刘轶,周策,吴洪盛,路宝坤.基于Bayesian采样主动机器学习模型的6061铝合金成分精细优化[J].金属学报,2021,57(6):797-810. 被引量：8

计算机工程与应用

2021年第12期

浏览历史

内容加载中请稍等...

融合SLDA主题模型的不均衡文本分类方法被引量：3

参考文献8

二级参考文献45

共引文献500

同被引文献33

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

融合SLDA主题模型的不均衡文本分类方法 被引量：3

参考文献8

二级参考文献45

共引文献500

同被引文献33

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

融合SLDA主题模型的不均衡文本分类方法被引量：3