融合半监督学习与主动学习的细分领域新闻分类研究被引量：1

News Classification with Semi-Supervised and Active Learning

导出

摘要【目的】在基于新闻文本挖掘的开源技术情报监测任务场景下,提出一种结合半监督学习与主动学习的细分领域新闻分类方案。【方法】首先,在新闻文本表示学习的基础上开展K-Means聚类,筛选各类簇中少量代表性样本供人工判定类目,合并调整后作为细分领域类目;其次,利用代表性样本作为训练集,集成多种分类算法训练出初始分类器;最后,结合困惑度和混淆矩阵开展主动学习有针对性地迭代优化初始分类器。【结果】在坦克装甲车领域新闻数据集上进行测试,进行主动学习后取得较好的文本分类结果,正确率、召回率和F1值达到83.68%、83.35%和83.17%,较主动学习前分别提升2.71、2.52和2.81个百分点。【局限】为了减少人工语料标注任务,主动学习环节仅做了两次迭代。【结论】所提方案能够在缺乏语料标注、未预设细分类目的原始状态下,仅利用少量人工参与成本,即可一体化地获得效果较好的细分领域新闻分类器。该方案在实践中具有较高的性价比和良好的领域泛化能力。 [Objective]This paper proposes a news classification scheme combining semi-supervised learning and active learning,aiming to improve intelligence monitoring based on news mining.[Methods]First,we carried out K-means clustering based on the learning of news text representations,and selected a small number of representative samples from various clusters for manual judgment.These categories were merged and adjusted as sub-field categories.Then,we used the representative samples as the training set for a variety of integrated classification algorithms and train the initial classifier.Finally,we utilized active learning to optimize the initial classifier.[Results]We tested our new model with news on tanks and armored vehicles.After active learning,we received better text classification results.The precision,recall and F1 value reached 83.68%,83.35% and 83.17%,which were increased by 2.71%,2.52% and 2.81% respectively.[Limitations]To reduce manually labeling work,we only conducted 2 iterations.[Conclusions]The proposed method can effectively classify news with little corpus annotation and no pre-trained classifier.It could also be used in other fields.

作者陈果叶潮 Chen Guo;Ye Chao(School of Economics&Management,Nanjing University of Science&Technology,Nanjing 210094,China;Jiangsu Science and Technology Collaborative Innovation Center of Social Public Safety,Nanjing 210094,China)

机构地区南京理工大学经济管理学院江苏省社会公共安全科技协同创新中心

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第4期28-38,共11页 Data Analysis and Knowledge Discovery

基金教育部人文社会科学研究青年项目(项目编号:21YJC870003) 江苏省社会科学基金青年项目(项目编号:21TQC002)的研究成果之一。

关键词半监督学习主动学习文本分类集成学习 Semi-Supervised Learning Active Learning Text Classification Ensemble Learning

分类号 G350 [文化科学—情报学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献26

1丁连红,孙斌,张宏伟.基于知识图谱扩展的短文本分类方法[J].情报工程,2018,4(5):38-46. 被引量：5
2于游,付钰,吴晓平.一种基于词和事件主题的卷积网络的新闻文本分类方法[J].计算机应用与软件,2021,38(5):170-174. 被引量：3
3胡玉兰,赵青杉,陈莉,牛永洁.面向中文新闻文本分类的融合网络模型[J].中文信息学报,2021,35(3):107-114. 被引量：10
4刘月,翟东海,任庆宁.基于注意力CNLSTM模型的新闻文本分类[J].计算机工程,2019,45(7):303-308. 被引量：20
5张永奎,李红娟.基于类别关键词的突发事件新闻文本分类方法[J].计算机应用,2008,28(B06):139-140. 被引量：11
6夏华林,张仰森.基于规则与统计的Web突发事件新闻多层次分类[J].计算机应用,2012,32(2):392-394. 被引量：8
7宋英华,吕龙,刘丹.基于组合深度学习模型的突发事件新闻识别与分类研究[J].情报学报,2021,40(2):145-151. 被引量：13
8葛艳,郑利杰,杜军威,陈卓.基于BLSTM-Attention神经网络模型的化工事故分类[J].计算机系统应用,2020,29(10):205-210. 被引量：2
9朱芳鹏,王晓峰.面向船舶工业新闻的文本分类[J].电子测量与仪器学报,2020,32(1):149-155. 被引量：11
10张世同.基于BERT与BiLSTM的铁路安监文本分类方法[J].现代计算机,2021,27(22):38-42. 被引量：3

二级参考文献407

1段平.如何撰写科技论文英文信息型摘要[J].大学英语,2000(12):51-52. 被引量：3
2李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
3侯汉清,黄刚.电子计算机与文献分类[J].现代图书情报技术,1982(1):5-14. 被引量：10
4周科进.网络媒体表现形式的集大成者:网络专题[J].新闻战线,2004(6):64-67. 被引量：23
5何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
6姜小波,陈杰,仇玉林.一种简化的 SOVA算法[J].电子器件,2004,27(3):467-469. 被引量：1
7徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
8翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
9刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
10宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44

共引文献455

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：8
3唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11. 被引量：1
4李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：4
5林海香,赵正祥,陆人杰,卢冉,白万胜,胡娜娜.基于字词融合的高铁道岔多级故障诊断组合模型[J].电子测量与仪器学报,2022,36(10):217-226. 被引量：1
6林海香,卢冉,陆人杰,许丽,赵正祥,白万胜.基于LDA-CLCBA组合模型的高速铁路道岔故障诊断[J].电子测量与仪器学报,2022,36(3):251-259.
7彭义春,张捷,覃左仕.基于随机森林算法的职位薪资预测[J].智能计算机与应用,2021,11(10):67-72. 被引量：3
8左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
9王生昌,李良敏,杨立本,邱兆文.营运车辆驾驶人适宜性甄别检测评价系统研究[J].交通信息与安全,2013,31(1):65-69. 被引量：2
10张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8

同被引文献11

1许芳,田萌,徐国虎.大数据应用能力对企业创新绩效的影响研究--供应链协同的中介效应与战略匹配的调节效应[J].宏观经济研究,2020(3):101-119. 被引量：57
2韩正涛,张悟移.供应链协同创新中知识转移的收益共享机制[J].计算机工程与应用,2020,56(16):234-240. 被引量：8
3吴江,陈婷,龚艺巍,杨亚璇.企业数字化转型理论框架和研究展望[J].管理学报,2021,18(12):1871-1880. 被引量：138
4解学梅,陈佳玲.供应链多维协同创新与企业绩效:一项元分析的检验[J].管理工程学报,2022,36(2):20-36. 被引量：21
5宋晓晨,毛基业.基于区块链的组织间信任构建过程研究——以数字供应链金融模式为例[J].中国工业经济,2022(11):174-192. 被引量：17
6方刚,王家辉.基于区块链技术的协同创新知识共享研究[J].科技进步与对策,2022,39(24):130-140. 被引量：9
7苏加福,张凤婷,王丹,胡洪源,李婷婷.基于知识协同视角的知识供应链伙伴选择策略[J].计算机集成制造系统,2023,29(2):650-664. 被引量：3
8邵军,杨敏.数字经济与我国产业链供应链现代化:推动机制与路径选择[J].南京社会科学,2023(2):26-34. 被引量：17
9冯檬莹,陈海波,郭晓雪.大数据能力、供应链协同创新与制造企业运营绩效的关系研究[J].管理工程学报,2023,37(3):51-59. 被引量：17
10张元庆,刘烁,齐平.数字产业协同创新发展对碳排放强度影响研究[J].西南大学学报（社会科学版）,2023,49(3):114-128. 被引量：17

引证文献1

1刘鸿浩,黎传熙,彭媛媛.供应链协同创新研究综述与展望[J].商业经济,2024(3):108-112.

1本刊编辑部.本刊关于书写论文作者单位名称的要求[J].中国中西医结合肾病杂志,2022,23(2):100-100.
2本刊编辑部.本刊关于书写论文作者单位名称的要求[J].中国中西医结合肾病杂志,2022,23(1):87-87.
3平国楼,曾婷玉,叶晓俊.基于评分迭代的无监督网络流量异常检测[J].清华大学学报（自然科学版）,2022,62(5):819-824. 被引量：6
4花遇春,杨璇,熊文丹.基于粗糙集的主成分聚类方法[J].计算机科学与应用,2022,12(5):1378-1388.
5林夕,陈孜卓,王中卿.基于不平衡数据与集成学习的属性级情感分类[J].计算机科学,2022,49(S01):144-149. 被引量：4
6宿晨,徐华,崔鑫,王玲娣.一种处理不均衡多分类问题的特征选择集成方法[J].重庆大学学报,2022,45(5):125-134. 被引量：1
7蒋华伟,张磊,赵丽科,郭陶,周德祥,陈斯.基于Broad-AdaBoost的小麦品质指标预测模型[J].吉林大学学报（工学版）,2022,52(5):1222-1228. 被引量：1
8常新功,王金珏.基于图卷积集成的网络表示学习[J].智能系统学报,2022,17(3):547-555.
9康雁,吴志伟,寇勇奇,张兰,谢思宇,李浩.融合Bert和图卷积的深度集成学习软件需求分类[J].计算机科学,2022,49(S01):150-158. 被引量：1
10刘翠玲,胡聪,王鹏,洪德华,张庭曾.基于营销大数据的电力客户多维度信用评价模型研究[J].西南大学学报（自然科学版）,2022,44(6):198-208. 被引量：6

数据分析与知识发现

2022年第4期

浏览历史

内容加载中请稍等...

融合半监督学习与主动学习的细分领域新闻分类研究被引量：1

参考文献26

二级参考文献407

共引文献455

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合半监督学习与主动学习的细分领域新闻分类研究 被引量：1

参考文献26

二级参考文献407

共引文献455

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合半监督学习与主动学习的细分领域新闻分类研究被引量：1