基于类名引导的弱监督文本分类

Weakly supervised text classification based on class name guidance

下载PDF

导出

摘要针对弱监督文本分类过于依赖专家生成种子词的局限,提出一种基于类名引导生成种子词的弱监督文本分类方法。使用Skip-Gram模型学习单词的向量表示,借助vMF(von Mises Fisher)分布对用户提供的类名与语料库之间的关系进行建模,综合考虑语义相关性和语义特异性,由此生成一组高质量的种子词,无需依赖专家经验;迭代使用种子词生成伪标签和文档分类器;扩展种子词,进一步提升模型性能。在NYT和20 Newsgroups两个公开数据集上的实验结果(F1-score)表明了所提弱监督文本分类方法的有效性。 Aiming at the limitation that weakly supervised text classification relies too much on experts to generate seed words,a weakly supervised text classification method based on class name guidance to generate seed words was proposed.The vector representation of words was learned using Skip-Gram model,and with the help of vMF distribution,the relationship between class names provided by users and corpus was modeled.Considering semantic relevance and semantic specificity comprehensively,a group of high-quality seed words was generated without relying on expert experience.Seed words were used iteratively to gene-rate pseudo tags and document classifiers.The seed words were extended to further improve the performance of the model.The results of experiments(F1-score)on two public data sets of NYT and 20 Newsgroups show the effectiveness of the proposed method.

作者周悦尧奚雪峰崔志明盛胜利仇亚进 ZHOU Yue-yao;XI Xue-feng;CUI Zhi-ming;SHENG Sheng-li;QIU Ya-jin(School of Electronic and Information Engineering,Suzhou University of Science and Technology,Suzhou 215000,China;Suzhou Key Laboratory of Virtual Reality Intelligent Interaction and Application Technology,Suzhou Science and Technology Bureau,Suzhou 215000,China;Suzhou Smart City Research Institute,Suzhou University of Science and Technology,Suzhou 215000,China;School of Computer Science,Texas Institute of Technology,Lubbock 79401,USA)

机构地区苏州科技大学电子与信息工程学院苏州市科技局苏州市虚拟现实智能交互及应用重点实验室苏州科技大学苏州智慧城市研究院德州理工大学计算机学院

出处《计算机工程与设计》北大核心 2023年第8期2329-2336,共8页 Computer Engineering and Design

基金国家自然科学基金项目(61876217、62176175) 江苏省“六大人才高峰”高层次人才基金项目(XYDXX-086) 苏州市科技计划基金项目(SGC2021078)。

关键词弱监督文本分类词向量冯米塞尔分布语义相关性语义特异性深度学习 weakly supervision text classification word embedding vMF distribution semantic relevance semantic specificity deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1徐永昌,黄士多,艾浩军.基于对比学习的社交媒体地理位置预测方法[J].电信科学,2023,39(8):58-68. 被引量：1
2窦文琦,陈艳平,秦永彬,黄瑞章,刘丽娟.基于机器阅读理解的案件要素识别方法[J].计算机工程与设计,2023,44(8):2475-2481.
3土旦郎加.口传史视域下西藏那曲“安多”地名渊源考[J].攀登（藏文版）,2023(2):79-87.
4黄学坚,马廷淮,王根生.基于分层语义特征学习模型的微博谣言事件检测[J].数据分析与知识发现,2023,7(5):81-91. 被引量：3
5王彪,毋涛.基于卷积神经网络的面料检索系统[J].计算机技术与发展,2023,33(9):52-56.
6丁邱,严馨,刘艳超,徐广义,邓忠莹.基于兴趣和专业度建模的CQA专家发现方法[J].贵州大学学报（自然科学版）,2023,40(5):72-79.
7李佳阳,李昊,闫妮,陈子韵,丁捷.面向调控云平台的信息化智能搜索技术[J].微型电脑应用,2023,39(8):32-35.
8江琼,林霞蓉,林友国.多模态超声对甲状腺微小乳头状癌的诊断效能[J].实用医技杂志,2023,30(4):278-282.
9宋琦,姚钧宇,彭惠芬.含轴向裂纹X80压力管道弹塑性断裂分析[J].价值工程,2023,42(25):113-115. 被引量：1
10李智杰,韩津津,李昌华,张颉.面向图嵌入的改进图注意机制模型[J].计算机工程与应用,2023,59(17):152-158. 被引量：1

计算机工程与设计

2023年第8期

浏览历史

内容加载中请稍等...

基于类名引导的弱监督文本分类

相关作者

相关机构

相关主题

浏览历史