基于HDP的监督多标签文本分类研究被引量：2

Supervise multi-label text classification based on hierarchical dirichlet process

下载PDF

导出

摘要随着互联网和信息技术的发展,大量的多标签文本数据快速产生。在文本分类中如何确定合适的分类数目以及如何更加准确地辨别文档的标签是亟待解决的问题。提出的HL_LDA模型通过层次狄利克雷过程自动确定分类的数目,通过发掘多标签文档的标签之间的层次信息提高分类的质量。实验结果表明在不同类型的数据集中,和经典的LDA,SVM等方法相比,HL_LDA在精度,F1-score等评估指标上明显优于现有的方法。 With the development of Internet and information technology, a large number of multi-label texts data quickly generated. In the text classification, how to determine the appropriate number of categories and how to identify the label of the textmore accurately is an urgent problem to be solved. The HL_LDA model proposed in this paper automatically determines the number of categories through the hierarchical Dirichlet process, and improves the quality of the classification by discovering the hierarchical information between labels of multi-label documents. The experimental results show that the evaluation of HL_LDA is superior to the existing method in precision and F1-score compared with the LDA-based and SVM-based methods on different types of data sets.

作者谢晨阳卢焱鑫

机构地区武汉大学计算机学院武汉大学软件工程国家重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2017年第23期18-23,46,共7页 Computer Engineering and Applications

基金青年科学基金项目(No.60903035) 国家自然科学基金(No.61572373) 国家重点研发计划(No.2017YFC0803808)

关键词多标签文本分类标签依赖层次狄利克雷过程 multi-label text clustering tag dependence hierarchical Dirichlet process

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
2姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：56
3王平.基于层次概率主题模型的科技文献主题发现及演化[J].图书情报工作,2014,58(22):70-77. 被引量：31
4吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
5王星..基于Labeled LDA的微博用户兴趣识别系统的研究与实现[D].北京交通大学,2014:
6邱云飞,刘世兴,王璐.基于多指标融合的文本特征评价及选择算法[J].计算机工程与应用,2016,52(24):95-101. 被引量：3
7任聪,李石君.面向网络新闻领域的评论情感极性分析[J].计算机工程与应用,2017,53(1):77-82. 被引量：7

二级参考文献72

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
5伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
6张华平.计算所汉语词法分析系统ICTCLAS[EB/OL].[2002-08-16].http://www.nip.org.cn/project/project.php?pwj_id=6. 被引量：4
7Deerwester S,Dumais S T A.lndexing by latent semantic analysis[J] Journal of the Society for Information Science,1990,41(6). 被引量：1
8Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5). 被引量：1
9Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(1). 被引量：1
10Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machine[EB/OL].(2001).http://www.csie.ntu.edu.tw/～cjlin/libsvm. 被引量：1

共引文献520

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
4李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
5姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
6张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
7王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
8徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
9袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
10贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1

同被引文献25

1张雯,张化祥.属性加权的朴素贝叶斯集成分类器[J].计算机工程与应用,2010,46(29):144-146. 被引量：10
2邓维斌,王国胤,洪智勇.基于粗糙集的加权朴素贝叶斯邮件过滤方法[J].计算机科学,2011,38(2):218-221. 被引量：21
3熊志斌,刘冬.朴素贝叶斯在文本分类中的应用[J].软件导刊,2013,20(2):49-51. 被引量：11
4徐明,高翔,许志刚,刘磊.基于改进卡方统计的微博特征提取方法[J].计算机工程与应用,2014,50(19):113-117. 被引量：14
5吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
6宋钰婷,徐德华.基于LDA和SVM的中文文本分类研究[J].现代计算机（中旬刊）,2016(2):18-23. 被引量：8
7时永宾,余青松.基于共现词卡方值的关键词提取算法[J].计算机工程,2016,42(6):191-195. 被引量：4
8张辉宜,谢业名,袁志祥,孙国华.一种基于概率的卡方特征选择方法[J].计算机工程,2016,42(8):194-198. 被引量：8
9张金瑞,柴玉梅,昝红英,高明磊.基于LDA的弱监督文本分类方法[J].计算机工程与设计,2017,38(1):86-91. 被引量：3
10罗慧钦,陆向艳,张雄宝,刘峻.基于隐朴素贝叶斯的商品评论情感分类方法[J].计算机工程与设计,2017,38(1):203-208. 被引量：11

引证文献2

1王延飞.APP缺陷问题评论分类方法研究[J].软件导刊,2018,17(9):59-63. 被引量：1
2孙桂煌.基于大数据技术的中文多标签文本分类方法研究[J].齐齐哈尔大学学报（自然科学版）,2020,36(6):39-43. 被引量：2

二级引证文献3

1王磊,曾成修,符为,谢磊.一种软件代码缺陷管理方案研究[J].软件导刊,2021,20(7):107-110.
2谢波,何凤.基于反馈式文本分类技术自动识别项目标签[J].现代信息科技,2021,5(17):100-102.
3刘峰硕,王志芳,薛靖峰.基于多标签分类模型的青岛市社情民意的研究[J].中国市场,2022(1):40-41.

1董露露.一种基于改进互信息的文本分类方法[J].合肥师范学院学报,2017,35(6):14-19. 被引量：3
2李秀霞,宋凯,赵思喆,周娜.国内外教育大数据研究现状对比分析[J].现代情报,2017,37(11):125-129. 被引量：10
3西门子LMS Sound Camera解决方案[J].汽车制造业,2017,0(17):17-17.
4蒋强荣,宋烈金.基于图核算法的文本分类[J].计算机与现代化,2017(11):13-16. 被引量：3
5罗欣,张爽.深度学习在电力潜在投诉识别分类中的应用[J].浙江电力,2017,36(10):83-86. 被引量：7
6牛能快速产生广泛中和抗体对抗HIV[J].绿洲农业科学与工程,2017,3(2):61-62.
7韩军兵,哈力旦.阿布都热依木,古力努尔.艾尔肯,何燕.改进信息增益的维吾尔文特征选择方法[J].计算机工程与应用,2017,53(23):34-38. 被引量：3
8罗海蛟,柯晓华.基于改进的LDA模型的中文主观题自动评分研究[J].计算机科学,2017,44(B11):102-105. 被引量：9
9刘以和.开发高层次信息为经济建设服务[J].武汉金融,1987(9):52-54.
10黄倩.反思教学与英语语篇语用阅读能力的培养[J].长春理工大学学报（高教版）,2011(10):135-137.

计算机工程与应用

2017年第23期

浏览历史

内容加载中请稍等...

基于HDP的监督多标签文本分类研究被引量：2

参考文献7

二级参考文献72

共引文献520

同被引文献25

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于HDP的监督多标签文本分类研究 被引量：2

参考文献7

二级参考文献72

共引文献520

同被引文献25

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于HDP的监督多标签文本分类研究被引量：2