一种子空间聚类算法在多标签文本分类中应用被引量：4

APPLYING A SUBSPACE CLUSTERING ALGORITHM IN MULTI-LABEL TEXT CLASSIFICATION

下载PDF

导出

摘要随着社交网络的兴起,文本数据不断增加,这使得自动化文本分类技术成为研究的热点。单个文本可能同时带有多个类别标签,该特点直接导致传统的二分类或多类别分类技术在多标签文本数据上性能不佳。针对这一不足,提出一种基于半监督杂质的子空间聚类分析算法SCA(subspace clustering analysis),该算法分析在多标签环境下每一对分类和标签之间存在的潜在相关性。并设计一种对分类文本数据更有效的多标签分类器。最后,实验对两个多标签文本集进行分析,结果表明该算法优于当前采用的其他文本分类方法。 With the rise of social networking,the amount of generated text data gains increasingly,this makes the automated text classification technology become the focus of the research. Single text file may have multiple category labels simultaneously,this feature directly causes conventional two or multi-category classification techniques perform poor in text data with multi-label. In response to this deficiency,we propose a semi-supervised impurity based subspace clustering analysis algorithm named SCA,it analyses the potential correlation existing between each pair of classification and label in a multi-label environment. We also design a multi-label classifier more effective on the classified text data. Finally,the experiments of analysing two multi-label text set are carried out,results show that the algorithm is superior to other text classification methods currently used.

作者于海鹏翟红生

机构地区河南工程学院计算机学院

出处《计算机应用与软件》 CSCD 北大核心 2014年第8期288-291,303,共5页 Computer Applications and Software

关键词文本数据多标签分类器子空间聚类杂质 Text data Multi-label Classifier Subspace clustering Impurity

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1张爱科,符保龙.基于高维聚类的探索性文本挖掘算法[J].计算机应用,2013,33(4):988-990. 被引量：4
2曹鹏,李博,栗伟,赵大哲.基于粒子群优化的不均衡数据学习[J].计算机应用,2013,33(3):789-792. 被引量：5
3Frigui H,Nasraoui O.Unsupervised learning of prototypes and attribute weights[J].Pattern recognition,2004,37(3):567-581. 被引量：1
4樊娜,蔡皖东,赵煜.基于混合模型的文本主题-情感分析方法[J].华中科技大学学报（自然科学版）,2010,38(1):31-34. 被引量：4
5鲁婷,王浩,姚宏亮.一种基于中心文档的KNN中文文本分类算法[J].计算机工程与应用,2011,47(2):127-130. 被引量：17
6Tang L,Rajan S,Narayanan V K.Large scale multi-label classification via metalabeler[C]//Proceedings of the 18th international conference on World wide web.New York,NY,USA,2009:211-220. 被引量：1
7王亚松,郭华平,范明.一种基于束状搜索的组合分类器修剪方法[J].计算机工程,2011,37(13):187-189. 被引量：2
8Tsoumakas G,Katakis I,Vlahavas I.Random k-labelsets for multilabel classification[J].Proceedings of the 18th European Conference on Machine Learning.Berlin,Heidelberg,2011,23(7):1079-1089. 被引量：1
9Yin X,Chen S,Hu E,et al.Semi-supervised clustering with metric learning:An adaptive kernel method[J].Pattern Recognition,2010,43(4):1320-1333. 被引量：1
10Deng Z,Choi K S,Chung F L,et al.EEW-SC:Enhanced EntropyWeighting Subspace Clustering for high dimensional gene expression data clustering analysis[J].Applied Soft Computing,2011,11(8):4798-4806. 被引量：1

二级参考文献69

1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
2李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
3袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
4宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
6Wiebe J, Wilson T, Bell M. Identifying collocations for recognizing opinions [C].// Proc ACL-01 Workshop on Collocation: Computational Extraction, analysis and Exploitation. Toulouse: ACL, 2001: 79-87. 被引量：1
7Riloff E, Wiebe J, Wilson T. Learning subjective nouns using extraction pattern bootstrapping[C]// Conf on Natural Language Learning. Edmonton: MIT, 2003: 25-32. 被引量：1
8Turney P, Littman M. Measuring praise and criticism: inference of semantic orientation from association[J]. ACM Transactions on Information Systems, 2003, 21(4) :315-346. 被引量：1
9Wilson T, Wiebe J, Hwa R. Just how mad are you finding strong and weak opinion clauses[C] // Proceedings of 21st Conference of the American Association for Artificial Intelligence (AAAI-04). Boston: AAAI, 2004: 761-767. 被引量：1
10Blei D, Jordan N A. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3. 993- 1 022. 被引量：1

共引文献27

1徐璐,周亚建.基于特征恢复的中文残缺文本分类研究[J].北京电子科技学院学报,2011,19(4):23-29.
2李南,郭躬德.面向高速数据流的集成分类器算法[J].计算机应用,2012,32(3):629-633. 被引量：4
3张爱科.基于改进的最大熵均值聚类方法在文本分类中的应用[J].计算机应用研究,2012,29(4):1297-1299. 被引量：4
4霍亮,杨柳,张俊芝.贝叶斯与k-近邻相结合的文本分类方法[J].河北大学学报（自然科学版）,2012,32(3):316-319. 被引量：1
5刘忠,刘洋,建晓.基于KD-Tree的KNN文本分类算法[J].网络安全技术与应用,2012(5):38-40. 被引量：3
6茅剑,刘晋明,曹勇.一种基于密度的改进KNN文本分类算法[J].漳州师范学院学报（自然科学版）,2012,25(2):45-48. 被引量：2
7张培颖,王雷全.基于语义距离的文本分类方法[J].计算机技术与发展,2013,23(1):128-130. 被引量：4
8钱强,庞林斌,高尚.一种基于改进型KNN算法的文本分类方法[J].江苏科技大学学报（自然科学版）,2013,27(4):381-385. 被引量：3
9易军凯,田立康.基于类别区分度的文本特征选择算法研究[J].北京化工大学学报（自然科学版）,2013,40(B12):72-75. 被引量：4
10苗海珍.基于RePast的汽车产业集聚的探析[J].福建电脑,2013,29(11):108-110. 被引量：1

同被引文献25

1曹高辉,焦玉英,成全.基于凝聚式层次聚类算法的标签聚类研究[J].现代图书情报技术,2008(4):23-28. 被引量：41
2易明,王学东,邓卫华.基于社会网络分析的社会化标签网络分析与个性化信息服务研究[J].中国图书馆学报,2010,36(2):107-114. 被引量：34
3苏芳荔,李江.链接分布机制评述——优先连接与均匀连接[J].情报杂志,2010,29(10):167-171. 被引量：5
4徐俊,王晓芳.网络环境下信息计量应用实证分析[J].微计算机信息,2010,26(30):102-104. 被引量：3
5查先进,吕彬.知识共享视角下的大众标注行为研究——基于标签的实证分析[J].图书馆论坛,2010,30(6):76-81. 被引量：17
6白凯,张春晖,郑荣娟,夏雪.跨文化群体游客的中国旅游目的地意象色彩认知[J].地理科学进展,2011,30(2):231-238. 被引量：26
7易明,毛进,邓卫华.基于社会化标签网络的细粒度用户兴趣建模[J].现代图书情报技术,2011(4):35-41. 被引量：19
8白凯,赵安周.城市意象与旅游目的地意象研究中的趋同与分野[J].地理科学进展,2011,30(10):1312-1320. 被引量：40
9蔡国永,林航,文益民.社会语义网社区发现标签传递算法研究[J].计算机科学,2013,40(2):53-57. 被引量：5
10易明,毛进,邓卫华,曹高辉.社会化标签系统中基于社会网络的知识推送网络演化研究[J].中国图书馆学报,2014,40(2):50-66. 被引量：11

引证文献4

1毕崇武,叶光辉,李明倩,曾杰妍.基于标签语义挖掘的城市画像感知研究[J].数据分析与知识发现,2019,3(12):41-51. 被引量：7
2叶光辉,胡婧岚,徐健,夏立新.社交博客标签增长态势与连接模式分析[J].数据分析与知识发现,2018,2(6):70-78. 被引量：2
3毕崇武,叶光辉,彭泽,李明倩.基于标签语义关联的城市社群发现研究[J].现代情报,2020,40(3):14-23. 被引量：2
4叶光辉,毕崇武.基于标签语义挖掘的城市画像研究评述[J].现代情报,2021,41(2):162-167. 被引量：2

二级引证文献13

1李阳.城市画像赋能城市治理——评《社会标注视域下的城市画像研究》[J].情报科学,2023,41(11):188-190.
2毕崇武,叶光辉,胡婧岚,李明倩.城市画像视角下的热点城市特征识别方法研究[J].现代情报,2020,40(4):13-22. 被引量：6
3叶光辉,毕崇武.知识交流视域下的跨地域科研协作发展态势及趋势分析[J].情报学报,2020,39(5):500-510. 被引量：7
4叶光辉,徐彤.基于演化分析的动态城市画像研究[J].数据分析与知识发现,2020,4(9):100-110. 被引量：2
5叶光辉,徐彤,毕崇武,李心悦.基于多维度特征与LDA模型的城市旅游画像演化分析[J].数据分析与知识发现,2020,4(11):121-130. 被引量：12
6叶光辉,郭诚,徐彤,王灿灿.城市画像视角下的政务社交媒体资源保存研究[J].情报科学,2022,40(2):11-17. 被引量：2
7刘学太,李阳,巴志超,李纲.数据驱动环境下数据画像若干问题探析[J].情报理论与实践,2022,45(4):87-94. 被引量：19
8任福兵,王朋.基于多源数据的高校画像构建与应用场景研究[J].高校图书馆工作,2022,42(2):34-40. 被引量：2
9叶光辉,彭泽,毕崇武,夏立新.“数字人文”领域科研协作知识交流中的学科交叉与地域交叉测度分析[J].情报学报,2022,41(5):512-524. 被引量：8
10臧国全,王家振,毕崇武,耿瑞利.政府数据中敏感数据识别与隐私计量研究[J].图书情报工作,2022,66(15):66-75. 被引量：10

1YANG Zhen,WANG Laitao,FAN Kefeng,LAI Yingxu.Exemplar-Based Clustering Analysis Optimized by Genetic Algorithm[J].Chinese Journal of Electronics,2013,22(4):735-740. 被引量：1
2刘犇,毛燕琴,沈苏彬.一种基于数据挖掘技术的入侵检测方法的设计[J].计算机技术与发展,2011,21(8):241-245. 被引量：4
3Huabin Yang Deyu Wang.FH Sequences Selected Based on Clustering Analysis[J].通讯和计算机（中英文版）,2010,7(8):58-61. 被引量：1
4LIU Bo,WANG Yong,WANG Hong-jian.Using genetic algorithm based fuzzy adaptive resonance theory for clustering analysis[J].哈尔滨工程大学学报,2006,27(B07):547-551. 被引量：3
5REACH的IUCLID5．0和5．1即将被5.2替代[J].日用电器,2010(2):1-1.
6HU Hui-rong, WANG Zhou-jing (Department of Automation, Xiamen University, Xiamen 361005, China).Two-level Hierarchical Clustering Analysis and Application[J].厦门大学学报（自然科学版）,2002,41(S1):283-284.
7Xue-Bing Gong,Ri-Xin Wang,Min-Qiang Xu.Early Sensor Fault Detection Based on PCA and Clustering Analysis[J].Journal of Harbin Institute of Technology(New Series),2014,21(6):113-120. 被引量：1
8叶世伟,史忠植.A Necessary Condition about the Optimum Partition on a Finite Set of Samples and Its Application to Clustering Analysis[J].Journal of Computer Science & Technology,1995,10(6):545-556.
9LU ZhiMao,ZHANG Qi.Clustering by data competition[J].Science China(Information Sciences),2013,56(1):61-73. 被引量：2
10DENG Min,LIU QiLiang,WANG JiaQiu,SHI Yan.A general method of spatio-temporal clustering analysis[J].Science China(Information Sciences),2013,56(10):158-171. 被引量：7

计算机应用与软件

2014年第8期

浏览历史

内容加载中请稍等...

一种子空间聚类算法在多标签文本分类中应用被引量：4

参考文献17

二级参考文献69

共引文献27

同被引文献25

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种子空间聚类算法在多标签文本分类中应用 被引量：4

参考文献17

二级参考文献69

共引文献27

同被引文献25

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种子空间聚类算法在多标签文本分类中应用被引量：4