基于LDA特征选择的文本聚类被引量：3

A Feature Selection Algorithm Based on LDA for Texts Clustering

下载PDF

导出

摘要特征选择在文本聚类中起着至关重要的作用,将产生式模型Latent Dirichlet Allocation(LDA)引入基于K-means算法的文本聚类中,通过提取特征与隐含主题的关系进行特征选择。在第2届中文倾向性分析评测的语料上的实验结果表明,当选择2%的特征时,相对于单词贡献度(TC,Term Contribution)方法的纯度和F值分别提高了0.15和0.16,相对于LDA直接得到文本与主题的关系的实验结果的纯度和F值分别提高了0.14和0.13。 Feature selection plays an important role in texts clustering.In this paper,we used Latent Dirichlet Allocation（LDA）,a production model,in K-means cluster algorithm,which select the features by extracting the relation between features and the implication topics.On the corpus of COAE2009,the experiments indicate that when we select two percent of the whole features,purity and F-measure are increased 0.15 and 0.16 compared with the TC feature select algorithm,0.14 and 0.13 compared with the clustering results of LDA,respectively.

作者张梦笑王素格王智强

机构地区山西大学数学科学学院山西大学计算机与信息技术学院山西大学计算智能与中文信息处理教育部重点实验室

出处《电脑开发与应用》 2012年第1期1-5,共5页 Computer Development & Applications

基金国家自然科学基金资助项目(60875040 60970014) 教育部高等学校博士点基金(200801080006) 山西省自然科学基金资助项目(2010011021-1) 山西省科技攻关项目(20110321027-02) 太原市科技局明星专项(09121001)

关键词文本聚类特征选择 LATENT DIRICHLET ALLOCATION text clustering feature selection latent dirichlet allocation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Kowalski G. Information Retrieval Systems : Theory and Implementation [ M ]. Kluwer Academic Publishers, 1997. 被引量：1
2Zamir O, Etzioni O, Madani O, et al. Fast and Intuitive Clustering of Web Documents [C]// Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, 1997: 287- 290. 被引量：1
3Zeng H, He Q,Chen Z, et al. Learning to Cluster Web Search Results [ C ] / / Proceedings of the 2 7 thAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2004, 210-217. 被引量：1
4Koller D, Sahami M. Hierarchically Classifying Documents Using Very Few Words[C]//ICML '97 Proceedings of the Fourteenth International Conference on Machine Learning, 1997:170-178. 被引量：1
5Charu C Aggarwal, Philip S Yu. Finding Generalized Projected Clusters in High Dimensional Spaces[R]. The SIGMOD' 00, Dallas, A2000. 被引量：1
6Yang Y, Pedersen I O. A Comparative Study on Feature Selection in Text Categorization[C]//Proc of International Conference on Machine Learning. San Francisco : Morgan Kaufmann Publishers, 1997 : 412- 420. 被引量：1
7Liu T, Liu S P. An Evaluation on Feature Selection for Text Clustering [C]//Proc of International Conference on Machine Learning. San Francisco, Morgan Kaufmann Publishers, 2003: 53-58. 被引量：1
8Wilbur J W, Sirotkin K. The Automatic Identification of Stop Words [J]. Journal of Information Science, 1992, 18(1), 45-55. 被引量：1
9王卫玲,刘培玉,刘克非.一种用于Web文本聚类的特征选择方法[J].计算机应用与软件,2007,24(1):154-156. 被引量：2
10刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37

二级参考文献7

1C. C. Aggrawal, P. S. Yu. Finding generalized projected clustersin high dimensional spaces. The SIGMOD'00, Dallas, 2000. 被引量：1
2M. Dash, H. Liu. Feature selection for clustering. The PAKDD-00, Kyoto, 2000. 被引量：1
3F. Sebastiani. Machine learning in automated text categorization.ACM Computin Surveys, 2002, 34(1): 1--47. 被引量：1
4Y. Yang, J. O. Pedersen. A comparative study on featureselection in text categorization. The ICML97, Nashville, 1997. 被引量：1
5M. Rogati, Y. Yang. High performance feature selection for text categorization. The CIKM-02, Mclean, 2002. 被引量：1
6L. Tao, L. Shengping, C. Zheng, et al.An evaluation on feature selection for text clustering. The ICML03, Washington,2003. 被引量：1
7陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126

共引文献36

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
5赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
6何中市,徐浙君.一种新型的文本无监督特征选择方法[J].重庆大学学报（自然科学版）,2007,30(6):77-79. 被引量：2
7殷钢,苗夺谦,段其国.一种新的粗糙Leader聚类算法[J].计算机科学,2009,36(5):203-205. 被引量：6
8王明文,付剑波,罗远胜,陆旭.基于协同聚类的两阶段文本聚类方法[J].模式识别与人工智能,2009,22(6):848-853. 被引量：5
9王雅菲,赵伟.一种基于相似融合的文本特征降维方法[J].长春工业大学学报,2009,30(6):651-656.
10王小芳,王瑞芳,张树功.一种无监督文本特征计算模型[J].吉林大学学报（理学版）,2010,48(1):79-84. 被引量：2

同被引文献31

1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
2马跃渊,徐勇勇.Gibbs抽样算法及软件设计的初步研究[J].计算机应用与软件,2005,22(2):124-126. 被引量：10
3连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
5Zamir O,Etzioni O,Madani O. Fast and Intuitive Clustering of Web Documents[A].1997.287-290. 被引量：1
6Kowalski G. Information Retrieval Systems:Theory and Im-plementation[M].Kluwer:Kluwer Academic Publishers,1997. 被引量：1
7Zeng H,He Q,Chen Z. Learning to Cluster Web Search Results[A].2004.210-217. 被引量：1
8Koller D,Sahami M. Hierarchically Classifying Documents Using Very Few Words[A].1997.170-178. 被引量：1
9Charu C. Aggarwal,Philip S Yu. Finding generalized pro-jected clusters in high dimensional spaces[A].Dallas,2000. 被引量：1
10Blei D M,Ng A Y,Jordan M I. Latent Dirichlet Allocation[J].{H}JOURNAL OF MACHINE LEARNING RESEARCH,2003,(03):993-1022. 被引量：1

引证文献3

1薛宾,王素格,张鹏,廖建.基于情感倾向特征的文本情感聚类[J].电脑开发与应用,2013,26(2):1-5. 被引量：1
2王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
3田亮,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于LDA的英汉维文本聚类系统的设计与实现[J].现代电子技术,2019,42(3):122-126. 被引量：2

二级引证文献24

1陶永才,何宗真,石磊,卫琳,曹仰杰.基于加权动态兴趣度的微博个性化推荐[J].计算机应用,2014,34(12):3491-3496. 被引量：12
2石博,何楚,卓桐,徐新.慕课教学中基于局部社区发现的主题交互模型[J].计算机应用研究,2015,32(6):1724-1727. 被引量：8
3张洋,凌婉阳.基于多源社会化媒体评论的竞争情报挖掘研究[J].情报理论与实践,2015,38(7):59-66. 被引量：15
4颜义人.基于特征加权与特征选择的数据挖掘算法研究[J].电子技术与软件工程,2015(15):211-211.
5关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,60(2):112-121. 被引量：52
6高永兵,陈超,熊振华,王宇,马占飞.基于个人微博特征的事件提取研究[J].计算机应用与软件,2016,33(7):47-51. 被引量：3
7张明微,吴海涛.一种优化初始聚类中心的k-means算法[J].上海师范大学学报（自然科学版）,2016,45(5):599-603. 被引量：2
8黄栋,徐博,许侃,林鸿飞,杨志豪.基于词向量和EMD距离的短文本聚类[J].山东大学学报（理学版）,2017,52(7):66-72. 被引量：11
9陈龙,徐建,于亚男,胡建洪.基于话题相似性改进的K-means新闻话题聚类[J].计算机与数字工程,2017,45(8):1560-1565. 被引量：7
10吉余岗,李依桐,石川.融合异质网络与主题模型的方面分预测[J].计算机应用,2017,37(11):3201-3206. 被引量：22

1张彩琴.评价对象抽取研究[J].太原师范学院学报（自然科学版）,2016,15(4):26-29.
2彭超.基于MapReduce模型的并行单词贡献度算法的设计与实现[J].软件,2012,33(12):118-121.
3吕靖,童若锋.一种综合的二阶段无监督特征选择方法[J].中国科技论文在线,2011,6(4):268-272.
4刁宇峰,杨亮,林鸿飞.基于LDA模型的博客垃圾评论发现[J].中文信息学报,2011,25(1):41-47. 被引量：23
5郑炅,石刚.基于用户间动态信任关系的推荐算法研究[J].计算机科学,2015,42(9):230-234. 被引量：1
6江帆,王贵锦,刘畅,林行刚.一种基于模型融合的行人跟踪算法[J].电视技术,2010,34(3):85-87. 被引量：6
7黄永明,章国宝,董飞,李悦.层叠式“产生/判别”混合模型的语音情感识别[J].声学学报,2013,38(2):231-240. 被引量：3
8邹晓辉,孙静.LDA主题模型[J].智能计算机与应用,2014,4(5):105-106. 被引量：17
9江雪莲,石洪波.产生式与判别式组合分类器学习算法[J].山东大学学报（理学版）,2010,45(7):7-12. 被引量：1
10赵振杰,方勇纯,张雪波.一种基于筛选机制的快速概率占据图目标定位算法[J].机器人,2016,38(1):17-26. 被引量：2

电脑开发与应用

2012年第1期

浏览历史

内容加载中请稍等...

基于LDA特征选择的文本聚类被引量：3

参考文献11

二级参考文献7

共引文献36

同被引文献31

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于LDA特征选择的文本聚类 被引量：3

参考文献11

二级参考文献7

共引文献36

同被引文献31

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于LDA特征选择的文本聚类被引量：3