基于R-Grams的文本聚类方法被引量：1

Novel text clustering approach based on R-Grams

下载PDF

导出

摘要针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法。该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类。实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右。随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势。此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单。 Focusing on the issue that the clustering accuracy rate and recall rate are difficult to balance in traditional text clustering algorithms, a clustering approach based on the R-Grams text similarity computing algorithm was proposed. Firstly, the clustered documents were sorted in descending order; secondly, the symbolic documents were identified and then initial clustering results were achieved by using an R-Grams-based similarity computing algorithm; finally, the final clustering results were completed by combining the initial clustering. The experimental results show that the proposed approach can flexibly regulate the clustering results by adjusting the clustering threshold parameter to satisfy different demands and the optimal parameter is about 15. With the increasing of the clustering threshold, the clustering accuracies increase, and the recalls increase at first, then decrease. In addition, the approach is free from time-consuming processing procedures such as word segmentation and feature extraction and can be easily implemented.

作者王贤明谷琼胡智文

机构地区温州大学瓯江学院温州信息化研究中心湖北文理学院数学与计算机科学学院西南大学逻辑与智能研究中心浙江传媒学院新媒体学院

出处《计算机应用》 CSCD 北大核心 2015年第11期3130-3134,共5页 journal of Computer Applications

基金浙江省自然科学基金资助项目(LY13F010005) 教育部人文社会科学研究项目(15YJAZH015) 湖北省科技支撑计划软科学项目(2015BDH109) 温州市科技计划项目(R20130021)

关键词文本聚类随机 R-Grams text clustering random R-Grams

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献23

1MACQUEEN J B. Some methods for classification and analysis of multivariate observations[C]// Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967:281-297. 被引量：1
2ZHANG T, RAMAKRISHNAN R, LIVNY M. BIRCH: an efficient data clustering method for very large databases[J]. Data Mining and Knowledge Discovery, 1997,1(2):141-182. 被引量：1
3ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]// Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Menlo Park: AAAI Press,1996:226-231. 被引量：1
4ANKERST M, BREUNIG M, KRIEGEL H P, et al. OPTICS: ordering points to identify the clustering structure[C]// Proceedings of the ACM SIGMOD 1999 International Conference on Management of Data. New York: ACM, 1999: 49-60. 被引量：1
5曾依灵,许洪波,白硕.改进的OPTICS算法及其在文本聚类中的应用[J].中文信息学报,2008,22(1):51-55. 被引量：29
6HYOTYNIEMI H. Text document classification with self-organizing maps[C]// Proceedings of Finnish Artificial Intelligence Conference Genes, Nets and Symbols. Vaasa: the Finnish Artificial Intelligence Society and University of Vaasa, 1996:64-72. 被引量：1
7LIU Y, WU C, LIU M. Research of fast SOM clustering for text information[J]. Knowledge-Based Systems,2011,38(8): 9325-9333. 被引量：1
8何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
9JAMAL A N, IRAKLIS V, ASIM K, et al. Semantic smoothing for text clustering[J]. Knowledge-Based Systems,2013,54(4): 216-229. 被引量：1
10彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44

二级参考文献98

1YANGJian-wu.A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[J].Wuhan University Journal of Natural Sciences,2004,9(5):817-822. 被引量：4
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
4陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
5郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
6赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
7毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
8刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
9罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机研究与发展,2006,43(7):1173-1179. 被引量：76
10孟海东,张玉英.基于密度和对象方向聚类算法的改进[J].计算机工程与应用,2006,42(20):154-156. 被引量：14

共引文献120

1牛华勇,窦一轩,夏晓雪.国内外财经文本分析研究综述[J].语料库语言学,2022,9(2):81-95.
2高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
3戴维迪,王文俊,侯越先,王英,张璐.Document Clustering Based on Constructing Density Tree[J].Transactions of Tianjin University,2008,14(1):21-26.
4梁欢.网格中基于结构分类和位矩阵编码并行遗传算法的蛋白质二级结构预测[J].科学技术与工程,2008,8(5):1141-1145. 被引量：2
5吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
6胡金柱,俞小娟,李琼,周毕吉.基于规则库和聚类分析的复句短语字段的自动识别研究[J].华中师范大学学报（自然科学版）,2008,42(2):190-194. 被引量：9
7康健辉,吴渝,郑继明.基于向量空间模型的改进音频分类算法[J].河南师范大学学报（自然科学版）,2008,36(6):30-33.
8王伟.文本自动聚类技术研究[J].情报杂志,2009,28(2):94-97. 被引量：6
9李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009,30(8):1966-1968. 被引量：9
10唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010,36(7):79-81. 被引量：14

同被引文献23

1王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：9
2刘颖莹,刘培玉,王智昊,李情情,朱振方.一种基于密度峰值发现的文本聚类算法[J].山东大学学报（理学版）,2016,51(1):65-70. 被引量：10
3祖坤琳,赵铭伟,林鸿飞.基于有序聚类的专利知识演化研究[J].计算机工程与科学,2016,38(4):785-791. 被引量：6
4夏火松,李保国,杨培.基于改进K-means聚类的在线新闻评论主题抽取[J].情报学报,2016,35(1):55-65. 被引量：15
5陈笑蓉,刘作国.文本聚类的重构策略研究[J].中文信息学报,2016,30(2):189-195. 被引量：5
6黄贤英,谢晋,龙姝言.基于公共词块及N-gram模型的问句相似度算法[J].重庆理工大学学报（自然科学）,2017,31(10):175-179. 被引量：7
7李超,刘辉.一种基于关联分析与N-Gram的错误参数检测方法[J].软件学报,2018,29(8):2243-2257. 被引量：8
8徐小龙,杨春春.一种基于主题聚类的多文本自动摘要算法[J].南京邮电大学学报（自然科学版）,2018,38(5):70-78. 被引量：7
9贺超波,汤庸,张琼,刘双印,刘海.基于增量式鲁棒非负矩阵分解的短文本在线聚类[J].电子学报,2019,47(5):1086-1093. 被引量：6
10谭章禄,彭胜男,王兆刚.基于聚类分析的国内文本挖掘热点与趋势研究[J].情报学报,2019,38(6):578-585. 被引量：33

引证文献1

1王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2

二级引证文献2

1沈东义,姬银秀,毛火明,郭林,袁秋霞.基于Word2vec和K-Means算法的勘探开发成果文档聚类研究[J].湖北大学学报（自然科学版）,2023,45(1):113-119.
2韦芬.基于并行计算的网络舆情数据分析方法研究[J].电子设计工程,2024,32(2):31-35.

1李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：35
2袁晓峰.一种基于HNC理论的文本相似度算法[J].计算机时代,2014(11):40-41.
3刘茗.一种基于数据挖掘的入侵检测方法研究与实现[J].淮海工学院学报（自然科学版）,2010,19(3):16-20.
4关心,王新.基于数据挖掘的入侵检测系统研究[J].信息技术,2007,31(10):100-103. 被引量：2
5关心,王新.基于k-means改进算法的入侵检测系统的研究[J].计算机系统应用,2007,16(9):82-84. 被引量：2
6丁振国,孟星.基于K-center和信息增益的Web搜索结果聚类方法[J].计算机应用研究,2008,25(10):3125-3127. 被引量：1
7贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
8黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7
9朱杰,李宁,高相辉.基于间隔聚类合并的支持向量机反问题求解算法[J].计算机应用,2009,29(9):2481-2482. 被引量：1
10郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2

计算机应用

2015年第11期

浏览历史

内容加载中请稍等...

基于R-Grams的文本聚类方法被引量：1

参考文献23

二级参考文献98

共引文献120

同被引文献23

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于R-Grams的文本聚类方法 被引量：1

参考文献23

二级参考文献98

共引文献120

同被引文献23

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于R-Grams的文本聚类方法被引量：1