一种改进的基于潜在语义索引的文本聚类算法被引量：3

An Improved Text Clustering Algorithm Based on Latent Semantic Indexing

下载PDF

导出

摘要提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。 This paper presents an improved text clustering algorithm based on latent semantic indexing .This algorithm introduces the theory of latent semantic index , improves the traditional SOM algorithm .By using the latent semantic indexing text feature vector representation theory , we mine the semantic structure relationships hidden among the words in text , thereby eliminating the correlation among words , to reduce the feature vector dimension .The limitations of the traditional SOM algorithm are improved to accurately give the number of clustering classes .Experimental results show that the clustering effect of this algorithm is better , and the clustering time is less .

作者侯泽民巨筱

机构地区郑州科技学院信息工程学院

出处《计算机与现代化》 2014年第7期24-27,共4页 Computer and Modernization

基金郑州市科技局自然科学基金资助项目(201210439)

关键词文本聚类潜在语义索引自组织映射 text clustering latent semantic index self-organizing maps

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献17

1王礼礼..基于潜在语义索引的文本聚类算法研究[D].西南交通大学,2008:
2罗克刚..基于自组织映射的文本聚类研究[D].哈尔滨工业大学,2007:
3郭武斌,周宽久,张世荣.基于潜在语义索引的SVM文本分类模型[J].情报学报,2009,28(6):827-833. 被引量：3
4廖一星.一种新的监督潜在语义模型[J].计算机工程与应用,2009,45(33):117-119. 被引量：1
5常利伟..基于多系统融合的潜在语义分析技术研究[D].沈阳航空航天大学,2013:
6吴志媛..基于潜在语义索引的Web文本挖掘[D].江南大学,2013:
7刘远超..基于动态自组织映射模型的文本聚类研究[D].哈尔滨工业大学,2006:
8刘旭政,张春荣,陈水生.基于模糊神经网络的拉索耐久性评价模型[J].华东交通大学学报,2010,27(2):8-12. 被引量：5
9刘云峰..基于潜在语义分析的中文概念检索研究[D].华中科技大学,2005:
10Alahakoon D, Halgamuge S K, Srinivasan B.Dynamic self-organizing maps with controlled growth for knowledge discovery[J].IEEE Transactions on Neural Networks, 2000,11(3):601-614. 被引量：1

二级参考文献65

1刘旭政,黄平明,张永健.基于模糊神经网络的大跨悬索桥安全评估研究[J].郑州大学学报（工学版）,2007,28(3):48-51. 被引量：11
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3刘沐宇,袁卫国.基于模糊神经网络的大跨度钢管混凝土拱桥安全性评价方法研究[J].中国公路学报,2004,17(4):55-58. 被引量：32
4郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：388
6卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
7Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 . 被引量：1
8Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988. 被引量：1
9Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973. 被引量：1
10King B. Step-wise clustering procedures. Journal of the Amercian Statistical Association , 1967, 69(8) :86-101. 被引量：1

共引文献31

1杨占华,杨燕.SOM神经网络算法的研究与进展[J].计算机工程,2006,32(16):201-202. 被引量：78
2孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
3王佩佩,宋晓峰,杨平.竞争层结构可调SOM网络在中药模式识别中的应用[J].数据采集与处理,2007,22(4):479-485. 被引量：1
4吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75. 被引量：13
5刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
6岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：8
7李树青.CtoC电子商务站点中的Web个性化推荐技术[J].图书情报工作,2009,53(8):134-137. 被引量：2
8郑军,王巍,杨武,杨永田.基于类间距离参数估计的文本聚类评价方法[J].计算机工程,2009,35(9):37-39. 被引量：6
9刘铭,王晓龙,刘远超.基于语义的高维数据聚类技术[J].电子学报,2009,37(5):925-929. 被引量：6
10刘铭,王晓龙,刘远超.一种大规模高维数据快速聚类算法[J].自动化学报,2009,35(7):859-866. 被引量：18

同被引文献12

1龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
2杨陟卓,黄河燕.基于词语距离的网络图词义消歧[J].软件学报,2012,23(4):776-785. 被引量：22
3皋军,孙长银,王士同.具有模糊聚类功能的双向二维无监督特征提取方法[J].自动化学报,2012,38(4):549-562. 被引量：13
4李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
5江雪,孙乐.用户查询意图切分的研究[J].计算机学报,2013,36(3):664-670. 被引量：11
6王友卫,刘元宁,凤丽洲,朱晓冬.基于用户兴趣度的垃圾邮件在线识别新方法[J].华南理工大学学报（自然科学版）,2014,42(7):21-27. 被引量：4
7安计勇,高贵阁,史志强,孙磊.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133. 被引量：19
8王朝霞,姜军,高红梅,陈德利,罗龙兵.网络舆情“蝴蝶效应”的预警机制研究--以群体性突发事件为例[J].新闻界,2015(16):59-64. 被引量：11
9黄学沛,张燕,项炬,张佳峰,汤岚钦.基于云架构的自适应聚类图像识别技术的研究与实现[J].电脑与电信,2016(5):30-32. 被引量：2
10陈科文,张祖平,龙军.文本分类中基于熵的词权重计算方法研究[J].计算机科学与探索,2016,10(9):1299-1309. 被引量：11

引证文献3

1徐勇.基于聚类算法的内容识别研究[J].电脑与电信,2016(11):39-41. 被引量：1
2王朝霞,姜军,冯炎.Web舆情信息数据分析模型研究及系统设计[J].电脑知识与技术,2018,14(1X):22-24. 被引量：1
3白凤波,常林,王世凡,李彬,王颖洁,周红,刘耀.裁判文书关键词提取的改进方法研究[J].计算机工程与应用,2020,56(23):153-160. 被引量：4

二级引证文献6

1陈双全.基于聚类算法的视频内容识别研究[J].电脑与电信,2017(11):44-46.
2王朝霞,姜军.基于群体性突发事件的网络舆情信息采集技术研究[J].高原科学研究,2019,3(1):109-113. 被引量：2
3景丽,何婷婷.基于改进TF-IDF和ABLCNN的中文文本分类模型[J].计算机科学,2021,48(S02):170-175. 被引量：26
4利润霖,龙昌敏,李雯芸,胡广林,强玉龙,刘彦君.基于TextRank算法的项目标签智能化生成技术研究[J].信息技术,2022,46(8):77-82. 被引量：3
5刘国柱,张津烽,王华东.改进TF-IDF算法在电商仿真实训平台中的应用[J].计算机仿真,2023,40(7):273-277. 被引量：2
6周宪溪,牟莉.基于改进TF-IDF和AGLCNN的新闻长文本分类模型[J].计算机与现代化,2024(8):120-126.

1刘健.潜在语义索引理论及其应用[J].卷宗,2015,5(1):111-112.
2马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
3杨欢.文本情感分类预处理研究[J].电子技术与软件工程,2016(10):187-187. 被引量：1
4张银明,黄廷磊,林科,张嫱嫱.一种改进的k均值文本聚类算法[J].桂林电子科技大学学报,2016,36(4):311-314. 被引量：5
5韩文智.计算机文本信息挖掘技术在网络安全中的应用[J].华侨大学学报（自然科学版）,2016,37(1):67-70. 被引量：6
6魏保子,王儒敬.隐含语义索引在农业技术问答系统中的应用[J].微电子学与计算机,2008,25(7):48-51. 被引量：1
7刘应.挖掘文本、整合资源,将读写结合进行到底[J].贵州教育,2014(1):36-37.
8邱志宇,安艳辉.基于文本聚类的LSI文本分类模型[J].河北师范大学学报（自然科学版）,2012,36(1):24-26. 被引量：1
9王春红.基于语义的中文信息检索技术分析与研究[J].现代计算机,2008,14(10):54-56.
10路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(7):76-81. 被引量：6

计算机与现代化

2014年第7期

浏览历史

内容加载中请稍等...

一种改进的基于潜在语义索引的文本聚类算法被引量：3

参考文献17

二级参考文献65

共引文献31

同被引文献12

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种改进的基于潜在语义索引的文本聚类算法 被引量：3

参考文献17

二级参考文献65

共引文献31

同被引文献12

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种改进的基于潜在语义索引的文本聚类算法被引量：3