一种实用高效的聚类算法被引量：26

An Applicable and Efficient Clustering Algorithm

下载PDF

导出

摘要在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能. In the research on IR (information retrieval), lots of clustering algorithms have been developed, and in most of them some parameters should be determined by hand. However, it is very difficult to determine them manually without any prior domain knowledge. To solve this problem, an applicable and efficient clustering algorithm is presented. It aims at avoiding any parameter to be determined by hand, and at the same time, improving the efficiency of clustering and the property of IR. The new clustering algorithm is analyzed on several facets and applied later to cluster Chinese documents. The results of the application confirm that the new clustering algorithm is very applicable and efficient.

作者王建会申展胡运发

机构地区复旦大学计算机与信息技术系

出处《软件学报》 EI CSCD 北大核心 2004年第5期697-705,共9页 Journal of Software

基金国家自然科学基金60173027~~

关键词信息处理聚类子空间模式识别 IR (information retrieval) clustering subspace pattern recognition

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1宋擒豹,沈钧毅.基于关联规则的Web文档聚类算法[J].软件学报,2002,13(3):417-423. 被引量：41
2钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86

二级参考文献43

1[1]Broder,A.Z.,Glassman,S.C.,Manasse,M.S.Syntactic clustering of the Web.Technical Report,1997-015,Palo Alto,CA:Digital Systems Research Center (Digital),1997. 被引量：1
2[2]Chang,C.H.,Hsu,C.C.Customizable multi-engine search tool with clustering.Computer Network and ISDN Systems,1997,29(8-13):1217~1224. 被引量：1
3[3]Chen,L.,Katya,S.Webmate:a personal agent browsing and searching.In:Sycara,K.P.,Wooldridge,M.,eds.Proceedings of the 2nd International Conference on Autonomous Agents.New York:ACM Press,1998.132~139. 被引量：1
4[4]Ron,W.,Bienvenido,V.,Mark,A.S.,et al.Hypursuit:a hierarchical network search engine that exploits content-link hypertext clustering.In:ACM,ed.Proceedings of the 7th ACM Conference on Hypertext.New York:ACM Press,1996.180~193. 被引量：1
5[5]Ackerman,M.,Billsus,D.,Gaffney,S.,et al.Learning probabilistic user profiles.AI Magazine,1997,18(2):47~56. 被引量：1
6[6]Cheeseman,P.,Stutz,J.Bayesian classification (autoclass):theory and results.In:Fayyad,U.M.,Piatetsky-Shapiro,G.,Smyth,P.,et al.,eds.Advances in Knowledge Discovery and Data Mining.Menlo Park,CA:AAAI/MIT Press,1996.153~180. 被引量：1
7[7]Agrawal,R.,Srikant,R.Fast algorithm for mining association rules.In:Jorge,B.B,Matthias,J.,Carlo,Z.,eds.Proceedings of the 20th International Conference on Very Large Databases.Santiago:Morgan Kaufmann Publishers,Inc.,1994.487~499. 被引量：1
8[1]Fasulo, D. An analysis of recent work on clustering algorithms. Technical Report, Department of Computer Science and Engineering, University of Washington, 1999. http://www.cs.washington.edu. 被引量：1
9[2]Baraldi, A., Blonda, P. A survey of fuzzy clustering algorithms for pattern recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 1999,29:786～801. 被引量：1
10[3]Keim, D.A., Hinneburg, A. Clustering techniques for large data sets - from the past to the future. Tutorial Notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining. San Diego, CA, ACM, 1999. 141～181. 被引量：1

共引文献124

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3李华,贾雪.基于FM度量的自适应K-Means聚类的工业生产运行基准挖掘[J].长春大学学报,2022,32(4):22-27.
4Qi Zhang,Jianshe Cao,Yanfeng Sui.Development of a research platform for BEPCⅡ accelerator fault diagnosis[J].Radiation Detection Technology and Methods,2020,4(3):269-276.
5郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
6张培颖.基于模糊隶属度的个性化网页推荐系统[J].计算机系统应用,2008,17(11):11-13.
7邢东山,沈钧毅,宋擒豹.集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移挖掘算法[J].小型微型计算机系统,2004,25(7):1170-1173. 被引量：5
8朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
9张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
10杨涛,李龙澍.一种基于粗糙集聚类的数据约简算法[J].系统仿真学报,2004,16(10):2195-2197. 被引量：5

同被引文献304

1业宁,李威,梁作鹏,董逸生.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367. 被引量：20
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：47
3李春旺,李广建.数字图书馆集成检索技术研究[J].图书馆理论与实践,2004(6):45-48. 被引量：18
4杨宇音,赵雅明,曲立敏.因子分析法在大学生综合排名中的应用[J].贵州工业大学学报（自然科学版）,2005,34(1):9-13. 被引量：21
5张红云,石阳,马垣.数据挖掘中聚类算法比较研究[J].鞍山钢铁学院学报,2001,24(5):364-367. 被引量：12
6万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
7冯永,吴开贵,熊忠阳,吴中福.一种有效的并行高维聚类算法[J].计算机科学,2005,32(3):216-218. 被引量：6
8刘泉凤,陆蓓.数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58. 被引量：9
9叶吉祥,谭冠政,路秋静.基于核的非凸数据模糊K-均值聚类研究[J].计算机工程与设计,2005,26(7):1784-1785. 被引量：7
10李春旺.Web信息整合机制研究[J].图书情报工作,2005,49(10):15-19. 被引量：6

引证文献26

1郑晓鸣,吕士颖,王晓东.一种基于随机抽取的有限深度层次聚类[J].郑州大学学报（理学版）,2007,39(3):80-83.
2李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
3董献洲,司光亚,胡晓峰,吴琳.战略模拟情报分析与信息可视化服务研究[J].系统仿真学报,2005,17(11):2815-2817. 被引量：4
4段敏,张锡恩.基于仿真的通用模拟电路故障知识获取平台[J].计算机工程与设计,2006,27(1):129-131. 被引量：14
5段敏,张锡恩.基于仿真的模拟电路故障知识获取新方法[J].系统仿真学报,2006,18(3):802-804. 被引量：7
6邹加棋,陈国龙,郭文忠.基于图模型的中文文档分类研究[J].小型微型计算机系统,2006,27(4):754-757. 被引量：3
7倪永州,田跃.一种快速模板匹配的波形识别算法[J].传感器世界,2006,12(4):32-34. 被引量：8
8胡爱钦,文益民,陈方.一种等分割聚类算法的改进[J].计算技术与自动化,2006,25(2):75-77.
9蔡江辉,张继福,赵旭俊.二阶段模糊聚类方法研究[J].哈尔滨工程大学学报,2006,27(B07):552-557.
10林恩爱,许宏丽.改进CLIMB聚类算法在图象数据库中的应用研究[J].计算机与数字工程,2006,34(10):154-156.

二级引证文献108

1贾丽,乔权根.社区发现算法在超市货架布局中的应用[J].经济统计学（季刊）,2018(1):193-205.
2董献洲,胡晓峰,司光亚.信息可视化技术在情报分析中的应用研究[J].计算机工程与应用,2006,42(34):175-177. 被引量：14
3貌学良.基于分割视窗技术的故障信息挖掘研究[J].计算机工程与设计,2007,28(9):2236-2238.
4李志华,沈祖诒.RFDI软件架构设计及状态分析构件实现[J].计算机工程与设计,2007,28(10):2276-2279. 被引量：1
5董献洲,胡晓峰.无尺度网络在互联网新闻分析中的应用研究[J].系统仿真学报,2007,19(16):3664-3666. 被引量：9
6王晓原,杨新月.基于决策树的驾驶行为决策机制研究[J].系统仿真学报,2008,20(2):415-419. 被引量：19
7李志华,沈祖诒.基于脚本语言的雷达故障诊断通用平台设计[J].计算机工程与设计,2008,29(4):1021-1024. 被引量：3
8张颖瑶,耿英三,邓永庆,张国钢.继电控制线路的功能仿真系统[J].低压电器,2008(3):1-4. 被引量：1
9李枫林,贺娜.基于信息过滤的Web信息查询优化[J].情报理论与实践,2008,31(2):289-291. 被引量：2
10张颖瑶,耿英三,张国钢,邓永庆.基于逻辑功能仿真的继电控制线路的竞争和冒险的检测方法[J].电工电能新技术,2008,27(2):77-80. 被引量：3

1朱亚进.浅谈组建实用高效的局域网[J].管理观察,2009(31):19-20.
2Hunt.,BR,陈明宝.数字图象处理中的数学分析[J].科技译丛（重庆）,1994(1):108-117.
3Achar.,B,陈明宝.数字图象处理中的数学分析（第二部分）[J].科技译丛（重庆）,1995(1):95-110.
4李鸣.移动数据库的技术分析和应用介绍[J].科技创业月刊,2002(10):73-75. 被引量：2
5孟祥宏.无线网络在高校校园网中的应用[J].呼伦贝尔学院学报,2004,12(4):38-41. 被引量：1
6谢军.工控组态软件的功能分析和应用[J].交通与计算机,2000,18(3):46-48. 被引量：15
7胡晓文.XML技术在数据库领域的优势、模型分析和应用模式[J].计算机光盘软件与应用,2011(24):31-31.
8张忠将.文本计算器——化繁为简的运算利器[J].软件指南,2007(12):25-25.
9王巍.几种常用排序算法的比较[J].福建电脑,2016,32(8):95-95. 被引量：3
10沈林.Windows CE6.0的新特性分析和应用前景[J].赤峰学院学报（自然科学版）,2010,26(6):46-48. 被引量：1

软件学报

2004年第5期

浏览历史

内容加载中请稍等...

一种实用高效的聚类算法被引量：26

参考文献2

二级参考文献43

共引文献124

同被引文献304

引证文献26

二级引证文献108

相关作者

相关机构

相关主题

浏览历史

一种实用高效的聚类算法 被引量：26

参考文献2

二级参考文献43

共引文献124

同被引文献304

引证文献26

二级引证文献108

相关作者

相关机构

相关主题

浏览历史

一种实用高效的聚类算法被引量：26