一种有效的用于数据挖掘的动态概念聚类算法被引量：16

An Efficient Dynamic Conceptual Clustering Algorithm for Data Mining

下载PDF

导出

摘要概念聚类适用于领域知识不完整或领域知识缺乏时的数据挖掘任务 .定义了一种基于语义的距离判定函数 ,结合领域知识对连续属性值进行概念化处理 ,对于用分类属性和数值属性混合描述数据对象的情况 ,提出了一种动态概念聚类算法 DDCA(domain- based dynamic clustering algorithm) .该算法能够自动确定聚类数目 ,依据聚类内部属性值的频繁程度修正聚类中心 ,通过概念归纳处理 ,用概念合取表达式解释聚类输出 .研究表明 ,基于语义距离判定函数和基于领域知识的动态概念聚类的算法 DDCA是有效的 . Conceptual clustering analysis is suitable to discover the knowledge in database with incomplete or absent domain background information. It is difficult for original conceptual clustering method to deal with the data objects described by numerical attribute values. A new criterion function based on semantic distance is proposed in this paper, and a novel domain based dynamic conceptual clustering algorithm (DDCA) is also presented. With the discretization of the continuous attribute values, it works well on the datasets that are described by mixed numerical attributes and categorical attributes. The algorithm automatically determines the number of clusters, modifies the demoid according to the frequency of the attribute values within each cluster and gives out the interpretations of the clustering with the conceptual complex expression. The experiments demonstrate that the semantic based criterion function and the dynamic conceptual clustering algorithm are effective and efficient.

作者郭建生赵奕施鹏飞

机构地区上海交通大学图像处理与模式识别研究所

出处《软件学报》 EI CSCD 北大核心 2001年第4期582-591,共10页 Journal of Software

基金国家自然科学基金资助项目! (6 9835 0 10 )&&

关键词数据挖掘领域知识动态概念聚类算法数据对象数据集合数据库 data mining dynamic conceptual clustering semantic distance domain knowledge

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1程继华,郭建生,施鹏飞.挖掘所关注规则的多策略方法研究[J].计算机学报,2000,23(1):47-51. 被引量：22
2Huang Z，Proc the 1st Pacific Asia Conference on Knowledge Discovery and Data Mining，1997年，21页被引量：1
3Li C，Proc the 1st Pacific Asia Conference on Knowledge Discovery and Data Mining，1997年，35页被引量：1
4Yan W，Proc 21st Int Conf Very Large Data Bases，1995年，345页被引量：1
5Ng R，Proc the 20th Int Conference of Very Large Data Bases，1994年，144页被引量：1

二级参考文献7

11，Agrawal R, Mannila H, Srikant R et al. Fast discovery of association rules. In: Fayyad M, Piatetsky-Shapiro G, Smyth P eds. Advances in Knowledge Discovery and Data Mining. Menlo Park, California: AAAI/MIT Press, 1996. 307-328 被引量：1
22，Brin S, Motwani R, Ullman J D et al. Dynamic itemset counting and implication rules for market basket data. In: Proc the ACM SIGMOD International Conference on Management of Data, Tucson, Arizon, 1997. 255-264 被引量：1
33，Fayyad U M, Piatesky-shapiro G, Smyth P P. From data mining to knowledge discovery: an overview. In: Fayyad M, Piatetsky-Shapiro G, Smyth P eds. Advances in Knowledge Discovery and Data Mining. California:AAAI Press, 1996. 1-36 被引量：1
44，Piatesket-Shapiro G. Discovery, analysis, and presentation of strong rules. In: Piatesky-Shapiro G, Frawley W J eds. Advances in Knowledge Discovery and Data Mining. Menlo Park, California:AAAI/MIT Press, 1991. 229-238 被引量：1
55，Silberschatz A, Stonebraker M, Ullman J. What makes patterns interesting in knowledge discovery sysstems. IEEE Trans on Knowledge and Data Engineering, 1996, 8(6):970-974 被引量：1
66，Symth P, Goodman R M. An information theoretic approach to rule induction from databases. IEEE Trans on Knowledge and Data Engineering, 1992, 4(4):301-316 被引量：1
77，Toivonen H, Klemettinen M, Ronkainen P et al. Pruning and grouping discovered association rules. In: Mlnet Workshop on Statistics, Machine Learning, and Discovery in Database, Gete, Greece, 1995. 47-52 被引量：1

共引文献21

1马峻,曾建潮.一种基于Rough理论的知识推理冲突消解策略[J].数学的实践与认识,2007,37(8):66-72. 被引量：1
2田力威,尹朝万.虚拟企业专业搜索引擎中个性化用户系统设计与实现[J].小型微型计算机系统,2004,25(6):1064-1067.
3吴良杰,刘红祥,况振东.基于确信因子的有效关联规则挖掘[J].计算机工程与应用,2004,40(32):187-189. 被引量：1
4马峻,吉晓民.利用粗糙集理论实现工艺决策的冲突消解[J].计算机辅助设计与图形学学报,2005,17(3):600-604. 被引量：5
5张煜,傅家祥.列联表规整化对关联规则挖掘算法的改进[J].贵州工业大学学报（自然科学版）,2005,34(3):67-71.
6李湘军,黄燕.基于约束的关联挖掘在教学信息中的应用研究[J].科技广场,2005(6):34-38.
7张师超,倪艾玲.含缺省属性值的数据中的规则发现算法[J].计算机科学,2005,32(10):132-134. 被引量：1
8琚春华,殷贤君.基于兴趣度的数据流频繁模式散列挖掘算法[J].系统工程理论与实践,2012,32(12):2764-2773. 被引量：4
9张梅峰,张尧,张建伟,张素智.挖掘有效相联规则的算法探讨[J].郑州轻工业学院学报,2001,16(1):32-34. 被引量：1
10夏幼明,夏幼安,徐天伟,赵景秀.基于非单调推理的领域专家知识库的研究[J].计算机科学,2001,28(9):106-108. 被引量：2

同被引文献163

1王海,王忠民.一种基于密度和网格的聚类算法在KDD中的应用[J].计算机工程与应用,2004,40(24):180-182. 被引量：3
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
3沈红斌,王士同,吴小俊.离群模糊核聚类算法[J].软件学报,2004,15(7):1021-1029. 被引量：37
4周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
5张文修,魏玲,祁建军.概念格的属性约简理论与方法[J].中国科学（E辑）,2005,35(6):628-639. 被引量：194
6白硕.不完全知识下的概念聚类[J].计算机学报,1995,18(6):409-416. 被引量：6
7李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1231
8高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
9王兆红.基于梯形云的数量型关联规则挖掘方法[J].信息技术与信息化,2005(6):98-100. 被引量：2
10范世青,张文修.模糊概念格与模糊推理[J].模糊系统与数学,2006,20(1):11-17. 被引量：12

引证文献16

1罗三定,肖飞.不规则类圆形团块目标图像识别的新方法[J].中南大学学报（自然科学版）,2004,35(4):632-637. 被引量：22
2周霆,张伟,邹汉斌.基因表达数据聚类中模糊核算法的改进[J].江南大学学报（自然科学版）,2006,5(2):162-165.
3刘波,潘久辉.基于群体智能的增量数据挖掘方法研究[J].计算机工程与设计,2006,27(11):1939-1942. 被引量：2
4白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量：15
5秦昆,李振宇,杜鹢.基于概念分析的空间数据挖掘研究进展[J].地球信息科学,2009,11(1):10-17. 被引量：8
6翁亚萍.数据挖掘技术在煤炭系统体育比赛中应用研究[J].煤炭技术,2011,30(4):254-256. 被引量：2
7李清峰,彭文峰.A new clustering algorithm for large datasets[J].Journal of Central South University,2011,18(3):823-829. 被引量：1
8赵婷婷,徐甸,张爱华,李广德.GIS技术支持下电大学生考试成绩的空间格局演化[J].中国远程教育,2012(5):37-41. 被引量：1
9杨修涛.一种在聚类方法中处理符号属性的简易算法[J].山东科技大学学报（自然科学版）,2002,21(2):29-30.
10李希勇,张义良.基于模糊神经网络的故障检测算法[J].微电子学与计算机,2015,32(9):49-53. 被引量：1

二级引证文献98

1陆杨.浅析数据挖掘技术及应用[J].电脑知识与技术（过刊）,2007(14):511-512. 被引量：2
2李赟.数据挖掘中关联规则和决策树的应用[J].科技信息,2008(24):399-400.
3陈世浩,宋东,徐烽涛.基于预测的计算网格负载平衡研究[J].航空计算技术,2006,36(2):82-85. 被引量：1
4刘晓庆.浅析数据挖掘的研究现状及其应用[J].电脑知识与技术,2006(9):23-24. 被引量：5
5张育胜,付永领,姜志国,李文哲.棒材自动计数系统[J].钢铁研究学报,2006,18(9):1-4. 被引量：2
6刘书暖,张振明,田锡天,曹小波,黄利江.基于聚类分析法的典型工艺路线发现方法[J].计算机集成制造系统,2006,12(7):996-1001. 被引量：25
7倪超,李奇,夏良正.粘连棒材图像自动分割计数技术[J].数据采集与处理,2007,22(1):72-77. 被引量：4
8薛祥,孙宏伟,沈滨,于玮,张权益.岩土工程中的数据挖掘和知识发现探讨[J].工程勘察,2007,35(10):11-16. 被引量：5
9罗三定,胡樱.基于样本分析的图像识别分类模型[J].计算机应用研究,2007,24(11):309-311. 被引量：2
10罗三定,杨芳.流水线多目标跟踪的点匹配投票校正算法[J].中南大学学报（自然科学版）,2007,38(3):528-532. 被引量：1

1秦玉平,邱凤凤,冷强奎.组合凸线器和Hadamard纠错码相结合的多类文本分类算法[J].渤海大学学报（自然科学版）,2017,38(1):71-75. 被引量：1
2高倩,戴月明.用于文本聚类的模糊谱聚类算法[J].计算机工程与应用,2010,46(13):142-144. 被引量：2
3王玉雷,李玲娟.一种密度和划分结合的聚类算法[J].计算机技术与发展,2015,25(9):53-56. 被引量：2
4孙鑫.一种自适应的模糊C均值聚类图像分割方法[J].山西电子技术,2014(6):23-24.
5王银燕,余镇危,曹怀虎,潘耘.基于二度量的单播最短路径算法[J].计算机工程,2007,33(5):89-90. 被引量：3
6张昕,丁晓宁,金蓓弘,李京.一种网格环境的服务查找算法[J].通信学报,2005,26(12):93-99. 被引量：5
7林志庆.一个自动确定聚类数目的微粒群算法[J].福建工程学院学报,2011,9(6):607-612.
8胡能发.演化式果蝇算法及其应用研究[J].计算机技术与发展,2013,23(7):131-133. 被引量：17
9冷远文.几类反病毒软件的比较[J].计算机技术,1996(7):81-83.
10林辉.改进模糊聚类在客户关系管理(CRM)中的应用[J].河南科学,2013,31(10):1668-1670.

软件学报

2001年第4期

浏览历史

内容加载中请稍等...

一种有效的用于数据挖掘的动态概念聚类算法被引量：16

参考文献5

二级参考文献7

共引文献21

同被引文献163

引证文献16

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

一种有效的用于数据挖掘的动态概念聚类算法 被引量：16

参考文献5

二级参考文献7

共引文献21

同被引文献163

引证文献16

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

一种有效的用于数据挖掘的动态概念聚类算法被引量：16