-
题名一种基于Hadoop平台的新聚类算法
被引量:6
- 1
-
-
作者
缪裕青
张锦杏
刘少兵
文益民
明媚
-
机构
桂林电子科技大学计算机科学与工程学院
桂林电子科技大学广西可信软件重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2014年第4期269-272,共4页
-
基金
广西可信软件重点实验室研究课题(KX201116)
广西教育厅科研项目(201204LX122)资助
-
文摘
针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结果。实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,而且具有良好的可伸缩性、加速比和时间稳定性。
-
关键词
微簇
等价连接
HADOOP平台
聚类
-
Keywords
Micro-cluster
Equivalence relation
Hadoop
Clustering
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于云计算平台的聚类算法研究进展
被引量:3
- 2
-
-
作者
张锦杏
缪裕青
邱良佩
文益民
-
机构
桂林电子科技大学计算机科学与工程学院
-
出处
《桂林电子科技大学学报》
2013年第1期23-28,共6页
-
基金
广西可信软件重点实验室开放基金(KX201116)
广西教育厅科研项目(201204LX122)
-
文摘
基于云计算平台的数据挖掘主要目的是为了更好地处理海量数据,挖掘有用的信息。云计算为海量数据挖掘提供了强大的数据收集、存储和计算能力,简述了云计算技术及其研究现状,详细介绍了基于云计算平台的聚类算法,总结在云计算平台研究聚类所遇到的新问题,对基于云计算平台的聚类发展趋势进行展望。
-
关键词
数据挖掘
云计算
聚类分析
-
Keywords
data mining
cloud computing
clustering analysis
-
分类号
TP311.133.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种可探测新颖类别的数据流分类算法
被引量:2
- 3
-
-
作者
邱良佩
缪裕青
陈宏
张锦杏
-
机构
桂林电子科技大学计算机科学与工程学院
-
出处
《桂林电子科技大学学报》
2013年第3期236-240,共5页
-
基金
广西可信软件重点实验室开放基金(kx201116)
广西教育厅科研项目(201204LX122)
-
文摘
针对可探测新颖类别的数据流分类算法不能处理混合属性且新颖类别探测准确率不高,引入VFDTc算法作为基分类器学习算法,并改进新颖类别探测方法以处理混合属性数据和提高新颖类别的探测准确率。实验结果表明,改进后的算法具有较高的分类模型学习效率、数据流分类精度和处理速率。
-
关键词
数据流
新颖类别探测
数据挖掘
分类算法
-
Keywords
data streams
novel class detection
data mining
classification algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于二级索引结构无候选项闭合序列模式挖掘算法
- 4
-
-
作者
缪裕青
吴孔玲
朱晓雁
张锦杏
-
机构
桂林电子科技大学计算机科学与工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2012年第10期3672-3676,共5页
-
基金
广西可信软件重点实验室开放基金资助项目
广西研究生科研创新资助项目(2011105950812M22)
-
文摘
针对CloSpan算法分两个阶段挖掘闭合序列模式中第一阶段需要保持候选序列且未充分利用项的位置信息、存在对数据库重复扫描和计算大小的不足,提出了posCloSpan算法。算法通过对二级索引结构进行检索实现向前剪枝,避免数据库重复扫描以及对超序索引表、子序索引表的检测,实现非闭合序列的修剪,无须保存候选序列。实验结果证明,算法在处理较长序列以及存在大量重复投影数据库的数据源时,有效降低了时间上的开销。
-
关键词
数据挖掘
序列模式挖掘
闭合序列
CloSpan
-
Keywords
data mining
sequential pattern mining
closed sequence
CloSpan
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-