针对传统K-均值聚类方法不能有效处理大规模数据聚类的问题,提出一种基于随机抽样的加速K-均值聚类(Kmeans Clustering Algorithm Based on Random Sampling,Kmeans_RS)方法,以提高传统K-均值聚类方法的效率。首先从大规模的聚类数据集...针对传统K-均值聚类方法不能有效处理大规模数据聚类的问题,提出一种基于随机抽样的加速K-均值聚类(Kmeans Clustering Algorithm Based on Random Sampling,Kmeans_RS)方法,以提高传统K-均值聚类方法的效率。首先从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,在工作集上进行传统K-均值聚类,得到聚类中心和半径,并得到抽样结果;然后通过衡量剩下的聚类样本与已得到的抽样结果之间的关系,对剩余的样本进行归类。该方法通过随机抽样大大地减小了参与K-均值聚类的问题规模,从而有效提高了聚类效率,可解决大规模数据的聚类问题。实验结果表明,Kmeans_RS方法在大规模数据集中在保持聚类效果的同时大幅度提高了聚类效率。展开更多
学生成绩对学生评价非常重要,为找出影响学生成绩的一些因素间的关联关系,依据数据挖掘关联规则中的FP-growth算法,运用SQL Server 2005中AnalysisServices工具对收集到的学生成绩数据集进行挖掘分析,期望发现影响学生成绩的因素间的联...学生成绩对学生评价非常重要,为找出影响学生成绩的一些因素间的关联关系,依据数据挖掘关联规则中的FP-growth算法,运用SQL Server 2005中AnalysisServices工具对收集到的学生成绩数据集进行挖掘分析,期望发现影响学生成绩的因素间的联系,将其进行改善并应用于教学实践中,有利于提升教学质量,提高学生成绩.展开更多
文摘针对传统K-均值聚类方法不能有效处理大规模数据聚类的问题,提出一种基于随机抽样的加速K-均值聚类(Kmeans Clustering Algorithm Based on Random Sampling,Kmeans_RS)方法,以提高传统K-均值聚类方法的效率。首先从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,在工作集上进行传统K-均值聚类,得到聚类中心和半径,并得到抽样结果;然后通过衡量剩下的聚类样本与已得到的抽样结果之间的关系,对剩余的样本进行归类。该方法通过随机抽样大大地减小了参与K-均值聚类的问题规模,从而有效提高了聚类效率,可解决大规模数据的聚类问题。实验结果表明,Kmeans_RS方法在大规模数据集中在保持聚类效果的同时大幅度提高了聚类效率。
基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022) 山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20041041)山西省留学回国人员基金项目(No.2002004)。
文摘学生成绩对学生评价非常重要,为找出影响学生成绩的一些因素间的关联关系,依据数据挖掘关联规则中的FP-growth算法,运用SQL Server 2005中AnalysisServices工具对收集到的学生成绩数据集进行挖掘分析,期望发现影响学生成绩的因素间的联系,将其进行改善并应用于教学实践中,有利于提升教学质量,提高学生成绩.