期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于核密度估计的K-means聚类优化 被引量:20
1
作者 熊开玲 彭俊杰 +1 位作者 杨晓飞 黄俊 《计算机技术与发展》 2017年第2期1-5,共5页
K-means聚类算法作为一种经典的聚类算法,应用领域十分广泛;但是K-means在处理高维及大数据集的情况下性能较差。核密度估计是一种用来估计未知分布密度函数的非参数估计方法,能够有效地获取数据集的分布情况。抽样是针对大数据集的数... K-means聚类算法作为一种经典的聚类算法,应用领域十分广泛;但是K-means在处理高维及大数据集的情况下性能较差。核密度估计是一种用来估计未知分布密度函数的非参数估计方法,能够有效地获取数据集的分布情况。抽样是针对大数据集的数据挖掘的常用手段。密度偏差抽样是一种针对简单随机抽样在分布不均匀的数据集下容易丢失重要信息问题的改进方法。提出一种利用核密度估计结果的方法,选取数据集中密度分布函数极值点附近的样本点作为K-means初始中心参数,并使用核密度估计的分布结果,对数据集进行密度偏差抽样,然后对抽样的样本集进行K-means聚类。实验结果表明,使用核密度估计进行初始参数选择和密度偏差抽样能够有效加速K-means聚类过程。 展开更多
关键词 K-MEANS聚类 密度偏差抽样 密度估计 数据挖掘
下载PDF
基于可变网格划分的密度偏差抽样算法 被引量:7
2
作者 盛开元 钱雪忠 吴秦 《计算机应用》 CSCD 北大核心 2013年第9期2419-2422,共4页
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基... 简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。 展开更多
关键词 密度偏差抽样 可变网格划分 数据挖掘 大规模数据集 聚类
下载PDF
电压暂降系统指标的监测节点数量选择与评估方法 被引量:5
3
作者 肖先勇 谭亚欧 +1 位作者 胡文曦 汪颖 《电力自动化设备》 EI CSCD 北大核心 2020年第10期8-14,共7页
准确评估电压暂降水平是理解与改善电压暂降问题的前提。虽然IEEE Std 1564—2014标准已为电压暂降系统指标的计算提供了建议,但考虑实际电网无法在所有节点均安装监测装置,如何确定其数量并提出适用于不均匀数据的评估方法是尚未解决... 准确评估电压暂降水平是理解与改善电压暂降问题的前提。虽然IEEE Std 1564—2014标准已为电压暂降系统指标的计算提供了建议,但考虑实际电网无法在所有节点均安装监测装置,如何确定其数量并提出适用于不均匀数据的评估方法是尚未解决的难题。为此,针对监测节点数量与抽样方法的确定展开研究。考虑实际电网监测数据存在分布不均匀的问题,提出一种改进的密度偏差抽样方法。基于误差幅度指标,建立满足不同给定误差要求下的监测节点数量解析式。基于监测节点样本数据,采用均值方法计算得到系统指标的估计值。IEEE 118节点系统的仿真结果表明,所提方法既能够在抽样过程中保留原始监测数据的电压暂降信息,又能基于给定误差得到评估所需监测节点数量的估算值;相比于现有系统指标评估方法,所提评估方法具有更小的估计误差。 展开更多
关键词 电压暂降 系统指标 监测节点数量 密度偏差抽样 评估方法
下载PDF
基于密度偏差抽样的聚类算法研究 被引量:2
4
作者 纪良浩 《重庆邮电大学学报(自然科学版)》 2007年第6期729-732,共4页
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对... 随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。 展开更多
关键词 密度偏差抽样 随机抽样 聚类 算法 正确率
下载PDF
面向大型数据集的局部敏感哈希K−means算法 被引量:2
5
作者 魏峰 马龙 《工矿自动化》 CSCD 北大核心 2023年第3期53-62,共10页
大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进... 大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进行优化,提出了数据组构建算法LSH−G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH−G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH−GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K−means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据。实验结果表明:由10个AND操作与8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M−SRS)的K−means算法、基于DBS的K−means算法及基于网格密度偏差抽样(G−DBS)的K−means算法相比,基于LSH−GD的K−means算法在聚类准确性方面的平均提升幅度分别为56.63%、54.59%及25.34%,在聚类高效性方面的平均提升幅度分别为27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH−GD的K−means聚类算法获得的SSEC与CPU消耗时间(CPU−C)均为最优。 展开更多
关键词 智慧矿山 大型数据集 K−means聚类 局部敏感哈希 噪声点筛选 密度偏差抽样
下载PDF
一种基于DBS的聚类算法 被引量:1
6
作者 何苗 《重庆电子工程职业学院学报》 2009年第3期83-85,共3页
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。
关键词 随机抽样 密度偏差抽样 聚类 算法
下载PDF
一种移动端APM系统框架设计与实现 被引量:1
7
作者 金安 《软件导刊》 2022年第1期205-209,共5页
随着移动应用数据爆发式增长,微服务架构越来越庞大,排查系统故障变得越来越复杂,建立一种能快速定位解决问题的系统势在必行。针对互联网行业特点及存在的相关问题,设计并实现了一种符合企业业务特点的移动端APM系统。对原始数据分析... 随着移动应用数据爆发式增长,微服务架构越来越庞大,排查系统故障变得越来越复杂,建立一种能快速定位解决问题的系统势在必行。针对互联网行业特点及存在的相关问题,设计并实现了一种符合企业业务特点的移动端APM系统。对原始数据分析算法优化、数据存储聚合策略和符号解析系统等关键技术进行了阐述。APM系统的运行数据表明,业务应用崩溃率下降了50%以上。 展开更多
关键词 应用性能管理 拨测 卡顿 可变网格 密度偏差抽样
下载PDF
密度偏差抽样在近邻传播聚类中的应用
8
作者 潘春燕 张仁崇 杨忠保 《商丘师范学院学报》 CAS 2022年第12期4-8,共5页
AP聚类算法无需人为设定类别和指定类中心,能高效解决数据聚类问题,但无法满足大规模数据的应用需求,因此对数据进行聚类前先约简数据尤为重要.分布均匀的数据利用简单随机抽样可获得质量较高的样本,当数据偏斜较大时,简单随机抽样所获... AP聚类算法无需人为设定类别和指定类中心,能高效解决数据聚类问题,但无法满足大规模数据的应用需求,因此对数据进行聚类前先约简数据尤为重要.分布均匀的数据利用简单随机抽样可获得质量较高的样本,当数据偏斜较大时,简单随机抽样所获得的样本往往会丢失原始数据集的类.针对此问题,首先借助基于网格的密度偏差抽样算法对数据进行约简,其次在样本数据集上执行AP聚类,最后通过数值实验结果表明,对样本数据执行聚类在损失小部分精度代价上,提高聚类算法的效率. 展开更多
关键词 约简 网格 密度偏差抽样 精度
下载PDF
电子商务卖方数据聚类方法的改进研究
9
作者 蒋建洪 罗玫 《计算机工程与应用》 CSCD 2013年第8期27-31,共5页
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际... 针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。 展开更多
关键词 密度偏差抽样 划分聚类 层次聚类 信用
下载PDF
基于不均匀数据的密度偏差抽样改进算法 被引量:2
10
作者 吕丹 龙华 +2 位作者 高杰 邵玉斌 杜庆治 《软件导刊》 2018年第2期77-79,85,共4页
针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开... 针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开销大、时间运行成本高等问题。提出并实现了基于不均匀数据的密度偏差抽样改进算法(IDDS),通过引入网格单元密度和三角函数,从而达到较好的密度偏差抽样效果。实验结果发现,IDDS算法抽样效果更好,提取的样本质量更高,有效保证了不均匀数据的分布特征。与原始的密度偏差抽样算法(DDS)相比,应用IDDS算法的效率更高。 展开更多
关键词 密度偏差抽样算法(DDS) POI信息 数据挖掘 三角函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部