-
题名基于核密度估计的K-means聚类优化
被引量:20
- 1
-
-
作者
熊开玲
彭俊杰
杨晓飞
黄俊
-
机构
上海大学计算机工程与科学学院
中国科学院上海高等研究院公共安全中心
-
出处
《计算机技术与发展》
2017年第2期1-5,共5页
-
基金
国家自然科学基金资助项目(61201446)
-
文摘
K-means聚类算法作为一种经典的聚类算法,应用领域十分广泛;但是K-means在处理高维及大数据集的情况下性能较差。核密度估计是一种用来估计未知分布密度函数的非参数估计方法,能够有效地获取数据集的分布情况。抽样是针对大数据集的数据挖掘的常用手段。密度偏差抽样是一种针对简单随机抽样在分布不均匀的数据集下容易丢失重要信息问题的改进方法。提出一种利用核密度估计结果的方法,选取数据集中密度分布函数极值点附近的样本点作为K-means初始中心参数,并使用核密度估计的分布结果,对数据集进行密度偏差抽样,然后对抽样的样本集进行K-means聚类。实验结果表明,使用核密度估计进行初始参数选择和密度偏差抽样能够有效加速K-means聚类过程。
-
关键词
K-MEANS聚类
密度偏差抽样
核密度估计
数据挖掘
-
Keywords
K-means clustering
density bias sampling
kernel density estimation
data mining
-
分类号
TP305
[自动化与计算机技术—计算机系统结构]
-
-
题名基于可变网格划分的密度偏差抽样算法
被引量:7
- 2
-
-
作者
盛开元
钱雪忠
吴秦
-
机构
江南大学物联网工程学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第9期2419-2422,共4页
-
基金
国家自然科学基金资助项目(61103129
61202312)
江苏省科技支撑计划项目(BE2009009)
-
文摘
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。
-
关键词
密度偏差抽样
可变网格划分
数据挖掘
大规模数据集
聚类
-
Keywords
density biased sampling
variable grid division
data mining
large-scale dataset
clustering
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP301.6
[自动化与计算机技术—控制科学与工程]
-
-
题名电压暂降系统指标的监测节点数量选择与评估方法
被引量:5
- 3
-
-
作者
肖先勇
谭亚欧
胡文曦
汪颖
-
机构
四川大学电气工程学院
-
出处
《电力自动化设备》
EI
CSCD
北大核心
2020年第10期8-14,共7页
-
基金
国家自然科学基金资助项目(51807126)。
-
文摘
准确评估电压暂降水平是理解与改善电压暂降问题的前提。虽然IEEE Std 1564—2014标准已为电压暂降系统指标的计算提供了建议,但考虑实际电网无法在所有节点均安装监测装置,如何确定其数量并提出适用于不均匀数据的评估方法是尚未解决的难题。为此,针对监测节点数量与抽样方法的确定展开研究。考虑实际电网监测数据存在分布不均匀的问题,提出一种改进的密度偏差抽样方法。基于误差幅度指标,建立满足不同给定误差要求下的监测节点数量解析式。基于监测节点样本数据,采用均值方法计算得到系统指标的估计值。IEEE 118节点系统的仿真结果表明,所提方法既能够在抽样过程中保留原始监测数据的电压暂降信息,又能基于给定误差得到评估所需监测节点数量的估算值;相比于现有系统指标评估方法,所提评估方法具有更小的估计误差。
-
关键词
电压暂降
系统指标
监测节点数量
密度偏差抽样
评估方法
-
Keywords
voltage sag
system index
number of monitoring nodes
density biased sampling
assessment method
-
分类号
TM761
[电气工程—电力系统及自动化]
-
-
题名基于密度偏差抽样的聚类算法研究
被引量:2
- 4
-
-
作者
纪良浩
-
机构
重庆邮电大学计算机科学与技术研究所
-
出处
《重庆邮电大学学报(自然科学版)》
2007年第6期729-732,共4页
-
基金
重庆邮电大学自然科学基金项目(A2007-29)
-
文摘
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。
-
关键词
密度偏差抽样
随机抽样
聚类
算法
正确率
-
Keywords
density biased sampling
random sampling
clustering
algorithm
correct rate
-
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向大型数据集的局部敏感哈希K−means算法
被引量:2
- 5
-
-
作者
魏峰
马龙
-
机构
煤炭科学技术研究院有限公司
煤炭资源高效开采与洁净利用国家重点实验室
-
出处
《工矿自动化》
CSCD
北大核心
2023年第3期53-62,共10页
-
基金
国家重点研发计划资助项目(2021YFB3201905)。
-
文摘
大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进行优化,提出了数据组构建算法LSH−G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH−G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH−GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K−means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据。实验结果表明:由10个AND操作与8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M−SRS)的K−means算法、基于DBS的K−means算法及基于网格密度偏差抽样(G−DBS)的K−means算法相比,基于LSH−GD的K−means算法在聚类准确性方面的平均提升幅度分别为56.63%、54.59%及25.34%,在聚类高效性方面的平均提升幅度分别为27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH−GD的K−means聚类算法获得的SSEC与CPU消耗时间(CPU−C)均为最优。
-
关键词
智慧矿山
大型数据集
K−means聚类
局部敏感哈希
噪声点筛选
密度偏差抽样
-
Keywords
intelligent mine
large-scale dataset
K-means clustering
locality-sensitive hashing
noise point filtering
density biased sampling
-
分类号
TD67
[矿业工程—矿山机电]
-
-
题名一种基于DBS的聚类算法
被引量:1
- 6
-
-
作者
何苗
-
机构
重庆邮电大学传媒艺术学院
-
出处
《重庆电子工程职业学院学报》
2009年第3期83-85,共3页
-
基金
重庆邮电大学自然科学基金项目(A2007-29)
-
文摘
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。
-
关键词
随机抽样
密度偏差抽样
聚类
算法
-
Keywords
random sampling
density biased sampling
clustering
algorithm
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名一种移动端APM系统框架设计与实现
被引量:1
- 7
-
-
作者
金安
-
机构
上海爱奇艺新媒体科技有限公司
-
出处
《软件导刊》
2022年第1期205-209,共5页
-
文摘
随着移动应用数据爆发式增长,微服务架构越来越庞大,排查系统故障变得越来越复杂,建立一种能快速定位解决问题的系统势在必行。针对互联网行业特点及存在的相关问题,设计并实现了一种符合企业业务特点的移动端APM系统。对原始数据分析算法优化、数据存储聚合策略和符号解析系统等关键技术进行了阐述。APM系统的运行数据表明,业务应用崩溃率下降了50%以上。
-
关键词
应用性能管理
拨测
卡顿
可变网格
密度偏差抽样
-
Keywords
APM
dail testing
choppy
variable grid
density biased samping
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名密度偏差抽样在近邻传播聚类中的应用
- 8
-
-
作者
潘春燕
张仁崇
杨忠保
-
机构
黔南民族师范学院数学与统计学院
贵州商学院计算机与信息工程学院
-
出处
《商丘师范学院学报》
CAS
2022年第12期4-8,共5页
-
基金
贵州省教育厅青年科技人才成长项目(黔教合KY字[2018]429,黔教合KY字[2018]276)
贵州省教育厅人文社科项目(2018qn42)
+1 种基金
贵州省科技计划项目(黔科合基础[2020]1Y423)
贵州省自然科学基金资助项目(黔教合KY字[2019]202)
-
文摘
AP聚类算法无需人为设定类别和指定类中心,能高效解决数据聚类问题,但无法满足大规模数据的应用需求,因此对数据进行聚类前先约简数据尤为重要.分布均匀的数据利用简单随机抽样可获得质量较高的样本,当数据偏斜较大时,简单随机抽样所获得的样本往往会丢失原始数据集的类.针对此问题,首先借助基于网格的密度偏差抽样算法对数据进行约简,其次在样本数据集上执行AP聚类,最后通过数值实验结果表明,对样本数据执行聚类在损失小部分精度代价上,提高聚类算法的效率.
-
关键词
约简
网格
密度偏差抽样
精度
-
Keywords
reduction
grid
density biased sampling
precision
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名电子商务卖方数据聚类方法的改进研究
- 9
-
-
作者
蒋建洪
罗玫
-
机构
桂林电子科技大学商学院
西北工业大学管理学院
-
出处
《计算机工程与应用》
CSCD
2013年第8期27-31,共5页
-
基金
桂林电子科技大学博士启动基金(No.US12010Y)
-
文摘
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。
-
关键词
密度偏差抽样
划分聚类
层次聚类
信用
-
Keywords
density biased sampling
partition clustering
hierarchical clustering
credit
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于不均匀数据的密度偏差抽样改进算法
被引量:2
- 10
-
-
作者
吕丹
龙华
高杰
邵玉斌
杜庆治
-
机构
昆明理工大学信息工程与自动化学院
-
出处
《软件导刊》
2018年第2期77-79,85,共4页
-
基金
2014云南省科技厅基金项目(2014RA051)
-
文摘
针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开销大、时间运行成本高等问题。提出并实现了基于不均匀数据的密度偏差抽样改进算法(IDDS),通过引入网格单元密度和三角函数,从而达到较好的密度偏差抽样效果。实验结果发现,IDDS算法抽样效果更好,提取的样本质量更高,有效保证了不均匀数据的分布特征。与原始的密度偏差抽样算法(DDS)相比,应用IDDS算法的效率更高。
-
关键词
密度偏差抽样算法(DDS)
POI信息
数据挖掘
三角函数
-
Keywords
density deviation sampling algorithm(DDS)
POI information
data mining
trigonometric function
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-