-
题名基于离群点检测的不确定数据流聚类算法研究
被引量:12
- 1
-
-
作者
叶福兰
-
机构
福州外语外贸学院
-
出处
《中国电子科学研究院学报》
北大核心
2019年第10期1094-1099,共6页
-
基金
2015年福建省中青年教师教育科研项目(JA15586)
-
文摘
应用网络流量、日志管理等数据流过程中,常遭设备精度、噪声等问题影响出现大量不确定性数据流,影响数据流的管理与挖掘。相关研究表明,检测数据流中的离群点能够挖掘网络中被忽视的异常数据。因此,提出基于离群点检测的不确定数据流聚类算法,首先,通过微聚类划分算法将数据集划分成若干个微聚类;然后,根据信息熵的微聚类过滤机制获取全局离群点,在离群点微聚类中使用基于距离的方法挖掘出局部离群点;最后,采用不确定数据流子空间聚类算法完成全局离群点以及局部离群点两种不确定数据流聚类。分析结果表明,在数据量和维度的影响下,采用同类聚类算法聚类时聚类效果较差,而所提算法可有效克服此类问题,且具有较强的伸缩性。
-
关键词
离群点
检测
不确定数据流
聚类
信息熵
过滤
簇
-
Keywords
outlier points
testing
uncertainty of data flows
clustering
information entropy
filtering
cluster
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于标记的多状态离群点去除算法
被引量:3
- 2
-
-
作者
陈逍遥
任小玲
夏邢
史政坤
-
机构
西安工程大学计算机科学学院
-
出处
《国外电子测量技术》
2020年第1期39-43,共5页
-
文摘
针对点云采数据集过程中由于干扰因素产生的离群点及离群点簇,提出一种基于标记的多状态离群点去除方法。首先,通过基于正交分量比值方法标记孤立离群点;其次,运用改进的DBSCAN聚类方法对已标记的点云数据进行聚类;然后,统计各个聚类中的已标记离群点占该聚类中点的数量比例,将大于设定阈值的聚类视为离群点簇,将其和剩余标记的孤立离群点进行删除。实验表明,该方法不仅能够去除原始点云数据中孤立的离群点,而且可以有效去除空间中成簇的离群点,为后续点云处理奠定了有利的基础。
-
关键词
点云
离群点
离群点簇
正交分量
密度聚类
-
Keywords
points cloud
outlier points
outlier points cluster
orthogonal component
density clustering
-
分类号
TP391.7
[自动化与计算机技术—计算机应用技术]
-
-
题名优化初始聚类中心及确定K值的K-means算法
被引量:26
- 3
-
-
作者
蒋丽
薛善良
-
机构
南京航空航天大学计算机科学与技术学院
-
出处
《计算机与数字工程》
2018年第1期21-24,113,共5页
-
文摘
K-means聚类算法中,我们需要输入两个参数,一个是聚类数K,另一个是初始聚类中心,初始聚类中心的选择对聚类结果有较大的影响,传统的K-means聚类算法随机挑选K个聚类中心,而随机挑选的聚类中心难免会取到孤立点,这将对聚类结果产生很大的影响。K值是用户输入,K值选取的不好也将影响聚类效果。论文提出了一种改进的K-means聚类算法,先根据类簇指标确定需要聚类的数K,之后采用基于密度的思想,首先将聚类样本分为核心点、边界点和孤立点,之后排除孤立点和边界点并取核心点的中心点作为K个聚类中心后再进行K-means聚类,实验表明改进后的算法比原始的K-means聚类算法准确性更高。
-
关键词
K-MEANS聚类
聚类数
聚类中心
密度
孤立点
-
Keywords
K-means clustering
clustering number
clustering center
density
outlier point
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名地图数字化数据质量控制的抗差模型
被引量:3
- 4
-
-
作者
赵丽华
姚光飞
王龙超
-
机构
长安大学地测学院
-
出处
《测绘工程》
CSCD
2004年第2期8-11,共4页
-
文摘
对于数字化过程中产生的系统误差,采用函数模型(多项式)拟合进行纠正,对于异常误差采用抗差估计;当粗差污染率较高时,采用高崩溃污染率拟合初值辅以IGGⅢ方案迭代抗差解。最后以一幅具体的数字化地图为例,分别用最小二乘拟合和高崩溃污染率抗差拟合进行了分析比较,并给出了内外检核精度。
-
关键词
地图
数字化
抗差估计
高崩溃污染率
粗差污染率
-
Keywords
map digitizing
robust estimation
high breakdown point
outlier point
-
分类号
P207
[天文地球—测绘科学与技术]
P28
-
-
题名基于谱聚类算法的人力资源数据集离群点快速挖掘方法
- 5
-
-
作者
李春燕
-
机构
国网四川省电力公司乐山供电公司
-
出处
《信息与电脑》
2023年第23期50-52,共3页
-
文摘
当前的数据集离群点挖掘方法一般设置为引导式结构,挖掘效率较低。为此,提出基于谱聚类算法的人力资源数据集离群点快速挖掘方法。先预处理多维人力资源数据集,采用多节点机制提高挖掘的效率,然后构建谱聚类测算离群点快速挖掘模型,采用回归处理实现快速挖掘。测试结果表明,相同的测试周期中,文章提出的方法最多可以挖掘27次,说明在谱聚类算法的辅助下,该算法的挖掘效率更高。
-
关键词
谱聚类算法
人力资源
数据集
离群点
快速挖掘
-
Keywords
spectral clustering algorithm
human resources
data set
outlier point
fast mining
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名加权三支决策增量软聚类算法及性能分析
- 6
-
-
作者
申彦博
袁洁
纪淑娟
张纯金
-
机构
山东科技大学计算机科学与工程学院
山东省智慧矿山信息技术重点实验室
山东科技大学网络信息中心
-
出处
《软件导刊》
2019年第8期42-48,F0003,共8页
-
基金
国家自然科学基金项目(71772107,71403151,61502281,61433012)
青岛社会科学规划研究项目(QDSKL1801138)
+4 种基金
山东省重点研发计划项目(2018GGX101045)
山东省自然科学基金项目(ZR2018BF013,ZR2013FM023,ZR2014FP011)
山东省研究生质量提升计划项目(2016)
山东科技大学领军人才计划项目(2014)
泰山学者攀登计划项目(2014)
-
文摘
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。
-
关键词
聚类分析
增量聚类
离群点
三支决策理论
属性重要度
-
Keywords
clustering analysis
incremental clustering
outlier point
three-way decision theory
attribute importance
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名离群点算法和用电信息采集数据在反窃电中的应用
- 7
-
-
作者
许跃
陈心扬
陈浩
-
机构
国网无锡供电公司
-
出处
《变频器世界》
2020年第10期46-48,共3页
-
文摘
近年来,窃电手段呈现多样化,给供电企业效益和管理带来很多困难。为了营造更加公平、安全的供用电环境,提出利用离群点算法,并结合用电信息采集数据,对同类用户的电量建立特征模型,通过模型和目标用户的比对,筛选出疑似窃电用户,并结合对目标用户功率的采样、跟踪,以及现场勘查,定位窃电用户,解决反窃电工作量大、定位范围太广的问题。
-
关键词
离群点算法
用电信息采集
反窃电
-
Keywords
outlier point algorithm
Acquisition of electricity information
Anti-theft
-
分类号
TM711
[电气工程—电力系统及自动化]
-
-
题名一种改进的K-means聚类算法与孤立点检测研究
- 8
-
-
作者
尹敏杰
东春昭
-
机构
西南交通大学
-
出处
《电脑知识与技术》
2010年第7X期6085-6086,共2页
-
文摘
传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与聚类划分,通过对聚类结果的评价来判断该数据点是否为孤立点。若为孤立点则去掉该点,进而来提高聚类质量。
-
关键词
K-MEANS
K距离
孤立点
伪聚类中心
-
Keywords
k-means
k-distance
outlier data point
pseudo-center
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-