基于局部密度的快速离群点检测算法被引量：26

Fast outlier detection algorithm based on local density

下载PDF

导出

摘要已有的密度离群点检测算法LOF不能适应数据分布异常情况离群点检测,INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题,但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针对该问题,提出局部密度离群点检测算法——LDBO,引入强k近邻点和弱k近邻点概念,通过分析邻近数据点的离群相关性,对数据点区别对待;并提出数据点离群性预判断策略,尽可能避免不必要的反向k近邻分析,有效提高数据分布异常情况离群点检测算法的效率。理论分析和实验结果表明,LDBO算法效率优于INFLO,算法是有效可行的。 Mining outliers is to find exceptional objects that deviate from the most rest of the data set. Outlier detection based on density has attracted lots of attention, but the density-based algorithm named Local Outlier Factor （LOF） is not suitable for the data set with abnormal distribution, and the algorithm named INFLuenced Outlierness （INFLO） solves this problem by analyzing both k nearest neighbors and reverse k nearest neighbors of each data point at cost of inferior efficiency. To solve this problem, a local density-based algorithm named Local Density Based Outlier detection （LDBO） was proposed, which can improve outlier detection efficiency and effectiveness simultaneously. LDBO introduced definitions of strong k nearest neighbors and weak k nearest neighbors to realize outlier relation analysis of those data points located nearby. Furthermore, to improve the outlier detection efficiency, prejudgement was applied to avoid unnecessary reverse k nearest neighbor analysis as far as possible. Theoretical analysis and experimental results Indicate that LDBO outperforms INFLO in efficiency, and it is effective and feasible.

作者邹云峰张昕宋世渊倪巍伟

机构地区国网江苏省电力公司电力科学研究院东南大学计算机科学与工程学院

出处《计算机应用》 CSCD 北大核心 2017年第10期2932-2937,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61370077)~~

关键词离群点检测局部密度强k近邻点弱k近邻点反向k近邻点集 outlier detection local density strong k nearest neighbors weak k nearest neighbors Reverse k NearestNeighbors （RkNN）

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1胡彩平,秦小麟.一种基于密度的局部离群点检测算法DLOF[J].计算机研究与发展,2010,47(12):2110-2116. 被引量：52
2刘露,左万利,彭涛.异质网中基于张量表示的动态离群点检测方法[J].计算机研究与发展,2016,53(8):1729-1739. 被引量：7
3杨慧,王丽婧.基于聚类和拟合的QAR数据离群点检测算法[J].计算机工程与设计,2015,36(1):174-177. 被引量：8
4黄添强,余养强,郭躬德,秦小麟.半监督的移动对象离群轨迹检测算法[J].计算机研究与发展,2011,48(11):2074-2082. 被引量：4
5倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：27

二级参考文献52

1孙焕良,鲍玉斌,于戈,赵法信,王大玲.一种基于划分的孤立点检测算法[J].软件学报,2006,17(5):1009-1016. 被引量：16
2薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
3Breunig M M,Kriegel H P,Ng R T,et al.LOF:Identifying density-based local outliers[C]//Proc of ACM SIGMOD Conf.New York:ACM,2000:427-438. 被引量：1
4Tang J,Chen Z,Fu A,et al.Enhancing effectiveness of outlier detections for low-density patterns[C]//Proc of Advances in Knowledge Discovery and Data Mining 6th Pacific Asia Conf.Berlin:Springer,2002:535-548. 被引量：1
5Papadimitirou S,Kitagawa H,Gibbons P B,et al.LOCI:Fast outlier detection using the local correlation integral[C]//Proc of the 19th Int Conf on Data Engineering.Los Alamitos:IEEE Computer Society,2003:315-326. 被引量：1
6Sanjay C,Pei Sun.SLOM:A new measure for local spatial outliers[J].Knowledge and Information Systems,2006,9(4):412-429. 被引量：1
7Barnett V,Lewis T.Outliers in Statistical Data[M].New York:John Wiley and Sons,1994. 被引量：1
8Johnson T,Kwok I,Ng R T.Fast computation of 2-dimensional depth contours[C]//Proc of the 4th Int Conf on Knowledge Discovery and Data Mining (KDD'98).New York:ACM,1998:224-228. 被引量：1
9Knorr E M,Ng R T.Algorithms for mining distance-based outliers in large datasets[C]//Proc of the 24th Int Conf on Very Large Data Bases.New York:ACM,1998:392-403. 被引量：1
10Ramaswamy S,Rastogi R,Shim K.Efficient algorithms for mining outliers from large data sets[C]//Proc of the 2000 ACM SIGMOD Int Conf on Management of Data.New York:ACM,2000:93-104. 被引量：1

共引文献91

1于浩,王斌,肖刚,杨晓春.基于距离的不确定离群点检测[J].计算机研究与发展,2010,47(3):474-484. 被引量：19
2张贺,蔡江辉,张继福,乔衎.信息熵度量的离群数据挖掘算法[J].智能系统学报,2010,5(2):150-155. 被引量：7
3田江,顾宏.孤立点一类支持向量机算法研究[J].电子与信息学报,2010,32(6):1284-1288. 被引量：13
4胡彩平,秦小麟.一种基于密度的局部离群点检测算法DLOF[J].计算机研究与发展,2010,47(12):2110-2116. 被引量：52
5张净,孙志挥,宋余庆,倪巍伟,晏燕华.基于信息论的高维海量数据离群点挖掘[J].计算机科学,2011,38(7):148-151. 被引量：10
6揭财明,刘慧君,朱庆生.基于方形对称邻域的局部离群点检测方法[J].计算机应用研究,2012,29(2):472-474. 被引量：5
7肖建琼,宋国琴,罗兴贤.基于时间序列数据流的孤立点自适应异常检测[J].电脑知识与技术,2011,7(12):8927-8929.
8李文忠,左万利,赫枫龄.一种基于信息熵的多维流数据噪声检测算法[J].计算机科学,2012,39(2):191-194. 被引量：5
9刘祥新.熵值距离的离群点检测及其在学生评教中的应用[J].湖北第二师范学院学报,2012,29(2):84-86.
10孙爱程.基于熵距离的离群点检测及其应用[J].无线电工程,2012,42(6):45-47. 被引量：3

同被引文献208

1许枫,丛鸿文.侧扫声纳声图判别[J].海洋测绘,2001,21(1):58-61. 被引量：21
2Salman Ahmed Shaikh,Hiroyuki Kitagawa.Top-k Outlier Detection from Uncertain Data[J].International Journal of Automation and computing,2014,11(2):128-142. 被引量：2
3冯丽,邱家驹.离群数据挖掘及其在电力负荷预测中的应用[J].电力系统自动化,2004,28(11):41-44. 被引量：11
4陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
5岳士弘,李平,郭继东,周水庚.A statistical information-based clustering approach in distance space[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):71-78. 被引量：9
6耿技,印鉴.改进的共享型最近邻居聚类算法[J].电子科技大学学报,2006,35(1):70-72. 被引量：5
7黄洪宇,林甲祥,陈崇成,樊明辉.离群数据挖掘综述[J].计算机应用研究,2006,23(8):8-13. 被引量：42
8杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22
9汪加才,张金城,江效尧.一种有效的可视化孤立点发现与预测新途径[J].计算机科学,2007,34(6):200-203. 被引量：5
10邹清,汤井田,唐艳.Hilbert-Huang变换应用于心电信号消噪[J].中国医学物理学杂志,2007,24(4):309-312. 被引量：9

引证文献26

1严云洋,瞿学新,朱全银,李翔,赵阳.基于离群点检测的分类结果置信度的度量方法[J].南京大学学报（自然科学版）,2019,55(1):102-109. 被引量：4
2袁钟,冯山.基于邻域值差异度量的离群点检测算法[J].计算机应用,2018,38(7):1905-1909. 被引量：9
3王向阳.一种基于密度的离群点检测方法[J].西南科技大学学报,2018,33(1):75-78.
4冯贵兰,周文刚.基于Spark平台的并行KNN异常检测算法[J].计算机科学,2018,45(B11):349-352. 被引量：9
5孟海东,孙新军,宋宇辰.基于数据场的改进LOF算法[J].计算机工程与应用,2019,55(3):154-158. 被引量：4
6李永政,郝新兵.基于Hadoop的局部异常检测算法[J].信息技术与网络安全,2019,38(6):52-56. 被引量：1
7黄强,叶青,聂斌,李欢.离群点识别方法研究[J].软件导刊,2019,18(6):35-41. 被引量：2
8黄卫国,金超,张田.基于密度的离群点检测技术在中厚板轧后冷却中的研究[J].冶金自动化,2019,43(3):7-12.
9樊江,郭勇.机场大数据集离群点检测算法仿真研究[J].计算机仿真,2019,36(11):1-4.
10周硙.远距离无线混合传输数据完整性检测方法仿真[J].计算机仿真,2019,36(12):447-450. 被引量：3

二级引证文献80

1蒋浩英,钱进,王滔滔,洪承鑫,余鹰.基于三支决策的新型分类匿名模型[J].南京大学学报（自然科学版）,2023,59(6):970-980.
2庄琛,马赟婷,钟震远,陈鑫.基于启发式算法的异常用电检测研究[J].光学与光电技术,2022,20(6):133-138. 被引量：1
3曹建,李峥,杨璞,王劲草.云计算环境下基于MapReduce的并行化排列熵算法[J].电力信息与通信技术,2019,17(1):1-6. 被引量：4
4张钊,陈向东.B/S+C/S架构和KNN算法的远程体温监护系统[J].单片机与嵌入式系统应用,2019,19(7):32-35. 被引量：6
5王兴达,刘雪峰.Spark平台在单光子成像测量矩阵生成与评估中的应用[J].计算机应用与软件,2019,36(8):55-59.
6牛少章,欧毓毅,凌捷,顾国生.基于网格查询的局部离群点检测算法[J].计算机工程与应用,2019,55(17):89-94. 被引量：2
7樊江,郭勇.机场大数据集离群点检测算法仿真研究[J].计算机仿真,2019,36(11):1-4.
8李晓峰,王妍玮,李东.基于层次化深度学习的医疗数据库离群数据检测算法[J].计算机系统应用,2020,29(3):180-186. 被引量：3
9赵国生,张慧,王健.基于Tangle网络的移动群智感知数据安全交付模型[J].电子与信息学报,2020,42(4):965-971. 被引量：16
10李毅,胡建成.一种面向混合属性数据的邻域粒离群点检测[J].小型微型计算机系统,2020,41(4):855-860. 被引量：7

1离群的大雁[J].小学生作文辅导（语文园地）,2017,0(10):31-31.
2冯艳萍.学习积极性的激励四法[J].考试周刊,2017,0(14):160-160.
3张宸.基于SVM与K近邻结合的网络伪舆情辨识研究[J].图书情报工作,2017,61(S1):164-167. 被引量：5
4侯平智,张明,徐晓滨,黄大荣.基于K近邻证据融合的故障诊断方法[J].控制与决策,2017,32(10):1767-1774. 被引量：14
5姚英彪,毛伟勇,姚瑞丽,严军荣,冯维.基于改进支持向量回归的室内定位算法[J].仪器仪表学报,2017,38(9):2112-2119. 被引量：20
6花楠.高校艺术体操课分层教学法应用研究[J].当代体育科技,2017,7(23):70-70. 被引量：3
7方瑜泉.精准扶贫之匡河福利院[J].中华诗词,2017,0(9):6-6.
8钱景辉,梁栋.一种基于多标记的局部离群点检测算法[J].微电子学与计算机,2017,34(10):110-114. 被引量：6
9郭晗,焦朋朋.非参数回归短时客流预测中状态向量研究[J].系统仿真学报,2017,29(9):2128-2133. 被引量：2
10戴晓寰.如何强化资金管理工作——基于铁路运输企业[J].中国商论,2017,0(26):34-35. 被引量：1

计算机应用

2017年第10期

浏览历史

内容加载中请稍等...

基于局部密度的快速离群点检测算法被引量：26

参考文献5

二级参考文献52

共引文献91

同被引文献208

引证文献26

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

基于局部密度的快速离群点检测算法 被引量：26

参考文献5

二级参考文献52

共引文献91

同被引文献208

引证文献26

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

基于局部密度的快速离群点检测算法被引量：26