FINFLO:快速局部异常点检测算法被引量：2

FINFLO:A New Fast Local Outliers Detection Algorithm

下载PDF

导出

摘要【目的】基于局部密度的LOF算法时间复杂度高,且容易将处于簇边缘的正常对象误判成异常对象,INFLO算法引进反向k-近邻解决LOF算法这一缺陷,但是计算每个对象的局部异常因子时都会使用反向k-近邻没有必要且耗费时间。【方法】通过对两个算法的分析,本文改进了INFLO算法,提出了一种快速异常点检测算法FINFLO(faster Influenced outlierness),该算法的主要思想是:计算对象的局部因子时尽量避免考虑反向k-近邻对象,尽可能地只利用k-近邻对象。首先,计算出所有对象的反向k-近邻对象个数的均值,然后在计算对象的局部异常因子时,如果对象的反向k-近邻对象个数不小于所有对象的反向k-近邻对象个数均值,则只需要考虑对象的k-近邻对象,否则需要同时考虑k-近邻对象和反向k-近邻对象。【结论】实验结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。 [Objective]Local density based LOF algorithm has high time complexity,and it tends to misjudge the normal objects at the edge of the cluster as exceptions.The inverse k-nearest-neighbor algorithm is introduced to solve the problem of LOF algorithm in INFLO algorithm.However,it is unnecessary and time-consuming to use the inverse k-nearest-neighbor when calculating the local outlier factor of each object.[Methods]Through the analysis of the two algorithms,this paper proposes a new fast anomaly detection algorithm,named Faster Influenced Outlierness,FINFLO.When calculating the local factors of objects,FINFLO tries to avoid considering reverse k-nearest neighbor objects,and use only k-nearest neighbor objects as much as possible.If the number of reverse k-nearest neighbor objects is not less than the mean of all reverse k-nearest neighbor objects,only k-nearest neighbor objects need to be considered,otherwise reverse k-nearest neighbor objects need to be considered.[Conclusions]Experimental results show that the algorithm can improve the accuracy of outlier detection,reduce the time complexity,and achieve effective local outlier detection.

作者杨校林李菁菁李易 YANG Xiaolin;LI Jingjing;LI Yi(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院计算机网络信息中心中国科学院大学

出处《数据与计算发展前沿》 2020年第6期82-89,共8页 Frontiers of Data & Computing

关键词局部密度异常因子局部离群点 K-近邻反向k-近邻 local density outlier factor local outlier k-nearest neighbor reverse k-nearest neighbor

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1高妮,贺毅岳,高岭.海量数据环境下用于入侵检测的深度学习方法[J].计算机应用研究,2018,35(4):1197-1200. 被引量：53
2孙哲南,张兆翔,王威,刘菲,谭铁牛.2019年人工智能新态势与新进展[J].数据与计算发展前沿,2019,1(2):1-16. 被引量：17
3倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：28
4岳峰,邱保志.基于反向K近邻的孤立点检测算法[J].计算机工程与应用,2007,43(7):182-184. 被引量：8
5王习特,申德荣,白梅,聂铁铮,寇月,于戈.BOD:一种高效的分布式离群点检测算法[J].计算机学报,2016,39(1):36-51. 被引量：29
6薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
7王宏鼎,童云海,谭少华,唐世渭,杨冬青.异常点挖掘研究进展[J].智能系统学报,2006,1(1):67-73. 被引量：22

二级参考文献50

1薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
2范明等.数据挖掘概念与技术[M].北京：机械工业出版社,2001.. 被引量：120
3Breunig M M,Kriagel H P,Ng R T,et al.LOF:identifying densitybased local outliers[C]//Proceedings of ACM SIGMOD International Conference on Management of Data,Dallas,Texas,USA,2000:93-104. 被引量：1
4Xia Chen-yi,Hsu W,Lee M L,et al.BODER:efficient computation of boundary points[J].IEEE Transaction on Knowledge and Data Engineering,2006 (18). 被引量：1
5Ertoz L,Steinbach M,Kumar V.Finding clusters of different sizes,shapes,and densities in noisy,high dimensional data[C]//2nd SIAM International Conference on Data Mining,SDM 2002 IAM Press:SDM2003,2003:1-12. 被引量：1
6Hsu Chih-ming,Chen Ming-syan.Subspace clustering of high dimensional spatial data with noises[C]//Advances in Knowledge Discovery and Data Mining.8th Pacific-Asia Conference,PAKDD 2004.Heidlberg,Germany:Springer,2004:31-40. 被引量：1
7Korn F,Muthukrishna S.Influence sets based on reverse nearest neighbors queries[C]//Proceedings of ACM SIGMOD,2000:201-212. 被引量：1
8Han Jia-Wei,Kamber Micheline Data Mining:Concepts and Techniques (2nd Edition).San Francisco:Morgan Kaufmann Publishers,2006 被引量：1
9Hawkins D.Identification of Outliers.London:Chapman and Hall,1980 被引量：1
10Knorr E,Ng R.Algorithms for mining distance-based outliers in large datasets//Proceedings of the 24th VLDB Conference.New York,1998:392-403 被引量：1

共引文献231

1郭文婷,张军,魏洪伟,刘莹.基于欠采样和对抗自编码器的入侵检测算法[J].信息通信,2019,0(12):58-60.
2董健康,李霞.数据挖掘中孤立点检测方法的探讨[J].科技咨询导报,2007(13):137-137.
3王洪春,彭宏.一种基于主成分分析的异常点挖掘方法[J].计算机科学,2007,34(10):192-194. 被引量：14
4杨永铭,王喆.孤立点挖掘算法研究[J].计算机与数字工程,2008,36(1):11-15. 被引量：10
5赵泉,杨丽萍,蒯治任.数据挖掘技术在战略管理中的应用[J].计算机与数字工程,2008,36(5):59-63. 被引量：1
6郑晓卫,潘毅群,黄治钟,楼振飞.数据挖掘技术在上海市商用建筑信息数据库中的应用[J].暖通空调,2008,38(4):35-38. 被引量：4
7张树森,伏利,董刚.离群点删除算法的研究[J].装备制造技术,2008(7):13-15. 被引量：3
8薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
9卢鸣.基于异常点处理和自劈分合并学习的聚类方法[J].福建电脑,2008,24(12):83-84.
10徐翔,刘建伟,罗雄麟.离群点挖掘研究[J].计算机应用研究,2009,26(1):34-40. 被引量：27

同被引文献18

1钟小强,陈杰,蒋敏敏,郑晓晖.基于深度学习的台区线损分析方法[J].电网技术,2020,44(2):769-774. 被引量：53
2王宏鼎,童云海,谭少华,唐世渭,杨冬青.异常点挖掘研究进展[J].智能系统学报,2006,1(1):67-73. 被引量：22
3苏冰,王超,刘岩.基于固定阈值法的声纳信号检测性能研究[J].数字技术与应用,2012(9):85-86. 被引量：1
4陈中,郑为民,陈肖.中国e-VLBI网的建立及应用[J].中国科学院上海天文台年刊,2015(1):136-147. 被引量：4
5王华勇,韩松,肖孝天,杨超.改进的电力负荷曲线集成K-medoids聚类算法[J].电力科学与工程,2019,35(2):38-43. 被引量：3
6杨翾,孙可,叶刚进,王骏海,张林强,常诚,徐驰名.基于聚类技术的“插座式”分布式光伏接入方法及其应用[J].浙江电力,2019,38(2):73-77. 被引量：4
7刘东升,代盛国,商学斌,顾洁,金之俭,王颖琛,李煜.基于压缩感知理论的缺失数据集下线损预测模型[J].广东电力,2019,32(2):80-86. 被引量：19
8陈洪涛,蔡慧,李熊,王颖,郑恩辉.基于k-means聚类算法的低压台区线损异常辨别方法[J].南方电网技术,2019,13(2):2-6. 被引量：61
9吴虹.光伏台区同期线损异常原因分析及治理思路[J].江苏科技信息,2019,36(29):44-48. 被引量：3
10孙哲南,张兆翔,王威,刘菲,谭铁牛.2019年人工智能新态势与新进展[J].数据与计算发展前沿,2019,1(2):1-16. 被引量：17

引证文献2

1李菁菁,杨校林,李俊,何群辉.基于离群点检测的链路流量细粒度监测[J].数据与计算发展前沿,2021,3(6):142-150. 被引量：1
2梁嘉文,严贝峰,景楷楠,李婷婷,屈志原,王伟宁.基于K-Medoids聚类的分布式光伏台区线损异常感知算法[J].电机与控制应用,2022,49(12):47-52. 被引量：7

二级引证文献8

1张方伙.基于负荷分类的配网线损自动检测方法设计[J].电气技术与经济,2023(6):265-267. 被引量：2
2贾沈翔.基于孤立森林算法的中压配电网线损异常诊断方法研究[J].电器工业,2023(11):28-30. 被引量：3
3王薪.基于短距无线通信的低压台区线损异常检测方法[J].通信电源技术,2023,40(19):143-145.
4吕家慧.基于K-medoids聚类算法的异常低压台区线损识别方法研究[J].信息与电脑,2023,35(24):61-63. 被引量：2
5丁昱文,石多瑞.低压配电台区线损变化趋势实时监测技术研究[J].电气技术与经济,2024(3):132-135. 被引量：1
6陈文进,杨晓丰,祁炜雯,王建军,赵峰,陈建国,王健.基于原型提取和聚类的光伏电站快速集群划分方法[J].浙江电力,2024,43(4):74-84.
7贺二路,吴向博,刘丽哲,国晓博,杨晓鹏,李皓.基于深度学习的网络基线与加密流量分类技术[J].网络空间安全科学学报,2024,2(2):76-85.
8赵卓,王晓东,关景林,张婧.基于LSTM和随机矩阵理论的配电网线损异常诊断方法[J].电网与清洁能源,2024,40(10):105-114.

1张严文,刘拓.父母消极教养方式对中国性少数心理健康的影响:基于Bifactor模型[J].心理科学,2020,43(5):1103-1110. 被引量：7
2杨显飞,于翔,杨巍巍.基于豪斯托夫距离和二次惩罚支持向量机的鲁棒区间回归研究[J].台州学院学报,2020,42(6):14-18.
3魏敏,陈克锐,刘军,艾勇,马兴义.基于邻近差异分析的风速仪故障诊断[J].云南水力发电,2020,36(9):27-30.
4段彦飞.岳城矿15号煤首采面带压开采防治水技术方案研究[J].煤炭与化工,2020,43(11):78-79. 被引量：1
5李万林,王超,许国良,雒江涛,张轩.基于信令数据的轨迹驻留点识别算法研究[J].电子与信息学报,2020,42(12):3013-3020.
6刘顺义,刘爱军,弓鸣,李国伟,郝富强.数据挖掘在煤矿安全监测监控系统中的应用[J].市场调查信息（综合版）,2020(9):1-1.
7陈峥,李磊磊,舒星,沈世全,刘永刚,申江卫.基于特征处理与径向基神经网络的锂电池剩余容量估算方法[J].储能科学与技术,2021,10(1):261-270. 被引量：6
8余妍,孟婕,陈溪,胡伟.基于异常点检测和改进kNN算法的台户关系辨识方法研究[J].电气自动化,2020,42(6):35-37. 被引量：2
9王丽蓉,郑东健.基于卷积神经网络的大坝安全监测数据异常识别[J].长江科学院院报,2021,38(1):72-77. 被引量：30
10Zhi-qiang Zhang,Li-jian Xu,Rong Liu,Xiao-sheng Liu,Bing-Zhao,Fu-you Liang.Importance of incorporating systemic cerebroarterial hemodynamics into computational modeling of blood flow in intracranial aneurysm[J].Journal of Hydrodynamics,2020,32(3):510-522. 被引量：3

数据与计算发展前沿

2020年第6期

浏览历史

内容加载中请稍等...

FINFLO:快速局部异常点检测算法被引量：2

参考文献7

二级参考文献50

共引文献231

同被引文献18

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

FINFLO:快速局部异常点检测算法 被引量：2

参考文献7

二级参考文献50

共引文献231

同被引文献18

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

FINFLO:快速局部异常点检测算法被引量：2