期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
DBSCAN算法中参数的自适应确定 被引量:37
1
作者 李宗林 罗可 《计算机工程与应用》 CSCD 北大核心 2016年第3期70-73,80,共5页
DBSCAN算法需要人为确定Eps和min Pts两个参数,导致聚类结果的准确度直接取决于用户对参数的选择,因此提出一种新的参数确定方法,采用非参数核密度估计理论分析数据样本的分布特征来自动确定Eps和min Pts参数,避免了聚类过程的人工干预... DBSCAN算法需要人为确定Eps和min Pts两个参数,导致聚类结果的准确度直接取决于用户对参数的选择,因此提出一种新的参数确定方法,采用非参数核密度估计理论分析数据样本的分布特征来自动确定Eps和min Pts参数,避免了聚类过程的人工干预,实现聚类过程的自动化。理论分析和实验结果表明,该方法能够选择合理的Eps和min Pts参数,并得到了较高准确度的聚类结果。 展开更多
关键词 一种经典的基于密度的聚类算法(dbscan) 核密度估计 自适应 聚类
下载PDF
基于密度的DBSCAN聚类算法的研究及应用 被引量:34
2
作者 冯少荣 肖文俊 《计算机工程与应用》 CSCD 北大核心 2007年第20期216-221,共6页
首先对DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法进行了深入研究,分析了它的特点、存在的问题及改进思想,提出了基于DBSCAN方法的交通事故多发点段的排查方法及其改进思路,并且给出了实例以说明处... 首先对DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法进行了深入研究,分析了它的特点、存在的问题及改进思想,提出了基于DBSCAN方法的交通事故多发点段的排查方法及其改进思路,并且给出了实例以说明处理过程及可行性。实验结果表明本文提出的方法可以大大提高交通事故黑点排查效率。 展开更多
关键词 聚类分析 dbscan 交通事故多发点(段) 数据挖掘
下载PDF
基于PHD的粒子滤波检测前跟踪改进算法 被引量:6
3
作者 裴家正 黄勇 +3 位作者 董云龙 何友 陈小龙 陈唯实 《雷达科学与技术》 北大核心 2019年第3期263-270,279,共9页
针对在低信噪比目标检测问题中,基于PHD的粒子滤波检测前跟踪算法(PHD-TBD)存在目标位置估计误差较大的缺陷,提出一种结合粒子群优化算法的基于PHD的粒子滤波检测前跟踪方法(PSO-PHD-TBD)。该算法在滤波预测和更新步骤之间加入基于NSGA... 针对在低信噪比目标检测问题中,基于PHD的粒子滤波检测前跟踪算法(PHD-TBD)存在目标位置估计误差较大的缺陷,提出一种结合粒子群优化算法的基于PHD的粒子滤波检测前跟踪方法(PSO-PHD-TBD)。该算法在滤波预测和更新步骤之间加入基于NSGA-Ⅱ的多目标粒子群优化算法,结合量测信息将预测完成的粒子集的分布进行优化,将所有粒子转移到后验概率密度较大的区域,进而改善了多目标位置估计的性能;然后使用基于密度聚类的DBSCAN算法对粒子聚类,提取目标状态。仿真实验表明,在不同信噪比条件下,PSO-PHD-TBD在多目标数目估计情况与PHD-TBD算法一致,而位置估计精度明显优于PHD-TBD算法。 展开更多
关键词 概率假设密度 粒子滤波 粒子群优化 基于密度聚类 检测前跟踪
下载PDF
基于划分DBSCAN算法的小区载频配置优化 被引量:3
4
作者 刘强 邓磊 +1 位作者 贾振红 覃锡忠 《计算机工程与应用》 CSCD 2014年第8期85-89,共5页
为了充分利用无线网络资源,提升无线网络质量,充分利用了DBSCAN(Density Based Spatial Clustering of Applications with Noise)算法的优点,提出基于划分DBSCAN算法的话务量异常小区的检测方法,并通过对现网大量话务数据的统计分析,找... 为了充分利用无线网络资源,提升无线网络质量,充分利用了DBSCAN(Density Based Spatial Clustering of Applications with Noise)算法的优点,提出基于划分DBSCAN算法的话务量异常小区的检测方法,并通过对现网大量话务数据的统计分析,找出小区载频配置数和最佳话务量之间的关系。对话务量异常、拥塞率高的小区进行载频配置优化,并对城市小区网络优化有一定的指导意义。 展开更多
关键词 数据挖掘 聚类分析 划分 基于密度的带有噪声的空间聚类(dbscan) 载频优化 最佳话务量
下载PDF
DBSCAN算法在高性能计算中心用户分类的应用研究 被引量:2
5
作者 徐海啸 麻婧 吴旗 《吉林大学学报(信息科学版)》 CAS 2013年第5期528-534,共7页
为提高集群资源使用效率,管理员需要对用户进行分类,从而对不同用户提出资源使用策略。DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法可对用户进行分类,但对初始参数敏感。为此,提出改进算法,首先将密... 为提高集群资源使用效率,管理员需要对用户进行分类,从而对不同用户提出资源使用策略。DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法可对用户进行分类,但对初始参数敏感。为此,提出改进算法,首先将密度进行层次划分,由此得出各层次的密度阈值,在每种阈值下采用DBSCAN算法,解决全局参数问题。在此基础上,创新地使用一个直接可达距离排序队列,将排序信息作为可变参数,减小初始参数对结果的影响。通过高性能计算中心用户数据的实例验证了其可行性。实验结果表明,改进后的算法提高了用户分类的准确性和全面性。 展开更多
关键词 聚类分析 dbscan算法 高性能计算中心 用户分类 数据挖掘
下载PDF
一种基于密度的面向线段的聚类算法
6
作者 康大伟 陈天滋 《计算机应用》 CSCD 北大核心 2007年第11期2760-2762,2780,共4页
分析了密度聚类算法(DBSCAN)的局限性,在此基础上提出了一种基于密度的面向线段的聚类方法,将DBSCAN中聚类的对象由点转变为线段。在对点聚类的基础上,研究了线段聚类的特点。该算法可以有效处理分布不均匀的线段对象集,发现分布密度不... 分析了密度聚类算法(DBSCAN)的局限性,在此基础上提出了一种基于密度的面向线段的聚类方法,将DBSCAN中聚类的对象由点转变为线段。在对点聚类的基础上,研究了线段聚类的特点。该算法可以有效处理分布不均匀的线段对象集,发现分布密度不同的各种簇。通过试验证明了该方法的可行性与有效性。 展开更多
关键词 dbscan 聚类 面向线段的聚类 对象
下载PDF
基于AIS信息的单锚泊船舶走锚监测报警方法 被引量:3
7
作者 肖进丽 付耀方 程涛 《大连海事大学学报》 CAS CSCD 北大核心 2018年第4期8-14,共7页
根据不同情况下单锚泊船舶运动规律,提出相应的基于AIS信息的单锚泊船舶走锚监控预警方法.对于风、流较小时的船舶走锚监控,首先,采用一种基于相似度曲线且其Eps邻域阈值可调的改进密度空间聚类算法(DBSCAN),对原始锚泊船舶位置信息进... 根据不同情况下单锚泊船舶运动规律,提出相应的基于AIS信息的单锚泊船舶走锚监控预警方法.对于风、流较小时的船舶走锚监控,首先,采用一种基于相似度曲线且其Eps邻域阈值可调的改进密度空间聚类算法(DBSCAN),对原始锚泊船舶位置信息进行去噪处理;然后,对去噪后的数据进行圆曲线拟合,求出轨迹圆心并视为锚位点;最后,将其位置变化以及船速变化一并作为走锚的判定依据来判断船舶是否走锚并报警.对于风、流较大时的锚泊船走锚监控,则先确定锚泊船"∞"型运动的两个极限点的位置;然后,基于该两个极限点位置求出锚位点;最后,根据船位距锚位点的距离变化及船速变化进行走锚分析和判断.实例和模拟分析证明了所提方法的有效性. 展开更多
关键词 单锚泊船舶 走锚监测 AIS信息 改进dbscan算法
原文传递
基于密度提取的细胞荧光图像标识算法 被引量:2
8
作者 叶大田 张锐 钱翔 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期129-132,共4页
为解决常用的基于图像像素连通性的分类标识算法和当前的基于密度可达性的快速算法在处理类似线粒体等分布不连续的荧光图像上存在标识不稳定和误标识的问题,通过改进基于密度的算法在搜集对象上的策略,采用基于局部密度提取的搜集方法... 为解决常用的基于图像像素连通性的分类标识算法和当前的基于密度可达性的快速算法在处理类似线粒体等分布不连续的荧光图像上存在标识不稳定和误标识的问题,通过改进基于密度的算法在搜集对象上的策略,采用基于局部密度提取的搜集方法。结果表明:对于不连续分布的荧光图像,这种方法可以很稳定的给出符合实际的分类标识结果,优于基于连通性和基于密度的快速算法,准确率和稳定性较高。 展开更多
关键词 密度提取方法(DBE) 基于密度的带噪声空间聚类(dbscan) 亚细胞荧光图像 图像分割
原文传递
基于密度聚类技术的电力系统用电量异常分析算法 被引量:66
9
作者 田力 向敏 《电力系统自动化》 EI CSCD 北大核心 2017年第5期64-70,共7页
如何科学、准确地识别异常用电量对于改善电力系统用电管理至关重要。文中提出一种基于密度聚类技术的电力系统用电量异常分析算法。该算法通过基于密度的聚类技术和局部离群点要素给出异常用电波动区间的离群度,利用关联分析法构造关... 如何科学、准确地识别异常用电量对于改善电力系统用电管理至关重要。文中提出一种基于密度聚类技术的电力系统用电量异常分析算法。该算法通过基于密度的聚类技术和局部离群点要素给出异常用电波动区间的离群度,利用关联分析法构造关联规则,同时给出其关联规则支持度,并结合当前用电量综合分析获取异常用电得分。最后以异常用电百分比实现用电量信息异常情况的快速、可靠分析。仿真和实验测试结果表明该异常分析算法能够高效识别用电信息异常数据,从而提高用电量异常分析的准确率。 展开更多
关键词 用电量异常分析 密度聚类 局部离群点要素 关联分析
下载PDF
停留点空间聚类在景区热点分析中的应用 被引量:26
10
作者 张文元 谈国新 朱相舟 《计算机工程与应用》 CSCD 北大核心 2018年第4期263-270,共8页
各种集成位置服务(LBS)的社交和旅游类APP的广泛应用,产生了大量轨迹空间数据,利用这些轨迹数据挖掘游客聚集密度高的热门景点区域,对景区的智慧服务和应急管理具有重要意义。为此,提出了一种基于轨迹停留点空间聚类的景区热点分析方法... 各种集成位置服务(LBS)的社交和旅游类APP的广泛应用,产生了大量轨迹空间数据,利用这些轨迹数据挖掘游客聚集密度高的热门景点区域,对景区的智慧服务和应急管理具有重要意义。为此,提出了一种基于轨迹停留点空间聚类的景区热点分析方法。重点研究了聚类速度快、能处理噪声、可以发现空间任意形状聚簇的DBSCAN算法,针对其参数需人工选择的不足,提出了一种根据数据统计分布特性来自适应确定参数的改进方法。分别采用人工合成二维数据集、四维Iris真实数据集和景区轨迹停留点三种不同的数据进行了DBSCAN聚类分析及对比实验,结果表明该方法可以自动产生合理的聚簇划分,优于传统DBSCAN和k-means等算法。最后,依据轨迹停留点的空间聚类结果,在Arc GIS软件中实现Getis-Ord Gi*热点分析与制图,并依据分析结果对不同旅游景点进行热度分级,形成的热门景点分布与景区掌握的实际热度信息基本一致,证实了提出方法的有效性。 展开更多
关键词 停留点 空间聚类 热点分析 dbscan算法 轨迹 景区
下载PDF
基于网格单元的DBSCAN算法 被引量:24
11
作者 刘淑芬 孟冬雪 王晓燕 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第4期1135-1139,共5页
针对DBSCAN算法时间开销大的缺点,提出了基于网格单元的DBSCAN算法,通过对数据空间进行网格单元划分来优化DBSCAN算法中最耗时的区域查询过程,省去了大量不必要的查询操作,并分析了网格单元的划分方式对本文算法的影响,通过选取最优划... 针对DBSCAN算法时间开销大的缺点,提出了基于网格单元的DBSCAN算法,通过对数据空间进行网格单元划分来优化DBSCAN算法中最耗时的区域查询过程,省去了大量不必要的查询操作,并分析了网格单元的划分方式对本文算法的影响,通过选取最优划分方式,提高整个算法的运行效率。通过仿真实验,验证了基于网格单元的DBSCAN算法具有较高的准确率和较低的时间复杂度。 展开更多
关键词 计算机应用 数据挖掘 聚类分析 dbscan 网格单元
下载PDF
一种基于k-均值的DBSCAN算法参数动态选择方法 被引量:23
12
作者 王兆丰 单甘霖 《计算机工程与应用》 CSCD 北大核心 2017年第3期80-86,共7页
为解决DBSCAN聚类算法的Eps及MinPts参数选择问题,提出一种领域无关的参数动态选择方法。首先,基于k-均值算法对数据集进行初步聚类,聚类中采用最大最小距离方法确定初始聚类中心。其次,针对k-均值聚类结果,计算统计各聚类中样本间距离... 为解决DBSCAN聚类算法的Eps及MinPts参数选择问题,提出一种领域无关的参数动态选择方法。首先,基于k-均值算法对数据集进行初步聚类,聚类中采用最大最小距离方法确定初始聚类中心。其次,针对k-均值聚类结果,计算统计各聚类中样本间距离的分布情况,选择使得具有最大样本对数的距离值作为对应类的Eps值,并通过Eps获得MinPts值。最后,对DBSCAN算法进行改进,使其可根据当前核心点所属k-均值聚类对应的Eps对其运行值进行自适应调整。将上述思想运用于未知协议条件下的比特流聚类分析,结果表明,在无需用户指定Eps及MinPts的条件下,即可获得满意的聚类结果,提高了算法的适用性和准确率。 展开更多
关键词 聚类 一种经典的基于密度的聚类算法(dbscan) 参数选择 K-均值算法 未知协议
下载PDF
基于改进的随机森林和密度聚类的短期负荷频域预测方法 被引量:22
13
作者 张金金 张倩 +1 位作者 马愿 李智 《控制理论与应用》 EI CAS CSCD 北大核心 2020年第10期2257-2265,共9页
精确的负荷预测对于电力系统的有效调度和安全运行至关重要.本文提出基于改进的随机森林(IRF)和密度的聚类(DBSCAN)的频域组合预测方法.首先,采用经验小波变换(EWT)分解负荷,得到不同的固有模态分量(IMFs);其次,根据各分量特征采用合理... 精确的负荷预测对于电力系统的有效调度和安全运行至关重要.本文提出基于改进的随机森林(IRF)和密度的聚类(DBSCAN)的频域组合预测方法.首先,采用经验小波变换(EWT)分解负荷,得到不同的固有模态分量(IMFs);其次,根据各分量特征采用合理的方法进行预测.其中,低频、中频分量采用IRF预测;高频分量使用DBSCAN根据气象因素温度和湿度聚类,再根据每类的样本特性选择处理方法.最后,叠加各分量的预测值,获取负荷预测值.根据某地市现场负荷数据进行实验,预测结果分别与EWT–IRF,EWT–随机森林(RF)、经验模态分解(EMD)–IRF模型的预测结果进行对比.结果表明,提出的模型具有更高的预测精度,反映了实际负荷的随机性. 展开更多
关键词 负荷预测 基于改进的随机森林 基于密度的聚类 经验小波变换
下载PDF
基于改进单类支持向量机的工业控制网络入侵检测方法 被引量:18
14
作者 刘万军 秦济韬 曲海成 《计算机应用》 CSCD 北大核心 2018年第5期1360-1365,1371,共7页
针对单类支持向量机(OCSVM)入侵检测方法无法检测内部异常点和离群点导致决策函数偏离训练样本的问题,提出了一种结合具有噪声的密度聚类(DBSCAN)方法和K-means方法的OCSVM异常入侵检测算法。首先通过DBSCAN算法,剔除训练数据中的离群点... 针对单类支持向量机(OCSVM)入侵检测方法无法检测内部异常点和离群点导致决策函数偏离训练样本的问题,提出了一种结合具有噪声的密度聚类(DBSCAN)方法和K-means方法的OCSVM异常入侵检测算法。首先通过DBSCAN算法,剔除训练数据中的离群点,消除离群点的影响;然后利用K-means划分数据类簇的方法筛选出内部异常点;最后利用OCSVM算法为每一个类簇建立单分类器用于检测异常数据。工控网络数据集上的实验结果表明,该组合分类器能够利用无异常数据样本检测出工控网络入侵,并且提高了OCSVM方法的检测效果。在气体管道网络数据集入侵检测实验中,所提方法的总体检测率为91.81%;而原始OCSVM算法则为80.77%。 展开更多
关键词 单类支持向量机 具有噪声的密度聚类 K-MEANS 工业控制网络 异常入侵检测
下载PDF
整合DBSCAN和改进SMOTE的过采样算法 被引量:16
15
作者 王亮 冶继民 《计算机工程与应用》 CSCD 北大核心 2020年第18期111-118,共8页
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOT... 针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。 展开更多
关键词 过采样 类内不平衡 少数类 多样性 SMOTE算法 dbscan算法
下载PDF
基于传递熵密度聚类的用户窃电识别方法 被引量:14
16
作者 刘康 李彬 +4 位作者 薛阳 杨艺宁 徐英辉 刘爱国 苏盛 《中国电机工程学报》 EI CSCD 北大核心 2022年第20期7535-7545,共11页
在配电线路/台区中,接入用户的用电量与线损电量间存在因果关系,正常用户电量变化对线损电量的影响有限,而窃电用户的用电量对线损电量的影响异于正常用户。传递熵能衡量变量间的信息传递,是评价因果性的重要指标。该文提出基于传递熵... 在配电线路/台区中,接入用户的用电量与线损电量间存在因果关系,正常用户电量变化对线损电量的影响有限,而窃电用户的用电量对线损电量的影响异于正常用户。传递熵能衡量变量间的信息传递,是评价因果性的重要指标。该文提出基于传递熵密度聚类的用户窃电识别方法。首先运用传递熵指向性筛选出对线路/台区线损电量因果关联较强的用户;然后构建其与线损电量的传递熵模型,计算不同时长的用户用电量对线损电量的传递熵值,以衡量其信息传递量;再结合密度聚类算法,将传递熵曲线偏离正常用户类簇的识别为与线损有强因果性的窃电用户。最后,基于已查证的高损台区和长距离配电线路实际数据,验证所提方法的有效性。 展开更多
关键词 窃电 传递熵 基于密度的噪声应用空间聚类 因果关联 线损电量
下载PDF
基于DBSCAN的复杂环境下车道线鲁棒检测及跟踪 被引量:12
17
作者 洪伟 王吉通 +2 位作者 刘宇 田彦涛 巩磊 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第6期2122-2130,共9页
为了提高车道线检测的准确性、实时性和鲁棒性,首先,利用逆透视点变换减少图像形变;根据颜色和几何特征,基于DBSCAN算法实现聚类簇划分。然后,利用基于抛物线模型的随机采样一致性拟合方法初步完成车道线提取,并针对不同的环境干扰,制... 为了提高车道线检测的准确性、实时性和鲁棒性,首先,利用逆透视点变换减少图像形变;根据颜色和几何特征,基于DBSCAN算法实现聚类簇划分。然后,利用基于抛物线模型的随机采样一致性拟合方法初步完成车道线提取,并针对不同的环境干扰,制定了相应的优化策略,实现了自车道线的鲁棒检测。最后,利用卡尔曼滤波对车道线模型进行跟踪处理,保证系统的稳定性。实验证明,本文算法在多种复杂环境下都能准确识别自车道线,能够满足辅助驾驶系统的实际需求。 展开更多
关键词 模式识别 车道线检测 密度聚类 随机采样一致性算法 卡尔曼滤波跟踪
原文传递
基于KD树改进的DBSCAN聚类算法 被引量:11
18
作者 陈文龙 时宏伟 《计算机系统应用》 2022年第2期305-310,共6页
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了... 针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统DBSCAN算法和KD-DBSCAN算法的聚类效果和时间性能,实验结果表明KD-DBSCAN算法的聚类效果和传统的DBSCAN基本一致,但时间性能有很大的提升. 展开更多
关键词 聚类 dbscan算法 KD树
下载PDF
基于典型波形特征与改进DBSCAN的电压暂降同源识别方法 被引量:10
19
作者 汪颖 谢佳妮 +1 位作者 邓凌峰 肖先勇 《电力系统自动化》 EI CSCD 北大核心 2021年第11期126-135,共10页
针对电网内单次短路故障可能触发多条母线上的电能质量监测装置记录电压暂降波形,造成电压暂降录波数据冗余、电网电压暂降水平过估计的问题,提出一种基于典型波形特征与改进基于密度的有噪空间聚类(DBSCAN)的电压暂降同源识别方法。首... 针对电网内单次短路故障可能触发多条母线上的电能质量监测装置记录电压暂降波形,造成电压暂降录波数据冗余、电网电压暂降水平过估计的问题,提出一种基于典型波形特征与改进基于密度的有噪空间聚类(DBSCAN)的电压暂降同源识别方法。首先,提出综合倾斜因子、波形相似度和持续时间三维特征,综合刻画电压暂降同源性;同时,研究电压暂降经多级变压器的传播特性,推导出13种变压器相电压等效传递矩阵,并提出基于Bhattacharyya距离的波形相似度计算方法。其次,利用共享近邻点(SNN)改进DBSCAN,对由三维特征构成的矩阵进行同源聚类,提出基于电网节点总数和监测点总数的聚类参数计算方法,实现电压暂降同源识别。应用实测数据和IEEE 30节点系统仿真数据进行验证,结果证明了所提方法的正确性和有效性。 展开更多
关键词 电压暂降 数据冗余 过估计 同源识别 三维特征 BHATTACHARYYA距离 基于密度的有噪空间聚类(dbscan)
下载PDF
Over-sampling algorithm for imbalanced data classification 被引量:9
20
作者 XU Xiaolong CHEN Wen SUN Yanfei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第6期1182-1191,共10页
For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic... For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic minority over-sampling technique(SMOTE) is specifically designed for learning from imbalanced datasets, generating synthetic minority class examples by interpolating between minority class examples nearby. However, the SMOTE encounters the overgeneralization problem. The densitybased spatial clustering of applications with noise(DBSCAN) is not rigorous when dealing with the samples near the borderline.We optimize the DBSCAN algorithm for this problem to make clustering more reasonable. This paper integrates the optimized DBSCAN and SMOTE, and proposes a density-based synthetic minority over-sampling technique(DSMOTE). First, the optimized DBSCAN is used to divide the samples of the minority class into three groups, including core samples, borderline samples and noise samples, and then the noise samples of minority class is removed to synthesize more effective samples. In order to make full use of the information of core samples and borderline samples,different strategies are used to over-sample core samples and borderline samples. Experiments show that DSMOTE can achieve better results compared with SMOTE and Borderline-SMOTE in terms of precision, recall and F-value. 展开更多
关键词 imbalanced data density-based spatial clustering of applications with noise(dbscan) synthetic minority over sampling technique(SMOTE) over-sampling.
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部