-
题名基于可变网格划分的密度偏差抽样算法
被引量:7
- 1
-
-
作者
盛开元
钱雪忠
吴秦
-
机构
江南大学物联网工程学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第9期2419-2422,共4页
-
基金
国家自然科学基金资助项目(61103129
61202312)
江苏省科技支撑计划项目(BE2009009)
-
文摘
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。
-
关键词
密度偏差抽样
可变网格划分
数据挖掘
大规模数据集
聚类
-
Keywords
density biased sampling
variable grid division
data mining
large-scale dataset
clustering
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP301.6
[自动化与计算机技术—控制科学与工程]
-
-
题名基于局部离群点检测的高频数据共现聚类算法
被引量:7
- 2
-
-
作者
周志洪
马进
夏正敏
陈秀真
-
机构
上海交通大学网络安全技术研究院
上海市信息安全综合管理技术研究重点实验室
-
出处
《计算机仿真》
北大核心
2021年第3期482-486,共5页
-
基金
上海市工业强基专项项目智能网联汽车信息安全研发与公共服务平台(GYQJ-2018-3-03)。
-
文摘
高频数据易出现异常且出于无序状态,研究基于局部离群点检测的高频数据共现聚类算法。利用可变网格划分的局部离群点,挖掘高频数据集内的高频数据对象,剔除异常高频数据对象,降序排列各个高频数据对象的局部离群因子值,获取较大离群因子值的高频数据对象,提升高频数据共现聚类的执行效率;计算获取的高频数据对象共现相似度,得到高频数据共现相似度矩阵,根据相似度矩阵合并包含最大相似性的聚类,完成高频数据共现聚类。实验结果表明:能准确检测出高频数据集内离群点数量,高频数据共现聚类执行效率快、准确性高。
-
关键词
局部离群点
高频数据
共现相似度
可变网格划分
-
Keywords
Local outlier
high frequency data
co-occurrence similarity
variable mesh generation
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-