-
题名基于孤立森林的多离群点数据检测算法设计
- 1
-
-
作者
李加军
-
机构
广州华商学院数据科学学院
-
出处
《现代电子技术》
北大核心
2024年第5期139-142,共4页
-
基金
广州华商学院校内导师制科研项目:大数据驱动的电子商务企业竞争力评价研究(2022HSDS12)。
-
文摘
精准找出异常离群数据有利于确保大规模数据在应用中的精确度,为此,设计了基于孤立森林的多离群点数据检测算法。首先,采用近似符号聚合算法处理大规模数据的多条件时间序列,再通过计算欧氏距离分析多条件时间序列的相似度,而后采用加权调整法调整相似曲线,剔除其中的异常数据,完成对大规模数据的清洗;利用清洗后的数据构建孤立树形成孤立森林,将待检测数据作为孤立森林的输入量,通过计算数据样本点到每棵树根节点的距离,实现对离群点数据的检测。实验结果表明:该算法能够有效地检测出离群点数据,在针对大规模数据离群点的检测时,检测结果精确度较高。
-
关键词
孤立树
孤立森林
离群点
大规模数据
异常检测
相似度测量
数据清洗
时间序列
-
Keywords
isolation tree
isolation forest
outlier
large⁃scale data
anomaly detection
similarity measurement
data cleansing
time series
-
分类号
TN99-34
[电子电信—信号与信息处理]
-
-
题名基于多维关联规则的大规模数据并行挖掘研究
- 2
-
-
作者
赵林燕
雷沁怡
洪德华
孙琦
刘翠玲
-
机构
国网安徽信通公司数据运营中心
-
出处
《电子设计工程》
2023年第24期159-162,167,共5页
-
文摘
为了解决因数据离散程度过大导致大规模数据并行挖掘质量变差的问题,提出基于多维关联规则的大规模数据并行挖掘方法。遵循多维关联思想建立关联树结构,根据RFM值计算公式完善多维运算法则,利用多维关联规则构建数据集合。求取近邻值指标、逆近邻值指标的数值,以此确定离散挖掘系数,结合该系数并行挖掘大规模数据。实验结果表明,在多维关联规则作用下,数据离散度取值小于35%,数据分布不再呈现稀疏状态,能有效提升大规模数据并行挖掘质量。
-
关键词
多维关联规则
大规模数据
并行挖掘
RFM值
近邻值
逆近邻值
-
Keywords
multi⁃dimensional association rules
large⁃scale data
parallel mining
RFM value
nearest neighbor value
inverse nearest neighbor value
-
分类号
TN-9
[电子电信]
-
-
题名面向海量机械故障数据的胶囊网络算法研究
- 3
-
-
作者
王斌
-
机构
四川建筑职业技术学院
-
出处
《机床与液压》
北大核心
2021年第8期182-187,共6页
-
文摘
针对卷积神经网络算法在大规模故障数据集检测中出现的故障敏感度低、部分特征丢失等问题,提出一种基于优化胶囊网络算法的机械故障检测方案。胶囊网络算法采用多神经元封装的胶囊体结构设计,且包含多个胶囊层,具有更强的故障数据处理能力和泛化能力;经过squash函数挤压后的胶囊矢量可以更准确地提取和描述故障特征;升维胶囊矢量,基于特征编码和归一化的处理方式,可得到更准确的故障分类结果。实验结果显示:优化胶囊网络算法具有更强的故障特征聚类性能和迭代运算性能,故障集检测精度值高于经典卷积神经网络算法。
-
关键词
胶囊网络算法
大规模故障数据集
squash函数
特征编码
-
Keywords
Capsule network algorithm
large⁃scale fault data set
squash function
Feature coding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-