期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
一种基于混合重取样策略的非均衡数据集分类算法 被引量:22
1
作者 谷琼 袁磊 +3 位作者 宁彬 吴钊 华丽 李文新 《计算机工程与科学》 CSCD 北大核心 2012年第10期128-134,共7页
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类... 非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。 展开更多
关键词 分类 非均衡数据集 预处理 混合重取样 SMOTE 聚类
下载PDF
面向不均衡数据集的过抽样算法 被引量:9
2
作者 崔鑫 徐华 宿晨 《计算机应用》 CSCD 北大核心 2020年第6期1662-1667,共6页
合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线... 合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 簇心 不均衡数据集 合成少数类过抽样技术 聚类 过采样
下载PDF
动态增量聚类的设计与实现 被引量:7
3
作者 孟海东 王淑玲 郝永宽 《计算机工程与应用》 CSCD 北大核心 2009年第24期130-132,共3页
传统聚类算法往往只适用于静态数据集的聚类。对于动态数据集,新增数据后,前期的聚类结果不再可靠,运用此类算法则需要重新聚类,这样会造成效率低下和计算资源浪费。在基于密度和自适应密度可达聚类算法的基础上,提出了一种新的增量聚... 传统聚类算法往往只适用于静态数据集的聚类。对于动态数据集,新增数据后,前期的聚类结果不再可靠,运用此类算法则需要重新聚类,这样会造成效率低下和计算资源浪费。在基于密度和自适应密度可达聚类算法的基础上,提出了一种新的增量聚类算法。理论分析和实验结果证明该算法能够有效地处理动态数据集,提高聚类效率和资源的利用率。 展开更多
关键词 动态数据集 密度可达 增量聚类
下载PDF
类不平衡数据的EM聚类过采样算法 被引量:7
4
作者 谢子鹏 包崇明 +2 位作者 周丽华 王崇云 孔兵 《计算机科学与探索》 CSCD 北大核心 2023年第1期228-237,共10页
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的... 针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE、Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡和SMOTE等算法没有明确采样率的问题。在公开的24个类不平衡数据集上进行了实验,验证了方法的有效性。 展开更多
关键词 分类任务 不平衡数据集 类不平衡 过采样 聚类
下载PDF
未确知聚类在专利质量评价中的应用 被引量:6
5
作者 张妮妮 孙胜娟 张永健 《现代电子技术》 北大核心 2020年第8期143-146,共4页
随着人们对知识产权的重视,作为其重要表征的专利的数量呈现爆发式增长,然而专利的质量却没有随之增长。大量的低质量专利不但作用有限,反而会造成社会资源浪费和遏制创新。对于专利质量的评价,目前还没有统一的标准。文中首先对国内外... 随着人们对知识产权的重视,作为其重要表征的专利的数量呈现爆发式增长,然而专利的质量却没有随之增长。大量的低质量专利不但作用有限,反而会造成社会资源浪费和遏制创新。对于专利质量的评价,目前还没有统一的标准。文中首先对国内外的专利质量指标进行分析,选取出对专利质量影响较大的指标,构建专利质量评价指标模型。同时,以钢铁行业相关专利为目标数据集,分别采用未确知聚类和模糊均值聚类算法对目标专利质量进行分析评价。最终,将目标专利数据聚类出不同的级别,得出高质量专利。在聚类过程中,发现未确知聚类算法在效率和准确率上都有良好的表现。 展开更多
关键词 专利质量评价 未确知聚类 专利数据分析 评价模型构建 数据集聚类 对比实验
下载PDF
面向大数据集的共享近邻聚类研究 被引量:5
6
作者 潘章明 陈尹立 《小型微型计算机系统》 CSCD 北大核心 2014年第1期50-54,共5页
共享近邻(SNN)相似度能有效克服由高维和多密度等因素引起的聚类有效性问题,但计算效率不高.基于分治策略,提出一种改进的共享近邻聚类算法(DC-SNN).采用软划分策略将数据集分割为多个小规模子集,降低了计算SNN相似矩阵时需要搜索的数... 共享近邻(SNN)相似度能有效克服由高维和多密度等因素引起的聚类有效性问题,但计算效率不高.基于分治策略,提出一种改进的共享近邻聚类算法(DC-SNN).采用软划分策略将数据集分割为多个小规模子集,降低了计算SNN相似矩阵时需要搜索的数据点数量,同时,也避免了子集分割边界对数据点K近邻产生的不利影响.根据在子集中定义的核心数据点和扩展数据点,给出了子集中SNN相似矩阵的计算方法和合并策略,从而确保了以子集SNN相似矩阵表示整个数据集SNN相似矩阵的有效性.实验结果表明,DC-SNN算法能够在确保聚类精度不变的情况下,显著提高共享近邻聚类的效率. 展开更多
关键词 共享近邻 分治法 大数据集 聚类分析
下载PDF
Parallel Spectral Clustering Based on MapReduce 被引量:3
7
作者 Qiwei Zhong Yunlong Lin +3 位作者 Junyang Zou Kuangyan Zhu Qiao Wang Lei Hu 《ZTE Communications》 2013年第2期45-50,共6页
Clustering is one of the most widely used techniques for exploratory data analysis. Spectral clustering algorithm, a popular modern cluslering algorithm, has been shown to be more effective in detecting clusters than ... Clustering is one of the most widely used techniques for exploratory data analysis. Spectral clustering algorithm, a popular modern cluslering algorithm, has been shown to be more effective in detecting clusters than many traditional algorithms. It has applications ranging from computer vision and information retrieval to social sienee and biology. With the size of databases soaring, cluostering algorithms bare saling computational time and memory use. In this paper, we propose a parallel spectral elustering implementation based on MapRednee. Both the computation and data storage are dislributed, which solves the sealability problems for most existing algorithms. We empirically analyze the proposed implementation on both benchmark net- works and a real social network dataset of about two million vertices and two billion edges crawled from Sina Weibo. It is shown that the proposed implementation scales well, speeds up the clustering without sacrificing quality, and processes massive datasets efficiently on commodity machine clusters. 展开更多
关键词 spectral clustering parallel implementation massive dataset Hadoop MapRedue data mining
下载PDF
基于数字报历史优秀版面的样式智能生成与微调
8
作者 陶颖 程雨夏 +3 位作者 曾振宇 庄跃辉 张艺馨 何兴臻 《智能系统学报》 CSCD 北大核心 2024年第4期930-940,共11页
在传统报纸印刷行业中,设计人员需要根据设计规则进行人工排版,其排版过程造价成本较高且耗时耗力。为提高排版效率,研究提出一种基于历史优秀版面的样式自动生成与微调方法。为了从数据中学习到报纸排版的风格,创建一个包含丰富的设计... 在传统报纸印刷行业中,设计人员需要根据设计规则进行人工排版,其排版过程造价成本较高且耗时耗力。为提高排版效率,研究提出一种基于历史优秀版面的样式自动生成与微调方法。为了从数据中学习到报纸排版的风格,创建一个包含丰富的设计元素参数信息的电子报数据库,这些特征信息能够有效地反映报纸的布局。对于给定的新闻文章,首先根据历史优秀版面训练概率模型来推断电子报版面的样式,并结合固定约束和用户约束保证样式有效,同时构建美学设计原理的量化方法进一步实现样式微调。最后通过定性和定量评估,表明新方法可以生成满足视觉美观性、层次性和可读性的报纸。本文方法可为版面设计样式智能生成提供参考。 展开更多
关键词 布局自动化 图形设计 设计原理 图像数据库 数据驱动方法 概率分布 聚类 约束规划
下载PDF
基于改进层次方法的无参K-means算法 被引量:3
9
作者 史国斌 张忠林 《计算机仿真》 北大核心 2022年第8期340-346,426,共8页
K-means算法是一种经典聚类算法,其优势是简单高效。特别在面对大型数据集时,上述算法仍能保持高效性和可伸缩性,因此K-means算法仍具有广泛应用前景。K-means算法对初值敏感,初值的选取对算法执行的效率和结果均有影响。为了最好的利用... K-means算法是一种经典聚类算法,其优势是简单高效。特别在面对大型数据集时,上述算法仍能保持高效性和可伸缩性,因此K-means算法仍具有广泛应用前景。K-means算法对初值敏感,初值的选取对算法执行的效率和结果均有影响。为了最好的利用K-means算法在大数据集上的高效,规避其初值敏感等缺点,提出一种算法,通过利用自下而上的凝聚方法对抽样数据进行有监督的迭代划分,最后取抽样数据上CH估分最高的类数k和类中心作为入参输入K-means,在完整数据集上进行聚类。通过对多个UCI真实世界数据集的聚类实验表明,面对样本数为1797、有64维属性的数据集时,基于聚类标签的归一化条件熵度量(V-measure)比随机中心K-means平均改善113%(733/628/3+723/605/3+744/652/3)、时间效率比后者提高10倍(0.79/0.07-1)。在数据集样本数达到2458284、属性达到68维且不进行主成分分析处理(PCA)时,K-means聚类时间提高984%。 展开更多
关键词 聚类 数据预处理 层次聚类
下载PDF
基于YOLOV3算法的行人检测方法 被引量:2
10
作者 孟本成 《电视技术》 2019年第9期6-9,46,共5页
针对传统行人检测器鲁棒性差,定位精度差且漏检率较高的问题,提出一种基于YOLOV3网络结构行人检测方法。结合行人尺寸特点和改变卷积层的数量,聚类选取恰当的候选框,改进YOLOV3网络结构,得到适用于行人检测的网络结构。实验结果表明,与H... 针对传统行人检测器鲁棒性差,定位精度差且漏检率较高的问题,提出一种基于YOLOV3网络结构行人检测方法。结合行人尺寸特点和改变卷积层的数量,聚类选取恰当的候选框,改进YOLOV3网络结构,得到适用于行人检测的网络结构。实验结果表明,与HOG+SVM、Faster R-CNN、YOLO等主流方法比较,改进的YOLOV3行人检测方法对于定位的准确性和精确度有一定的提升。 展开更多
关键词 行人数据集 行人检测 深度学习 聚类 YOLO
下载PDF
Issues in the Mining of Heart Failure Datasets
11
作者 Nongnuch Poolsawad Lisa Moore +1 位作者 Chandrasekhar Kambhampati John G.F.Cleland 《International Journal of Automation and computing》 EI CSCD 2014年第2期162-179,共18页
This paper investigates the characteristics of a clinical dataset using a combination of feature selection and classification methods to handle missing values and understand the underlying statistical characteristics ... This paper investigates the characteristics of a clinical dataset using a combination of feature selection and classification methods to handle missing values and understand the underlying statistical characteristics of a typical clinical dataset. Typically, when a large clinical dataset is presented, it consists of challenges such as missing values, high dimensionality, and unbalanced classes. These pose an inherent problem when implementing feature selection and classification algorithms. With most clinical datasets, an initial exploration of the dataset is carried out, and those attributes with more than a certain percentage of missing values are eliminated from the dataset. Later, with the help of missing value imputation, feature selection and classification algorithms, prognostic and diagnostic models are developed. This paper has two main conclusions: 1) Despite the nature of clinical datasets, and their large size, methods for missing value imputation do not affect the final performance. What is crucial is that the dataset is an accurate representation of the clinical problem and those methods of imputing missing values are not critical for developing classifiers and prognostic/diagnostic models. 2) Supervised learning has proven to be more suitable for mining clinical data than unsupervised methods. It is also shown that non-parametric classifiers such as decision trees give better results when compared to parametric classifiers such as radial basis function networks(RBFNs). 展开更多
关键词 Heart failure clinical dataset classification clustering missing values feature selection.
原文传递
Survey on Clustering Techniques for Image Categorization Dataset
12
作者 Mohd Afizi Mohd Shukran Mohd Sidek Fadhil Mohd Yunus +5 位作者 Muhammad Naim Abdullah Mohd Rizal Mohd Isa Mohammad Adib Khairuddin Kamaruzaman Maskat Suhaila Ismail Abdul Samad Shibghatullah 《Journal of Computer and Communications》 2022年第6期177-185,共9页
Content Based Image Retrieval, CBIR, performed an automated classification task for a queried image. It could relieve a user from the laborious and time-consuming metadata assigning for an image while working on massi... Content Based Image Retrieval, CBIR, performed an automated classification task for a queried image. It could relieve a user from the laborious and time-consuming metadata assigning for an image while working on massive image collection. For an image, user’s definition or description is subjective where it could belong to different categories as defined by different users. Human based categorization and computer-based categorization might produce different results due to different categorization criteria that rely on dataset structure and the clustering techniques. This paper is aimed to exhibit an idea for planning the dataset structure and choosing the clustering algorithm for CBIR implementation. There are 5 sections arranged in this paper;CBIR and QBE concepts are introduced in Section 1, related image categorization research is listed in Section 2, the 5 type of image clustering are described in Section 3, comparative analysis in Section 4, and Section 5 conclude this study. Outcome of this paper will be benefiting CBIR developer for various applications. 展开更多
关键词 CATEGORIZATION CBIR CLASSIFICATIONS clustering dataset
下载PDF
动态增量聚类算法在足球运动员跑动能力挖掘中的应用 被引量:1
13
作者 尹倩 张翠 《长沙大学学报》 2017年第2期54-57,共4页
以聚类技术为手段,对足球运动员跑动类型进行挖掘分析,主要工作包括:针对实际跑动数据动态增加的特点,提出动态增量聚类算法应用在训练跑动能力挖掘研究中;对聚类数据来源和数据类型等进行一系列的处理;对所提出的算法进行了实验和验证... 以聚类技术为手段,对足球运动员跑动类型进行挖掘分析,主要工作包括:针对实际跑动数据动态增加的特点,提出动态增量聚类算法应用在训练跑动能力挖掘研究中;对聚类数据来源和数据类型等进行一系列的处理;对所提出的算法进行了实验和验证.结果表明,此方法符合足球训练技术特点,挖掘出的知识智能且准确,具有一定的应用价值. 展开更多
关键词 动态数据集 增量聚类 跑动加速度
下载PDF
动态增量聚类算法在足球训练运动员跑动能力挖掘中的研究和应用 被引量:1
14
作者 尹倩 《成都师范学院学报》 2017年第3期26-30,共5页
以聚类技术为手段,对运动员跑动类型进行挖掘分析,主要工作包括:针对实际跑动动态的特点,提出动态增量聚类算法应用在训练跑动能力挖掘研究中;对聚类数据来源和数据类型等进行一系列的处理;对所提出的算法进行了实验和验证。结果表明,... 以聚类技术为手段,对运动员跑动类型进行挖掘分析,主要工作包括:针对实际跑动动态的特点,提出动态增量聚类算法应用在训练跑动能力挖掘研究中;对聚类数据来源和数据类型等进行一系列的处理;对所提出的算法进行了实验和验证。结果表明,此方法符合足球训练技术特点,挖掘出的知识智能且准确,应用意义重大。 展开更多
关键词 动态数据集 增量聚类 跑动加速度
下载PDF
基于保洁机器人垃圾分类任务的数据重标记算法
15
作者 王中磐 袁野 +2 位作者 李清都 万里红 刘娜 《软件导刊》 2023年第9期52-58,共7页
现实垃圾数据集通常呈现严重的类别不平衡的长尾分布现象,导致传统深度学习模型在进行垃圾分类和识别任务时存在泛化性不高的问题。为此,提出一种新的数据重标记算法与框架以提升保洁机器人识别、分类垃圾的泛化程度与精确度。该算法包... 现实垃圾数据集通常呈现严重的类别不平衡的长尾分布现象,导致传统深度学习模型在进行垃圾分类和识别任务时存在泛化性不高的问题。为此,提出一种新的数据重标记算法与框架以提升保洁机器人识别、分类垃圾的泛化程度与精确度。该算法包含特征提取、特征聚类、标签映射模块,在训练常用的分类模型时,通过分析数据集的数据分布情况,将特征提取模块的特征向量输入特征聚类模块后为每个类别生成几个子类,并为之分配一个相应的伪标签,以缓解标签层面的数据不平衡问题。同时,在预测时通过标签映射模块,将伪标签转换为真实标签。实验表明,所提算法能在不损失头部类性能的前提下,显著提升垃圾长尾数据集中尾部类的性能,重标记算法能显著提升baseline中不同类别不平衡学习方法在长尾垃圾数据集上的分类精度。 展开更多
关键词 垃圾分类 深度学习 类别不平衡学习 数据重标记 数据集分析 特征聚类 图像处理 计算机视觉
下载PDF
基于DBSCAN聚类的不平衡数据集过采样方法
16
作者 杜博雅 孙静春 《计算机仿真》 北大核心 2023年第10期412-416,共5页
在网络流量检测中,经常出现数据类别不平衡的情况,为改善不平衡数据集的分类效果,提出一种基于DBSCAN聚类的过采样方法。方法首先对少数类数据进行聚类,之后根据簇的稀疏程度以及簇中少数类样本与多数类样本之间的距离,为每一个少数类... 在网络流量检测中,经常出现数据类别不平衡的情况,为改善不平衡数据集的分类效果,提出一种基于DBSCAN聚类的过采样方法。方法首先对少数类数据进行聚类,之后根据簇的稀疏程度以及簇中少数类样本与多数类样本之间的距离,为每一个少数类样本点分配过采样比例,并生成合成样本。为进一步检验该算法,选择CIC-IDS2017数据集进行测试,并与随机过采样和SMOTE算法进行对比,实验结果表明,所提出的算法更优,可以有效地改进不平衡数据集的分类效果。 展开更多
关键词 不平衡数据集 聚类 过采样 逻辑模型
下载PDF
An Optimized Framework for Surgical Team Selection
17
作者 Hemant Petwal Rinkle Rani 《Computers, Materials & Continua》 SCIE EI 2021年第11期2563-2582,共20页
In the healthcare system,a surgical team is a unit of experienced personnel who provide medical care to surgical patients during surgery.Selecting a surgical team is challenging for a multispecialty hospital as the pe... In the healthcare system,a surgical team is a unit of experienced personnel who provide medical care to surgical patients during surgery.Selecting a surgical team is challenging for a multispecialty hospital as the performance of its members affects the efficiency and reliability of the hospital’s patient care.The effectiveness of a surgical team depends not only on its individual members but also on the coordination among them.In this paper,we addressed the challenges of surgical team selection faced by a multispecialty hospital and proposed a decision-making framework for selecting the optimal list of surgical teams for a given patient.The proposed framework focused on improving the existing surgical history management system by arranging surgery-bound patients into optimal subgroups based on similar characteristics and selecting an optimal list of surgical teams for a new surgical patient based on the patient’s subgroups.For this end,two population-based meta-heuristic algorithms for clustering of mixed datasets and multi-objective optimization were proposed.The proposed algorithms were tested using different datasets and benchmark functions.Furthermore,the proposed framework was validated through a case study of a real postoperative surgical dataset obtained from the orthopedic surgery department of a multispecialty hospital in India.The results revealed that the proposed framework was efficient in arranging patients in optimal groups as well as selecting optimal surgical teams for a given patient. 展开更多
关键词 Multi-objective optimization artificial electric field algorithm mixed dataset clustering surgical team strength Pareto
下载PDF
改进的YOLO V3算法及其在小目标检测中的应用 被引量:159
18
作者 鞠默然 罗海波 +3 位作者 王仲博 何淼 常铮 惠斌 《光学学报》 EI CAS CSCD 北大核心 2019年第7期245-252,共8页
针对图像中小目标检测率低、虚警率高等问题,提出了一种YOLO V3的改进方法,并将其应用于小目标的检测。由于小目标所占的像素少、特征不明显,提出对原网络输出的8倍降采样特征图进行2倍上采样,将2倍上采样特征图与第2个残差块输出的特... 针对图像中小目标检测率低、虚警率高等问题,提出了一种YOLO V3的改进方法,并将其应用于小目标的检测。由于小目标所占的像素少、特征不明显,提出对原网络输出的8倍降采样特征图进行2倍上采样,将2倍上采样特征图与第2个残差块输出的特征图进行拼接,建立输出为4倍降采样的特征融合目标检测层。为了获取更多的小目标特征信息,在YOLO V3网络结构Darknet53的第2个残差块中增加2个残差单元。利用K-means聚类算法对目标候选框的个数和宽高比维度进行聚类分析。用改进的YOLO V3算法和原YOLO V3算法在VEDAI数据集上进行对比实验,结果表明改进后的YOLO V3算法能有效检测小目标,对小目标的召回率和检测的平均准确率均值都有明显的提升。 展开更多
关键词 机器视觉 小目标检测 YOLO V3 VEDAI数据集 K-MEANS聚类算法
原文传递
计及用电模式的居民负荷梯度提升树分类识别方法 被引量:18
19
作者 王守相 刘天宇 《电力系统及其自动化学报》 CSCD 北大核心 2017年第9期27-33,共7页
居民负荷分类与识别是负荷监测与需求侧管理的研究基础。为了实现居民负荷用电模式的提取和识别,本文对负荷公共数据集运用主成分分析降维并聚类,提出了一种计及典型用电模式的梯度提升树负荷分类识别方法。首先对负荷公共数据集重采样... 居民负荷分类与识别是负荷监测与需求侧管理的研究基础。为了实现居民负荷用电模式的提取和识别,本文对负荷公共数据集运用主成分分析降维并聚类,提出了一种计及典型用电模式的梯度提升树负荷分类识别方法。首先对负荷公共数据集重采样并获得各类负荷能耗特征样本,归一化后通过主成分分析法降维得到特征的主成分。再通过改进K均值聚类法获得各类负荷的典型用电模式,训练梯度提升树并进行超参数优化,对测试集负荷类型进行识别。在公共数据集与实测数据上测试发现,该方法对于居民负荷分类识别有良好效果,能够实现对负荷的分类识别。 展开更多
关键词 公共数据集 负荷用电模式 改进K均值聚类 梯度提升树
下载PDF
基于改进式k-prototypes聚类的坏数据辨识与修正 被引量:8
20
作者 王孝慈 董树锋 +2 位作者 刘育权 王莉 李俊格 《电测与仪表》 北大核心 2022年第2期9-15,共7页
工业领域很多技术的实现都以准确的负荷数据为基础,而工厂现有的负荷数据测量体系常因为通信、存储等故障,导致负荷数据中出现大量坏数据。因此,提出基于改进式k-prototypes聚类的坏数据辨识与修正方法,通过在聚类中引入非负荷数据特征... 工业领域很多技术的实现都以准确的负荷数据为基础,而工厂现有的负荷数据测量体系常因为通信、存储等故障,导致负荷数据中出现大量坏数据。因此,提出基于改进式k-prototypes聚类的坏数据辨识与修正方法,通过在聚类中引入非负荷数据特征,削弱负荷坏数据对聚类结果的影响,使坏数据辨识和修复结果更准确。改进式k-prototypes算法通过随机初始化,并行计算择优,克服了标准k-prototypes容易随初始聚类中心陷入局部最优解的缺陷;并通过聚类数量的自适应处理,解决了主观决定聚类数量的问题。基于聚类结果,根据正态分布原则确定负荷数据可行域,识别坏数据,并利用类中心置换法进行修正。实验表明,该方法较只考虑负荷数据的模糊均值聚类法效果更好,坏数据识别的召回率与修正的准确率显著提高。 展开更多
关键词 k-prototypes聚类 混合数据集聚类 坏数据辨识 类中心置换修正法 工业负荷预处理
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部