期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于边界样本的训练样本选择方法 被引量:15
1
作者 张莉 郭军 《北京邮电大学学报》 EI CAS CSCD 北大核心 2006年第4期77-80,共4页
以入侵检测系统中的分类器设计为例,研究分类器训练样本选择问题.提出了一种大规模数据集的训练样本选择方法.首先通过聚类将训练数据划分为不同的子集,缩小搜索范围;然后根据聚类内离散度和样本的覆盖区域选择样本,保留每个聚类的边界... 以入侵检测系统中的分类器设计为例,研究分类器训练样本选择问题.提出了一种大规模数据集的训练样本选择方法.首先通过聚类将训练数据划分为不同的子集,缩小搜索范围;然后根据聚类内离散度和样本的覆盖区域选择样本,保留每个聚类的边界样本,删除内部样本.仿真结果证实,由于保留了典型样本,减少了训练样本数量,从而保证了分类器的性能且训练效率较高. 展开更多
关键词 样本选择 离散度 覆盖区域 边界样本
下载PDF
基于Tomek链的边界少数类样本合成过采样方法 被引量:3
2
作者 陶佳晴 贺作伟 +2 位作者 冷强奎 翟军昌 孟祥福 《计算机应用研究》 CSCD 北大核心 2023年第2期463-469,共7页
在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,... 在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,计算得到类间距离互为最近的样本形成Tomek链;然后,根据Tomek链标识出位于类间边界处的少数类样本;接下来,利用合成少数类过采样技术(SMOTE)中的线性插值机制在边界样本及其少数类近邻间进行过采样,并最终实现数据集的平衡。实验对比了八种采样方法,结果表明所提方法在大部分数据集上均获得了更高的G-mean和F_(1)值。 展开更多
关键词 不平衡数据分类 合成过采样 边界样本 K近邻 Tomek链
下载PDF
入侵检测系统中训练样本集的构造方法 被引量:6
3
作者 张莉 陈恭和 《计算机工程与应用》 CSCD 北大核心 2006年第28期145-146,180,共3页
以入侵检测系统中的分类器设计为例,研究分类器的训练样本构造问题。提出了一种适合样本分布不均匀、海量数据集的训练样本子集构造方法,首先通过保留边界样本,删除内部样本,对样本数量较多的类,进行选择样本;然后对样本数量较少的类构... 以入侵检测系统中的分类器设计为例,研究分类器的训练样本构造问题。提出了一种适合样本分布不均匀、海量数据集的训练样本子集构造方法,首先通过保留边界样本,删除内部样本,对样本数量较多的类,进行选择样本;然后对样本数量较少的类构造虚拟样本。通过这两个过程得到的训练子集样本数量较少,且样本分布均匀。 展开更多
关键词 样本选择 虚拟样本 边界样本 分布不均匀
下载PDF
基于聚类边界提取的支持向量机算法 被引量:5
4
作者 张仕霞 蒲文莉 +5 位作者 蒋新 夏钰红 杨晓欢 王强 吴珊 靳紫辉 《电子测量技术》 2020年第6期110-115,共6页
传统的支持向量机都是训练大规模的数据样本,需要花费较多的时间,这使得支持向量机的应用受到了限制,为了较好的推广,提出了一系列优化算法,比如支持向量预提取方法[1]、边界样本选取以及改进的各种算法,提高了训练的准确性、泛化能力... 传统的支持向量机都是训练大规模的数据样本,需要花费较多的时间,这使得支持向量机的应用受到了限制,为了较好的推广,提出了一系列优化算法,比如支持向量预提取方法[1]、边界样本选取以及改进的各种算法,提高了训练的准确性、泛化能力、训练效率。提出了在聚类后删除纯簇的方法提取边界样本点,在此基础上又提出了采用改进的聚类算法在聚类后删除纯簇提取边界样本点的方式得到新的训练样本,再利用支持向量机训练分类器。实验验证了此方法不仅提高了训练的效率,而且提高了分类的准确率。 展开更多
关键词 支持向量机 聚类 边界样本
下载PDF
基于边界样本选择的支持向量机加速算法 被引量:5
5
作者 胡小生 钟勇 《计算机工程与应用》 CSCD 北大核心 2017年第3期169-173,共5页
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法... 针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。 展开更多
关键词 支持向量机 大规模分类 边界样本 聚类
下载PDF
基于单类支持向量机与KNN的两阶段不平衡数据分类
6
作者 刘阳 江峰 《计算机与数字工程》 2023年第4期769-774,982,共7页
针对单类支持向量机算法无法对不平衡数据集中的边界和离群样本进行准确分类的问题,将单类支持向量机与K近邻算法结合在一起,提出一种基于单类支持向量机与K近邻的两阶段不平衡数据分类算法TSC-OSK。TSC-OSK首先对训练集中的多数类样本... 针对单类支持向量机算法无法对不平衡数据集中的边界和离群样本进行准确分类的问题,将单类支持向量机与K近邻算法结合在一起,提出一种基于单类支持向量机与K近邻的两阶段不平衡数据分类算法TSC-OSK。TSC-OSK首先对训练集中的多数类样本与少数类样本分别进行拟合构建出两个单类支持向量机分类器,利用这两个分类器分别对测试样本进行第1阶段的分类,并将分类结果相互组合验证,将所有样本被划分成多数类、少数类、边界和离群这四种类型;再引入K近邻算法对边界和离群样本进行第2阶段分类,从而避免单类支持向量机算法在这些样本上的预测偏差。在多个不平衡数据集上的实验表明,相对于现有的不平衡数据处理方法,TSC-OSK能够取得更好的分类性能。 展开更多
关键词 不平衡数据分类 单类支持向量机 K近邻 边界样本 离群样本
下载PDF
基于三支决策的支持向量机分类算法
7
作者 赖宝 万仁霞 +1 位作者 赵杰 陈瑞典 《闽南师范大学学报(自然科学版)》 2023年第3期22-30,共9页
为解决支持向量机(SVM)在大规模数据集下训练时间长的问题,结合三支决策理论,提出一种基于三支决策的支持向量机算法.该算法首先利用高斯朴素贝叶斯算法得到后验概率,通过三支决策的两个阈值将对象划分到正域、边界域和负域,选择边界域... 为解决支持向量机(SVM)在大规模数据集下训练时间长的问题,结合三支决策理论,提出一种基于三支决策的支持向量机算法.该算法首先利用高斯朴素贝叶斯算法得到后验概率,通过三支决策的两个阈值将对象划分到正域、边界域和负域,选择边界域作为边界样本,然后使用支持向量机对边界样本进行分类.实验表明,该算法能在保证分类准确率的同时大大提高支持向量机的分类效率、降低时间复杂度. 展开更多
关键词 三支决策 支持向量机 边界样本 高斯朴素贝叶斯
下载PDF
Borderline-mixup不平衡数据集分类方法
8
作者 吴振煊 郭躬德 王晖 《计算机系统应用》 2023年第11期73-82,共10页
不平衡数据集问题从20年前就已经引起人们的重视,提出的相关解决方法层出不穷.Mixup是这几年比较流行的数据合成方法,其相关变体比比皆是,但是针对不平衡数据集提出的Mixup变体寥寥无几.本文针对不平衡数据集分类问题,提出了Mixup的变... 不平衡数据集问题从20年前就已经引起人们的重视,提出的相关解决方法层出不穷.Mixup是这几年比较流行的数据合成方法,其相关变体比比皆是,但是针对不平衡数据集提出的Mixup变体寥寥无几.本文针对不平衡数据集分类问题,提出了Mixup的变体——Borderline-mixup,其使用支持向量机选择边界样本,增加边界样本在采样器中被采样的概率,构建两个边界采样器,替代了原有的随机采样器.在14个UCI数据集以及CIFAR10长尾数据集上的实验结果表明,Borderline-mixup相比于Mixup在UCI数据集中都有提升,最高能达到49.3%的提升,在CIFAR10长尾数据集中,也能达到3%–3.6%左右的提升.显然,我们提出的Mixup变体在不平衡数据集分类中是有效的. 展开更多
关键词 Mixup 支持向量机 不平衡数据集 边界样本 分类
下载PDF
一种新的样本选择算法及其在文本分类中的应用 被引量:4
9
作者 万中英 王明文 +1 位作者 左家莉 刘长红 《江西师范大学学报(自然科学版)》 CAS 北大核心 2019年第1期76-83,共8页
在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档... 在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档集上进行了实验.实验结果表明:该方法能有效地选取边界样本,且采用SVM和KNN分类能得到较好的分类结果,尤其是在不均衡文档集上效果更佳. 展开更多
关键词 边界样本 样本选择 文本分类 支持向量机 K近邻
下载PDF
一种新型的支持向量机约简方法及其应用 被引量:2
10
作者 张斌 唐朝晖 +1 位作者 朱红求 桂卫华 《系统仿真学报》 CAS CSCD 北大核心 2012年第2期344-347,364,共5页
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集常出现的训练速度慢、计算代价大以及实时性差等缺点,将基于密度的样本块划分法和基于欧式距离的边界样本筛选方法相结合,提出了一种新型的支持向量机约简方法。该方法首先... 针对支持向量机(Support Vector Machine,SVM)处理大规模数据集常出现的训练速度慢、计算代价大以及实时性差等缺点,将基于密度的样本块划分法和基于欧式距离的边界样本筛选方法相结合,提出了一种新型的支持向量机约简方法。该方法首先进行空间块的划分,根据空间块的密度提取候选样本区域,并通过基于欧式距离改良的相对距离提取出大概率分布支持向量的边界样本。该方法既保证了训练样本的精度,又降低了计算代价,提高了泛化能力。工业应用结果表明了该方法不仅精度不低于SVM,并且计算速度远快于SVM。 展开更多
关键词 支持向量机 边界样本 样本块 样本密度
下载PDF
结合马氏距离的smote改进算法研究 被引量:2
11
作者 徐湘君 刘波涛 《电脑知识与技术》 2020年第29期28-31,共4页
传统的smote算法应用于非平衡数据集研究领域,它可以将少数类样本按照一定的条件进行扩充,以达到让非平衡数据集中少数类样本和多数类样本达到平衡这一目的。但是它在对于边界元素的选择生成数据的时候具有盲目性,使得生成的新的数据降... 传统的smote算法应用于非平衡数据集研究领域,它可以将少数类样本按照一定的条件进行扩充,以达到让非平衡数据集中少数类样本和多数类样本达到平衡这一目的。但是它在对于边界元素的选择生成数据的时候具有盲目性,使得生成的新的数据降低少数类样本的质量。针对这种情况,提出了将马氏距离结合SMOTE算法的改进算法Maha-smote,让生成的新元素更加靠近样本集中心,提高生成的数据集的总体质量。本文分别使用传统SMOTE、Python的sklearn库中的SMOTE算法以及Maha-smote算法对所选用的3个不平衡数据集进行过采样数据预处理,然后使用决策树和高斯朴素贝叶斯GNB分类器对预处理后的数据集进行预测,选择F-Measure、AUC作为分类性能的评价指标,实验表明Maha-smote算法预处理的不平衡数据集的分类效果更好,证明了该算法的有效性。 展开更多
关键词 非平衡数据集 上采样 SMOTE算法 马氏距离 边界样本
下载PDF
Image Steganalysis System optimization Based on Boundary Samples
12
作者 Li-Na Wang Min-Jie Wang +1 位作者 Ting-Ting Zhu Qing Dou 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2014年第6期57-62,共6页
In the image steganalysis,the training samples often determine the performance of the model when the features and classification are in the same condition.However the existing research on steganalysis lacks the in-dep... In the image steganalysis,the training samples often determine the performance of the model when the features and classification are in the same condition.However the existing research on steganalysis lacks the in-depth study of the classifier's training method which may deeply influence the detection performance.This paper provides an optimization of universal steganalysis based on the boundary samples classification concerning about image steganalysis.This paper proposes a strategy of selecting boundary samples in steganalysis and divides the training samples into good samples,poor samples and boundary samples three categories and then chose the optimal threshold to get boundary samples through experiments.The experimental results show the effectiveness of boundary sample,which dramatically improve detection capability especially for the low embedding rate Stego-image. 展开更多
关键词 image steganalysis digital forensics support vector machine(SVM) boundary samples
下载PDF
基于随机中心距离排序的支持向量预选取方法
13
作者 胡志军 王鸿斌 李荣 《微电子学与计算机》 CSCD 北大核心 2013年第8期36-39,共4页
提出了一种基于随机中心距离排序的支持向量预选取方法.对于线性可分情况,该方法首先从每一个类别中随机选取一定数目的样本计算均值,并把该均值作为该类别样本的随机中心,然后对每一个样本计算它与另一类样本随机中心之间的距离,最后... 提出了一种基于随机中心距离排序的支持向量预选取方法.对于线性可分情况,该方法首先从每一个类别中随机选取一定数目的样本计算均值,并把该均值作为该类别样本的随机中心,然后对每一个样本计算它与另一类样本随机中心之间的距离,最后选择一定数目具有较小随机中心距离的原始样本组成边界样本集.对于非线性可分情况,此算法借助于核函数将原始问题映射到特征空间,然后再按照线性可分情况求解.由于支持向量往往分布在两类样本相邻的边界区域,因此此方法可以较为精确地预选取支持向量.在部分UCI标准数据集和ORL人脸数据库上的实验说明此算法较以往支持向量预选取算法可以更为快速准确地进行支持向量预选取. 展开更多
关键词 支持向量预选取 随机中心 距离排序 边界样本集
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部