期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
SMOTE过采样及其改进算法研究综述 被引量:62
1
作者 石洪波 陈雨文 陈鑫 《智能系统学报》 CSCD 北大核心 2019年第6期1073-1083,共11页
近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了... 近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和应用提供有价值的借鉴和参考。 展开更多
关键词 不平衡数据分类 SMOTE 算法 k-nn 过采样 欠采样 高维数据 分类型数据
下载PDF
一种k-NN文本分类器的改进方法 被引量:10
2
作者 巩军 刘鲁 《情报学报》 CSSCI 北大核心 2007年第1期56-59,共4页
自动文本分类是提高信息利用效率和质量的有效方法。训练文本分布的不均匀会对分类的效果产生负面影响,而在实际中,很难使训练文本的分布达到均匀。针对这一问题,提出了一种改进的k-NN文本分类方法。通过在英文和中文两个文本集的实... 自动文本分类是提高信息利用效率和质量的有效方法。训练文本分布的不均匀会对分类的效果产生负面影响,而在实际中,很难使训练文本的分布达到均匀。针对这一问题,提出了一种改进的k-NN文本分类方法。通过在英文和中文两个文本集的实验表明,改进后的方法不仅分类的准确性有了提高,而且表现出较好的稳定性。 展开更多
关键词 文本分类 信息检索 k-nn 算法
下载PDF
基于k-最近邻的支持向量预选取方法 被引量:11
3
作者 韩德强 韩崇昭 杨艺 《控制与决策》 EI CSCD 北大核心 2009年第4期494-498,共5页
在所有的训练样本中只有支持向量(SVs)能对支持向量机分界面优化结果产生显著影响.基于k-最近邻规则,提出了一种训练样本的预选取方法.针对一些典型人工数据集、公用基准数据集以及TM遥感数据的实验结果表明,该方法能够有效减少训练样... 在所有的训练样本中只有支持向量(SVs)能对支持向量机分界面优化结果产生显著影响.基于k-最近邻规则,提出了一种训练样本的预选取方法.针对一些典型人工数据集、公用基准数据集以及TM遥感数据的实验结果表明,该方法能够有效减少训练样本数目,显著加快学习速度,并保证理想的分类精度. 展开更多
关键词 支持向量机 样本预选取 k-最近邻 模式分类
原文传递
基于集成学习的图像垃圾邮件过滤方法 被引量:9
4
作者 赵俊生 候圣 +1 位作者 王鑫宇 尹玉洁 《计算机工程与科学》 CSCD 北大核心 2020年第6期1049-1059,共11页
目前的图像垃圾邮件过滤技术,大都采用国际上通用的垃圾图像数据集作为训练集,与中国国内图像垃圾邮件的图像特点不一致,图像数据缺乏实时更新,且分类器单一,过滤效果难以保证。针对该问题,在建立国内垃圾邮件图像数据库的基础上,首先... 目前的图像垃圾邮件过滤技术,大都采用国际上通用的垃圾图像数据集作为训练集,与中国国内图像垃圾邮件的图像特点不一致,图像数据缺乏实时更新,且分类器单一,过滤效果难以保证。针对该问题,在建立国内垃圾邮件图像数据库的基础上,首先提取图像的颜色、纹理和形状特征,再经K-NN分类算法优选出HSV颜色直方图特征对不同分类器进行训练、测试和性能比较,提出将基于粗糙集的K-NN算法、Naive Bayes算法和SVM算法构成的3种基分类器相结合,并基于串行迭代提升的方法形成集成学习的强分类器。该方法可以实现对国内图像垃圾邮件的有效过滤,使图像垃圾邮件过滤的准确率和召回率同时得到提升,分别为97.3%和96.1%,误判率降低到了2.7%。 展开更多
关键词 图像垃圾邮件过滤 图像分类 集成学习 k-nn算法 HSV颜色直方图
下载PDF
一种k-NN分类器k值自动选取方法 被引量:8
5
作者 杜磊 杜星 宋擒豹 《控制与决策》 EI CSCD 北大核心 2013年第7期1073-1077,1082,共6页
k-NN分类算法已广泛应用于文本挖掘和模式识别等领域,其近邻数直接影响着分类精度,值过小时k-NN会受到噪声的影响,值过大时同样会降低分类精度,为此提出一种快速选取值的方法.首先给出值的候选集,然后在候选集上快速地选取值.在100个公... k-NN分类算法已广泛应用于文本挖掘和模式识别等领域,其近邻数直接影响着分类精度,值过小时k-NN会受到噪声的影响,值过大时同样会降低分类精度,为此提出一种快速选取值的方法.首先给出值的候选集,然后在候选集上快速地选取值.在100个公开数据集上的实验结果表明,所提出的算法能够选取一个有效的近邻数,是一种效果好、有潜力的方法. 展开更多
关键词 分类 k-nn算法 近邻数 近邻数选取
原文传递
基于显微高光谱成像技术的运动和感觉神经分类研究 被引量:8
6
作者 房娟 刘洪英 +1 位作者 陈增淦 徐沁同 《影像科学与光化学》 CAS CSCD 北大核心 2015年第3期203-210,共8页
在外科神经修复手术中,正确识别神经束性质是实现良好修复的关键。本文将显微高光谱成像技术应用于神经分类中,并对分类的可行性进行实验性探究。首先使用显微高光谱神经采集系统获取兔子运动及感觉神经的高光谱图像数据并进行预处理,... 在外科神经修复手术中,正确识别神经束性质是实现良好修复的关键。本文将显微高光谱成像技术应用于神经分类中,并对分类的可行性进行实验性探究。首先使用显微高光谱神经采集系统获取兔子运动及感觉神经的高光谱图像数据并进行预处理,再利用纯净像元提取算法得到端元波谱继而获取各类别的特征光谱,通过分析特征光谱的特征与差异找寻合适的分类算法,实验结果表明本技术具有一定的分类效果。本文基于K近邻分类器,实验性的使用了经典欧氏距离及波谱角距离这两种距离测度算法对实验数据进行分类,对比实验结果分析两种方法的优劣,为后续寻找其他合适且更具针对性的分类方法奠定了重要的基础。 展开更多
关键词 显微高光谱 神经分类 端元 特征光谱 k近邻分类
下载PDF
一种高效的相似性度量方法及其分类效果研究 被引量:5
7
作者 袁慧 谭章禄 王福浩 《中国科学:技术科学》 EI CSCD 北大核心 2022年第7期1096-1110,共15页
高维数据分类在统计分析中具有重要意义.然而分类方法由于所依赖的度量距离仍面临噪声敏感性强、计算量大及精度低等问题而导致分类效果不佳.针对高维时序相似性度量的精度及效率的不足,基于欧式距离提出一种改进的相似性度量方法并用... 高维数据分类在统计分析中具有重要意义.然而分类方法由于所依赖的度量距离仍面临噪声敏感性强、计算量大及精度低等问题而导致分类效果不佳.针对高维时序相似性度量的精度及效率的不足,基于欧式距离提出一种改进的相似性度量方法并用于提升分类效果.首先,采用离散小波变换(DWT)对序列进行分解重构,提出局部高频DWT方法以达到降维消噪的目的.然后,在距离函数的基础上结合波幅和秩相关系数的概念,从相对偏差与波动趋势一致性角度进行改进.采用1-最近邻技术(1-NN),比较所提方法与动态时间规整(DTW)、FastDTW、最长公共子序列(LCSS)度量方法的性能.基于40个UCR时间序列数据集的实验结果表明,相对于DTW,FastDTW,LCSS度量方法,所提方法下的1-NN分类准确率更具有优越性,置信度不低于85%,同时证实了所提相似性搜索方法在准确率及速度上均得到显著改善.该结论丰富了相似性度量理论基础,对数据挖掘技术在智能系统管理、时间序列统计上的应用具有重要的参考价值. 展开更多
关键词 时间序列分析 相似性度量 离散小波变换 k-nn分类 数据挖掘
原文传递
一种新的证据K-NN数据分类算法 被引量:4
8
作者 张扬 侯俊 +1 位作者 刘准钆 潘泉 《火力与指挥控制》 CSCD 北大核心 2013年第9期58-61,共4页
K近邻分类算法已被广泛应用于模式识别中。为了有效处理识别问题中的不确定信息并提高数据分类精度,提出了一种新的证据K-NN(NEK-NN)分类算法。首先从总的训练集中随机重复采样来构造多个训练样本子集。在每个训练子集中,利用目标数据... K近邻分类算法已被广泛应用于模式识别中。为了有效处理识别问题中的不确定信息并提高数据分类精度,提出了一种新的证据K-NN(NEK-NN)分类算法。首先从总的训练集中随机重复采样来构造多个训练样本子集。在每个训练子集中,利用目标数据与其各个近邻的距离分别构造基本置信指派,并根据K个近邻数据在每个类别中的数目来对构造的置信指派进行加权。然后,利用DS规则对加权证据融合。根据每个训练子集下融合结果的算术平均值来判断目标的类别属性。通过模拟数据集和真实数据集的实验,将NEK-NN算法与其他几种常见的方法做了对比分析,结果表明NEK-NN算法能够有效地提高分类的精度。 展开更多
关键词 证据推理 knn 置信函数 数据分类 DST
下载PDF
一种基于局部加权回归的分类方法 被引量:4
9
作者 徐晓丹 刘华文 +1 位作者 姚明海 刘日仙 《计算机工程与科学》 CSCD 北大核心 2015年第10期1959-1964,共6页
分类是数据挖掘和数据分析中最有应用价值的技术之一。传统的积极学习方法需要预先对模型空间进行假设,并且没有充分考虑到实例之间的相关性,其泛化能力将会受到一定程度的影响。针对上述问题,提出了一种基于新型映射关系的局部加权回... 分类是数据挖掘和数据分析中最有应用价值的技术之一。传统的积极学习方法需要预先对模型空间进行假设,并且没有充分考虑到实例之间的相关性,其泛化能力将会受到一定程度的影响。针对上述问题,提出了一种基于新型映射关系的局部加权回归方法 MLWR。该算法首先找出测试样本在训练集中的近邻样本,然后建立测试样本和近邻样本的回归函数,根据建立的回归模型和近邻样本的标签,计算得到测试样本的标签。实验与当前流行的多种分类方法在UCI的9个数据集上进行测试。实验结果表明我们的方法能有效地提高分类精度,对较大样本数据也有较好的适用性。 展开更多
关键词 分类 映射关系 局部加权回归 k-nn 懒惰学习
下载PDF
基于颜色自相关图的乳腺肿瘤良恶性分类 被引量:4
10
作者 赵爽 马志庆 +1 位作者 赵文华 赵晓辰 《医疗卫生装备》 CAS 2019年第6期13-15,共3页
目的:构建一种乳腺肿瘤良恶性分类模型,使医生得到更加客观、准确的诊断结果。方法:借助BreaKHis数据集,提取乳腺肿瘤病理图像颜色自相关图的64维特征,利用k-NN分类器构建乳腺肿瘤良恶性分类模型,并对乳腺肿瘤良恶性进行分类。结果:颜... 目的:构建一种乳腺肿瘤良恶性分类模型,使医生得到更加客观、准确的诊断结果。方法:借助BreaKHis数据集,提取乳腺肿瘤病理图像颜色自相关图的64维特征,利用k-NN分类器构建乳腺肿瘤良恶性分类模型,并对乳腺肿瘤良恶性进行分类。结果:颜色自相关图中像素空间距离d=1时分类精度最高,准确度平均达到87.01%,灵敏度平均达到88.52%,特异度平均达到85.49%。结论:该模型为乳腺肿瘤良恶性分类提供了一种新型的检测手段,可有效提高乳腺肿瘤良恶性临床诊断的准确率。 展开更多
关键词 乳腺肿瘤 病理图像 特征提取 颜色自相关图 k-nn 图像分类
下载PDF
基于查询接口文本的Deep Web数据源分类 被引量:1
11
作者 华慧 伏玉琛 周小科 《计算机工程》 CAS CSCD 北大核心 2010年第12期66-68,共3页
根据Deep Web数量的爆炸性增长特点,提出一种基于查询接口文本的Deep Web数据源分类算法,对于分类的查询接口,采用2种方法:基于向量空间的TF-IDF方法和基于知网的语义相似度方法。综合2种方法获得接口之间的相似度。借鉴K-NN算法,提出WD... 根据Deep Web数量的爆炸性增长特点,提出一种基于查询接口文本的Deep Web数据源分类算法,对于分类的查询接口,采用2种方法:基于向量空间的TF-IDF方法和基于知网的语义相似度方法。综合2种方法获得接口之间的相似度。借鉴K-NN算法,提出WDB分类算法,从而实现Deep Web数据源的分类。实验结果表明,该算法在熵和F-measure 2种评价标准上均能获得较高质量,具有一定实用价值。 展开更多
关键词 深层网 数据源分类 知网 knn算法 语义分类
下载PDF
基于双层结构的加速K-NN分类方法 被引量:3
12
作者 王晓 赵丽 《计算机工程与设计》 北大核心 2018年第4期1071-1077,共7页
在传统K-NN分类中,对于每个待测样本均需计算并寻找k个决策近邻,分类效率较低。针对该问题,提出一种双层结构的加速K-NN分类(K-NN classification based on double-layer structure,KNN_DL)方法。将正类和负类样本分别划分为多个不同子... 在传统K-NN分类中,对于每个待测样本均需计算并寻找k个决策近邻,分类效率较低。针对该问题,提出一种双层结构的加速K-NN分类(K-NN classification based on double-layer structure,KNN_DL)方法。将正类和负类样本分别划分为多个不同子集,计算每个子集的中心和半径。当新样本进入时,选择k个决策近邻子集,若其具有相同的类别标签,将该样本标记为相应类别;反之,选择决策近邻子集中最近的k个决策近邻。这种双层结构的加速方式,压缩待测样本的决策近邻规模,提高效率。实验结果表明,KNN_DL方法能够获得较高的样本预测速度和较好的预测准确率。 展开更多
关键词 k-nn分类 决策近邻子集 决策近邻样本 中心 半径 knn_DL方法
下载PDF
自适应光学系统运行失稳检测方法 被引量:3
13
作者 贾启旺 李新阳 罗曦 《红外与激光工程》 EI CSCD 北大核心 2020年第10期26-35,共10页
自适应光学(AO)系统校正像差是提高光学系统性能的有效技术手段。为了保证AO系统长时间安全、稳定地工作,需要对AO系统运行的数据进行监测,识别系统失稳状态以提供决策建议。基于以上目的,建立了一套127单元AO系统失稳数据仿真平台,通... 自适应光学(AO)系统校正像差是提高光学系统性能的有效技术手段。为了保证AO系统长时间安全、稳定地工作,需要对AO系统运行的数据进行监测,识别系统失稳状态以提供决策建议。基于以上目的,建立了一套127单元AO系统失稳数据仿真平台,通过该平台仿真得到了4种闭环失稳异常。基于变形镜控制电压RMS指标使用Kmeans聚类、K-NN分类和ARIMA预测3种机器学习方法进行识别检测。3种方法在不同类型异常数据中的检测结果有所不同,说明3种异常检测方法对系统失稳检测均有一定的效果和适用范围,在实际使用时,可以根据需要选择一种或综合多种方法进行检测。 展开更多
关键词 自适应光学 异常检测 kmeans聚类 k-nn分类 ARIMA预测
下载PDF
城市能源效率的PS-kNN分类综合评价 被引量:3
14
作者 方国斌 宋国君 《统计与信息论坛》 CSSCI 2014年第9期34-43,共10页
为了对区域能源效率做出客观评价,提出一种新的基于不可控因素的地级城市分类的能源效率分类比较方法,旨在研究能源效率的地区可比性问题。分类问题的讨论包括类别个数的确定和分类方法的选取;分类个数和分类原则的确定采用预测强度和... 为了对区域能源效率做出客观评价,提出一种新的基于不可控因素的地级城市分类的能源效率分类比较方法,旨在研究能源效率的地区可比性问题。分类问题的讨论包括类别个数的确定和分类方法的选取;分类个数和分类原则的确定采用预测强度和基础因子相结合的办法,进一步采用k最近邻分类方法对其余不可控因子进行分类预测,以避免所谓的自评判问题;运用文中所给出的综合分类结果对一些城市的能源效率进行评价,便于相关城市找到提高能源效率的有效措施。" 展开更多
关键词 能源效率 预测强度 k最近邻 分类
下载PDF
PSO/KNN算法及其在模拟故障诊断中的应用研究 被引量:2
15
作者 张屹 魏学业 蒋海峰 《电子测量与仪器学报》 CSCD 2007年第6期25-30,共6页
提出了一种基于粒子群优化(particle swarm optimization,PSO)的特征提取算法,该算法以K-NN(nearest neighbor)分类正确率为评价准则,应用粒子群优化算法寻找使提取特征的K-NN分类正确率最大的转换矩阵,从而实现特征的提取。算法的特点... 提出了一种基于粒子群优化(particle swarm optimization,PSO)的特征提取算法,该算法以K-NN(nearest neighbor)分类正确率为评价准则,应用粒子群优化算法寻找使提取特征的K-NN分类正确率最大的转换矩阵,从而实现特征的提取。算法的特点是结构简单灵活,对数据的分布特征不敏感,适合于对模拟电路的故障特征进行提取。电路故障诊断示例证明了该特征提取算法在模拟电路故障诊断中的有效性。 展开更多
关键词 特征提取 粒子群优化 knn分类 模拟电路故障诊断
下载PDF
A Learning Based Brain Tumor Detection System 被引量:2
16
作者 Sultan Noman Qasem Amar Nazar +2 位作者 Attia Qamar Shahaboddin Shamshirband Ahmad Karim 《Computers, Materials & Continua》 SCIE EI 2019年第6期713-727,共15页
Brain tumor is one of the most dangerous disease that causes due to uncontrollable and abnormal cell partition.In this paper,we have used MRI brain scan in comparison with CT brain scan as it is less harmful to detect... Brain tumor is one of the most dangerous disease that causes due to uncontrollable and abnormal cell partition.In this paper,we have used MRI brain scan in comparison with CT brain scan as it is less harmful to detect brain tumor.We considered watershed segmentation technique for brain tumor detection.The proposed methodology is divided as follows:pre-processing,computing foreground applying watershed,extract and supply features to machine learning algorithms.Consequently,this study is tested on big data set of images and we achieved acceptable accuracy from K-NN classification algorithm in detection of brain tumor. 展开更多
关键词 Magnetic resonance imaging brain tumor WATERSHED SEGMENTATION k-nn classification
下载PDF
基于形态学空间特征的高光谱遥感图像分类方法 被引量:1
17
作者 吕俊伟 樊利恒 石晓航 《光学技术》 CAS CSCD 北大核心 2016年第5期385-391,共7页
传统的高光谱图像分类主要是基于像素的光谱特征,在一定程度上忽略了高光谱遥感图像中像素之间的空间相关性。为了充分利用高光谱图像中的空间信息,提出了一种基于加权多结构元素无偏差形态学的空间特征提取方法,并基于形态学的多尺度... 传统的高光谱图像分类主要是基于像素的光谱特征,在一定程度上忽略了高光谱遥感图像中像素之间的空间相关性。为了充分利用高光谱图像中的空间信息,提出了一种基于加权多结构元素无偏差形态学的空间特征提取方法,并基于形态学的多尺度特征和结构保持性提出了基于邻域的多尺度空间特征提取方法,得到了高光谱遥感图像的空间特征。对k-NN分类算法进行改进,提出了基于变精度粗糙集和重构误差的k-NN分类算法,实现了基于空间特征的高光谱遥感图像分类。在两个不同的高光谱遥感图像的实验验证了基于空间特征和改进k-NN分类算法的性能。 展开更多
关键词 高光谱遥感图像 空间特征 形态学 k-nn分类算法
原文传递
基于待测样本标记的加速K-NN分类方法 被引量:1
18
作者 王晓 赵丽 《计算机与现代化》 2017年第9期102-105,共4页
针对传统K-NN分类方法预测效率低的问题,提出一种基于待测样本标记的加速K-NN分类(Speeding K-NN Classification Based on Testing Sample Label,KNN_TSL)方法。该方法首先采用传统K-NN分类方法得到一定数量的待测样本类别;然后对于再... 针对传统K-NN分类方法预测效率低的问题,提出一种基于待测样本标记的加速K-NN分类(Speeding K-NN Classification Based on Testing Sample Label,KNN_TSL)方法。该方法首先采用传统K-NN分类方法得到一定数量的待测样本类别;然后对于再进入的待测样本,计算其与已标记类别待测样本的距离,如果该距离小于给定的阈值,则将该新进入的样本赋予相同的类别标签,反之则重新分类。这种方法对于后续进入的易分类待测样本,只需要计算其与少数比原始标记样本更有代表性的已标记待测样本的距离即可进行类别决策,而只有少数的待测样本需要重新分类。由于已标记待测样本包含了部分类别信息,因此采用这种方法可以在大大提高分类预测效率的同时保证模型的泛化性能。实验结果表明,本文提出的KNN_TSL方法能够获得较高的样本预测速度和较好的预测准确率。 展开更多
关键词 k-nn分类 待测样本标记 knn_TSL方法
下载PDF
基于粒子群优化技术的导弹模拟故障诊断方法
19
作者 周敬国 魏学业 《战术导弹技术》 2011年第3期98-103,共6页
采用一种基于粒子群优化的特征提取算法,以K-NN分类正确率作为评价准则,应用粒子群优化算法寻找使提取特征的K-NN分类正确率最大的转换矩阵,从而实现特征的提取.算法的特点是结构简单灵活,对数据的分布特征不敏感,适合于对模拟故障特征... 采用一种基于粒子群优化的特征提取算法,以K-NN分类正确率作为评价准则,应用粒子群优化算法寻找使提取特征的K-NN分类正确率最大的转换矩阵,从而实现特征的提取.算法的特点是结构简单灵活,对数据的分布特征不敏感,适合于对模拟故障特征进行提取.故障诊断示例证明了该特征提取算法在导弹模拟故障诊断中的有效性. 展开更多
关键词 特征提取 粒子群优化 knn分类 导弹模拟故障诊断
原文传递
基于采样压缩的加速K-NN分类方法
20
作者 王晓 《山西大同大学学报(自然科学版)》 2017年第4期17-20,共4页
标准K-近邻分类方法(K-Nearest Neighbor,K-NN)在进行样本预测过程时,需要计算每一个待预测类别标记的样本与所有已知标记样本的距离,因此复杂度较高,无法处理含有大规模有标记样本的分类问题。针对这个问题,本文提出一种基于采样压缩... 标准K-近邻分类方法(K-Nearest Neighbor,K-NN)在进行样本预测过程时,需要计算每一个待预测类别标记的样本与所有已知标记样本的距离,因此复杂度较高,无法处理含有大规模有标记样本的分类问题。针对这个问题,本文提出一种基于采样压缩的加速K-NN分类方法(K-NN Method Based on Sampling Compress,KNN__S)。该方法将采样思想引入到K-NN分类过程当中,即对于每一个新来的未知类别的待测样本,不是计算其与所有带类别标签样本的距离,而是通过采集一定数量的有标记样本,计算这部分有标记样本中距离待测样本最近的近邻样本,来对待测样本进行分类。实验结果表明,本文提出的KNN__S方法能够加速K-NN分类的过程。 展开更多
关键词 k-nn分类 采样 knn__S算法 距离
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部