期刊文献+
共找到314篇文章
< 1 2 16 >
每页显示 20 50 100
文本信息挖掘技术及其在断路器全寿命状态评价中的应用 被引量:61
1
作者 邱剑 王慧芳 +3 位作者 应高亮 张波 邹国平 何奔腾 《电力系统自动化》 EI CSCD 北大核心 2016年第6期107-112,118,共7页
电网企业记录了大量故障与缺陷中文文本,这些文本蕴藏了丰富的设备健康信息。但迄今为止,鲜有电力领域的文本信息挖掘技术研究。以断路器全寿命状态评价为应用研究背景,探索了电网中文文本挖掘方法。首先,根据断路器状态评价的研究现状... 电网企业记录了大量故障与缺陷中文文本,这些文本蕴藏了丰富的设备健康信息。但迄今为止,鲜有电力领域的文本信息挖掘技术研究。以断路器全寿命状态评价为应用研究背景,探索了电网中文文本挖掘方法。首先,根据断路器状态评价的研究现状,提出了构建文本挖掘与全寿命状态评价模型的关键问题。然后,构建了包含文本挖掘信息的全寿命状态评价模型,通过基于隐马尔可夫法(HMM)的文本预处理与向量化、自主区间搜索k最近邻(KNN)算法的文本分类和比率型状态信息融合模型完成了断路器全寿命健康状态指数的展示。最后,采用某电网公司实际缺陷文本构建算例。算例表明,文本挖掘技术实现了相似缺陷的相关性学习,比率型信息融合模型能更全面真实地展示健康状态评价的历史流。 展开更多
关键词 全寿命状态评价 检修消缺 断路器 文本挖掘 隐马尔可夫法(HMM) k最近邻(knn)
下载PDF
基于双向长短期记忆网络的电力系统暂态稳定评估 被引量:56
2
作者 孙黎霞 白景涛 +1 位作者 周照宇 赵晨昀 《电力系统自动化》 EI CSCD 北大核心 2020年第13期64-72,共9页
为进一步提升电力系统暂态稳定评估的准确率,依据电力系统暂态过程数据的时序特性,建立了一种基于双向长短期记忆(Bi-LSTM)网络的暂态稳定评估模型。该方法通过Bi-LSTM网络建立底层量测数据与电力系统暂态稳定类别之间的非线性映射关系... 为进一步提升电力系统暂态稳定评估的准确率,依据电力系统暂态过程数据的时序特性,建立了一种基于双向长短期记忆(Bi-LSTM)网络的暂态稳定评估模型。该方法通过Bi-LSTM网络建立底层量测数据与电力系统暂态稳定类别之间的非线性映射关系,采用准确率、F1指标和FPR指标综合评估Bi-LSTM网络模型性能的优劣,在此基础上,采用t分布随机近邻嵌入(t-SNE)降维方法和k最近邻(KNN)分类器进一步提升暂态稳定评估的准确率。新英格兰10机39节点系统算例表明:所提模型比传统的机器学习模型和部分深度学习模型拥有更好的评估性能。通过可视化方法和网络预测分数对评估模型进行分析,结果表明Bi-LSTM网络模型具有较强的电力系统暂态过程特征提取能力,适用于电力系统暂态稳定性的评估。进一步研究了底层输入数据的归一化模式和方法对暂态评估模型的影响,结果表明z-score归一化方法要优于min-max归一化方法,采用总维数归一化模式的模型评估性能更好。 展开更多
关键词 深度学习 长短期记忆网络 暂态稳定评估 归一化 t分布随机近邻嵌入 k最近邻
下载PDF
KNN数据挖掘算法在北京地区霾等级预报中的应用 被引量:53
3
作者 熊亚军 廖晓农 +6 位作者 李梓铭 张小玲 孙兆彬 赵秀娟 赵普生 马小会 蒲维维 《气象》 CSCD 北大核心 2015年第1期98-104,共7页
利用北京地区2013年气象数据以及PM_(2.5)浓度数据与能见度数据进行对比分析,结果发现气温、气压、相对湿度、露点温度、地面U风、地面V风以及PM_(2.5)小时浓度这7个要素是影响北京地区霾等级的关键因素。利用气温、地面气压、相对湿度... 利用北京地区2013年气象数据以及PM_(2.5)浓度数据与能见度数据进行对比分析,结果发现气温、气压、相对湿度、露点温度、地面U风、地面V风以及PM_(2.5)小时浓度这7个要素是影响北京地区霾等级的关键因素。利用气温、地面气压、相对湿度、露点温度、U风、V风分量以及PM_(2.5)浓度作为7个属性特征,以霾等级做为标志量构建训练样本集,结合KNN(KNearest Neighbor)数据挖掘算法构建疆等级预报分类器,并开展霾等级客观识别实验。结果表明K=3时该分类器的分类预报效果最佳,其13个站点的分类准确率高达88.2%。基于该算法构建的KNN模型预报无霾时的漏报概率很小,准确率高达91.8%;预报有轻度霾、中度霾以及重度霾时,空报的概率仅分别为4.7%、1.4%和2.6%。2014年8月29日至9月2日北京地区一次霾天气过程的预报结果表明:南郊观象台、密云和延庆3站的预报准确率分别达到74%、64%和84%,但霾等级的精度方面还有待于进一步提高。 展开更多
关键词 数据挖掘 knn 预报
下载PDF
不平衡数据集分类方法综述 被引量:43
4
作者 王乐 韩萌 +2 位作者 李小娟 张妮 程浩东 《计算机工程与应用》 CSCD 北大核心 2021年第22期42-52,共11页
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方... 不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(SyntheticMinorityOver-sampling Technology,SMOTE)、支持向量机(SupportVectorMachine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。 展开更多
关键词 不平衡数据集 分类 采样方法 k近邻(knn) 合成少数过采样技术(SMOTE) 深度学习
下载PDF
基于卷积神经网络和KNN的短文本分类算法研究 被引量:43
5
作者 殷亚博 杨文忠 +1 位作者 杨慧婷 许超英 《计算机工程》 CAS CSCD 北大核心 2018年第7期193-198,共6页
为解决传统基于TF-IDF的K最近邻(KNN)分类算法在短文本分类时,出现特征维度过高和数据稀疏的问题,基于卷积神经网络和KNN,提出一种新的短文本分类算法。通过采用神经网络语言模型word2vec对短文本进行词向量的训练,并用训练好的词向量... 为解决传统基于TF-IDF的K最近邻(KNN)分类算法在短文本分类时,出现特征维度过高和数据稀疏的问题,基于卷积神经网络和KNN,提出一种新的短文本分类算法。通过采用神经网络语言模型word2vec对短文本进行词向量的训练,并用训练好的词向量表示文本,使用卷积神经网络对短文本进行抽象特征的提取,在提取出抽象特征的基础上,运用KNN分类器进行短文本分类。分别在短文本中句子数目为2、4、6、8的数据集上进行测试,结果表明,与基于TF-IDF的KNN分类算法相比,该算法在准确率、召回率和F1值上平均提高了10.2%、21.1%和15.5%。 展开更多
关键词 社交网络 卷积神经网络 k最近邻 短文本 机器学习 深度学习
下载PDF
一种采用聚类技术改进的KNN文本分类方法 被引量:33
6
作者 张孝飞 黄河燕 《模式识别与人工智能》 EI CSCD 北大核心 2009年第6期936-940,共5页
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档... KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高. 展开更多
关键词 k-最近邻(knn) 文本分类 文本聚类 聚类中心 自然语言处理
原文传递
基于KNN-LSTM的短时交通流预测 被引量:34
7
作者 罗向龙 李丹阳 +1 位作者 杨彧 张生瑞 《北京工业大学学报》 CAS CSCD 北大核心 2018年第12期1521-1527,共7页
针对现有预测模型无法在交通大数据中提取交通流序列的内部规律,且未能充分利用交通流的时空相关性以实现高精度预测的问题,提出了一种基于K-最近邻(K-nearest neighbor,KNN)与长短时记忆(long short term memory,LSTM)网络模型相结合... 针对现有预测模型无法在交通大数据中提取交通流序列的内部规律,且未能充分利用交通流的时空相关性以实现高精度预测的问题,提出了一种基于K-最近邻(K-nearest neighbor,KNN)与长短时记忆(long short term memory,LSTM)网络模型相结合的短时交通流预测模型.采用KNN算法选择路网中与预测站点时空相关的检测站,以选择的检测站的交通流序列构造数据集,将其输入LSTM模型中进行训练及测试,并通过美国交通研究数据实验室的真实交通数据对提出的模型进行验证.结果表明:与现有的交通预测模型相比,该方法能更好地提取交通流序列的时空特性,预测准确率平均可提高12. 28%,可为交通诱导与控制提供必要的依据. 展开更多
关键词 智能交通 交通流预测 k-最近邻(knn) 深度学习 长短时记忆(LSTM)网络
下载PDF
2014~2017北京市气象条件和人为排放变化对空气质量改善的贡献评估 被引量:32
8
作者 尹晓梅 李梓铭 +4 位作者 熊亚军 乔林 邱雨露 孙兆彬 寇星霞 《环境科学》 EI CAS CSCD 北大核心 2019年第3期1011-1023,共13页
2014~2017年北京地区霾日数和污染日数逐年减少,PM_(2.5)、PM_(10)、SO_2和NO_2年平均质量浓度下降,污染程度缓解,采暖期中的11~12月尤为明显.针对空气质量的显著改善,从气象条件的改善和减排措施两方面进行探讨分析,并结合数值模式... 2014~2017年北京地区霾日数和污染日数逐年减少,PM_(2.5)、PM_(10)、SO_2和NO_2年平均质量浓度下降,污染程度缓解,采暖期中的11~12月尤为明显.针对空气质量的显著改善,从气象条件的改善和减排措施两方面进行探讨分析,并结合数值模式和大数据挖掘技术实现气象和排放对大气污染贡献率的定量化研究.结果表明,2017年与过去3 a相比,平均风速增加7. 9%,≥3. 4 m·s^(-1)的风速频次最高(10. 6%),≥70%湿度日占比最小(25. 1%);其中,采暖期与过去3 a同期相比,小风日数减少8. 6%、大气环境容量指数和通风指数平均增加约11%,边界层高度以3. 2%·a^(-1)的速率升高,尤其11~12月各要素改善更显著,且该时段内2014年各因子变化与2017年相似.非采暖期(4~10月)累积降水量558. 3 mm,仅次于2016年,有利于污染物的清除和湿沉降.利用WRF-CHEM对霾和污染频发的12月进行模拟发现,气象要素的改变导致2017年12月北京PM_(2.5)质量浓度较2014~2016年同期分别降低5%、38%和25%.因缺少政府实际施行的减排方案,无法利用WRF-CHEM量化气象和减排的具体贡献率,因此借助大数据挖掘算法,基于K近邻算法(KNN)和支持向量机(SVM)模型对气象和减排对空气质量改善的贡献进行评估,结果显示2017年减少的霾日和重污染日,65. 0%归因于减排的贡献,35. 0%归因为气象条件的改善.可见,气象与生态环境部门应继续加强数据开放共享,科学开展气象条件预报与减排评估. 展开更多
关键词 空气污染 气象条件 排放 k近邻算法(knn) 支持向量机(SVM) 贡献率
原文传递
基于WiFi信号强度特征的室内定位系统设计 被引量:31
9
作者 徐潇潇 谢林柏 彭力 《计算机工程》 CAS CSCD 北大核心 2015年第4期87-91,共5页
针对室内GPS定位无法准确获取位置信息的问题,在Android平台上设计利用Wi Fi信号强度特征进行定位的系统。该系统由安卓客户端、Tomcat服务器以及My SQL数据库组成,在一般位置指纹定位算法的基础上,通过MAC地址对无线接入点(AP)进行过滤... 针对室内GPS定位无法准确获取位置信息的问题,在Android平台上设计利用Wi Fi信号强度特征进行定位的系统。该系统由安卓客户端、Tomcat服务器以及My SQL数据库组成,在一般位置指纹定位算法的基础上,通过MAC地址对无线接入点(AP)进行过滤,选取固定的参考AP获取位置指纹信息,并结合改进的K最近邻匹配算法,进一步减小定位误差。实验结果表明,该系统定位速度快、定位精度高,具有较好的室内定位效果。 展开更多
关键词 室内定位 安卓客户端 k最近邻 位置指纹 TOMCAT服务器 MYSQL数据库
下载PDF
大数据下的快速KNN分类算法 被引量:29
10
作者 苏毅娟 邓振云 +1 位作者 程德波 宗鸣 《计算机应用研究》 CSCD 北大核心 2016年第4期1003-1006,1023,共5页
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测... 针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。 展开更多
关键词 k最近邻 测试复杂度 大数据 分块 聚类中心
下载PDF
一种改进的KNN文本分类 被引量:27
11
作者 钟将 刘荣辉 《计算机工程与应用》 CSCD 2012年第2期142-144,共3页
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表... 在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。 展开更多
关键词 特征降维 潜在语义分析 k-最近邻法 文本分类
下载PDF
基于K-Medoids聚类的改进KNN文本分类算法 被引量:25
12
作者 罗贤锋 祝胜林 +1 位作者 陈泽健 袁玉强 《计算机工程与设计》 CSCD 北大核心 2014年第11期3864-3867,3937,共5页
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,... 为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。 展开更多
关键词 文本分类 隶属度 k最近邻 样本裁剪 k-Medoids聚类
下载PDF
基于Spark框架的高效KNN中文文本分类算法 被引量:19
13
作者 于苹苹 倪建成 +2 位作者 姚彬修 李淋淋 曹博 《计算机应用》 CSCD 北大核心 2016年第12期3292-3297,共6页
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-... 针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 展开更多
关键词 k-最近邻 聚类 收缩因子 k-medoids SPARk 并行化计算
下载PDF
区域气象条件和减排对空气质量改善的贡献评估 被引量:18
14
作者 武文琪 张凯山 《环境科学》 EI CAS CSCD 北大核心 2021年第2期523-533,共11页
区域气象条件和减排与空气质量的变化关系密切.区域污染天气的发生不只受人为排放的影响,其与气象条件也密切有关.我国地处全球的主要季风气候区,大气环流具有明显的季风气候变化特征,区域气象条件受年际气候变化影响显著.研究通过分析... 区域气象条件和减排与空气质量的变化关系密切.区域污染天气的发生不只受人为排放的影响,其与气象条件也密切有关.我国地处全球的主要季风气候区,大气环流具有明显的季风气候变化特征,区域气象条件受年际气候变化影响显著.研究通过分析不同气候条件下京津冀地区、成渝地区、长三角和珠三角城市群2001~2018年主要气象要素及其污染天气的变化趋势,利用KNN大数据挖掘算法量化分析区域气象条件和减排对大气污染的贡献率.结果表明,2001~2018年间全球气候变化异常频繁,厄尔尼诺/拉尼娜非正常气候占比近一半.减排与气候变化均对空气质量的改善起促进作用.在非正常气候条件下,气象对空气质量改善的贡献更为明显.例如,非正常气候时京津冀地区气象条件对空气质量改善的贡献约为51%,而正常气候时约为30%.对于长三角和珠三角城市群,其气象条件在非正常气候时的贡献达到了50%左右,几乎与减排贡献相当.此外,各区域2015~2018年的减排贡献均高于2001~2012年的平均水平,表明随着我国实施大气污染物排放控制措施力度的增大,减排对空气质量改善的贡献显著.但气象条件对空气质量改善的贡献仍不容忽视,区域减排控制仍然任重而道远. 展开更多
关键词 厄尔尼诺 拉尼娜 空气质量 k近邻算法(knn) 空气质量指数(AQI) 空气污染指数(API)
原文传递
一种基于中心文档的KNN中文文本分类算法 被引量:17
15
作者 鲁婷 王浩 姚宏亮 《计算机工程与应用》 CSCD 北大核心 2011年第2期127-130,共4页
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项... 在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。 展开更多
关键词 中文文本分类 k最邻近 中心文档 语义相似度 聚类
下载PDF
Kernel-kNN:基于信息能度量的核k-最近邻算法 被引量:15
16
作者 刘松华 张军英 +1 位作者 许进 贾宏恩 《自动化学报》 EI CSCD 北大核心 2010年第12期1681-1688,共8页
提出一种核k最近邻算法.首先给出用于最近邻学习的信息能度量方法,该方法克服了高维数据不便于用传统距离度量表示的困难,提高了数据间类别相似性和距离的一致性.在此基础上,将传统的kNN扩展为非线性形式,并采用半正定规划学习全局最优... 提出一种核k最近邻算法.首先给出用于最近邻学习的信息能度量方法,该方法克服了高维数据不便于用传统距离度量表示的困难,提高了数据间类别相似性和距离的一致性.在此基础上,将传统的kNN扩展为非线性形式,并采用半正定规划学习全局最优的度量矩阵.算法主要特点是:能较好地适用于高维数据,并有效提升kNN的分类性能.多个数据集的实验和分析表明,本文的Kernel-kNN算法与传统的kNN算法比较,在低维数据上,分类准确率相当;在高维数据上,分类性能有明显提高. 展开更多
关键词 距离度量 非线性变换 k-最近邻(k-NN) 核方法
下载PDF
一种基于信息熵的自适应k值KNN二分类方法 被引量:16
17
作者 谢妙 林泳昌 朱晓姝 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第11期1483-1486,1505,共5页
针对传统k最近邻(k-nearest neighbor,KNN)算法中需要设定k值的问题,文章提出一种基于信息熵的自适应k值KNN二分类算法(adaptive k-value KNN bisecting classification algorithm based on information entropy,EAKNN)。该算法通过引... 针对传统k最近邻(k-nearest neighbor,KNN)算法中需要设定k值的问题,文章提出一种基于信息熵的自适应k值KNN二分类算法(adaptive k-value KNN bisecting classification algorithm based on information entropy,EAKNN)。该算法通过引入样本比例定义信息熵,加强小样本的重要性;通过计算小于预设熵阈值的最小信息熵,得到对应的k值和模型分数;在此基础上,结合提出的精度提升模型计算得到模型精度,不断迭代模型精度,直到模型精度最大化。实验结果表明,该算法提升模型精度明显,分类准确率高。 展开更多
关键词 信息熵 样本 分类 k最近邻 自适应k
下载PDF
基于密度的离群噪声点检测 被引量:13
18
作者 张毅 刘旭敏 关永 《计算机应用》 CSCD 北大核心 2010年第3期802-805,809,共5页
针对三维扫描仪获取的带噪声和离群点的点云数据,提出了基于局部离群点概念的去噪算法。通过k-近邻(KNN)搜索建立散乱点之间的拓扑关系,进而计算当前测点的局部离群因子以衡量该点的离群程度,从而限制噪声并剔除离群点。重点解决了高密... 针对三维扫描仪获取的带噪声和离群点的点云数据,提出了基于局部离群点概念的去噪算法。通过k-近邻(KNN)搜索建立散乱点之间的拓扑关系,进而计算当前测点的局部离群因子以衡量该点的离群程度,从而限制噪声并剔除离群点。重点解决了高密度扫描点云周围分布的低密度离群噪声点的识别问题。实验结果证明,该算法能有效检测出紧挨模型边界的噪声点,并最大限度地保持模型边界。 展开更多
关键词 局部离群点 k-近邻 模型边界 去噪
下载PDF
基于局部切空间排列和K-最近邻分类器的转子故障诊断方法 被引量:16
19
作者 孙斌 刘立远 牛翀 《中国机械工程》 EI CAS CSCD 北大核心 2015年第1期74-78,共5页
为了解决大型机械设备故障数据难以准确快速提取的问题,提出了一种基于局部切空间排列(LTSA)和K-最近邻分类器的转子故障诊断模型。首先基于转子的振动信号构造一个高维多征兆矩阵,利用LTSA提取高维矩阵的低维特征向量,映射在可视空间里... 为了解决大型机械设备故障数据难以准确快速提取的问题,提出了一种基于局部切空间排列(LTSA)和K-最近邻分类器的转子故障诊断模型。首先基于转子的振动信号构造一个高维多征兆矩阵,利用LTSA提取高维矩阵的低维特征向量,映射在可视空间里;然后将提取的低维特征向量输入K-最近邻分类器进行故障模式识别。试验和数据降维仿真过程表明,该模型的准确度和快速性均优于LTSA和神经网络以及LTSA和支持向量机组成的故障诊断模型。 展开更多
关键词 局部切空间排列 k-最近邻分类器 模式识别 故障诊断
下载PDF
面向非平衡类问题的k近邻分类算法 被引量:16
20
作者 郭华平 周俊 +1 位作者 邬长安 范明 《计算机应用》 CSCD 北大核心 2018年第4期955-959,977,共6页
针对k近邻(k NN)方法不能很好地解决非平衡类问题,提出一种新的面向非平衡类问题的k近邻分类算法。与传统k近邻方法不同,在学习阶段,该算法首先使用划分算法(如K-Means)将多数类数据集划分为多个簇,然后将每个簇与少数类数据集合并成一... 针对k近邻(k NN)方法不能很好地解决非平衡类问题,提出一种新的面向非平衡类问题的k近邻分类算法。与传统k近邻方法不同,在学习阶段,该算法首先使用划分算法(如K-Means)将多数类数据集划分为多个簇,然后将每个簇与少数类数据集合并成一个新的训练集用于训练一个k近邻模型,即该算法构建了一个包含多个k近邻模型的分类器库。在预测阶段,使用划分算法(如K-Means)从分类器库中选择一个模型用于预测样本类别。通过这种方法,提出的算法有效地保证了k近邻模型既能有效发现数据局部特征,又能充分考虑数据的非平衡性对分类器性能的影响。另外,该算法也有效地提升了k近邻的预测效率。为了进一步提高该算法的性能,将合成少数类过抽样技术(SMOTE)应用到该算法中。KEEL数据集上的实验结果表明,即使对采用随机划分策略划分的多数类数据集,所提算法也能有效地提高k近邻方法在评价指标recall、g-mean、f-measure和AUC上的泛化性能;另外,过抽样技术能进一步提高该算法在非平衡类问题上的性能,并明显优于其他高级非平衡类处理方法。 展开更多
关键词 非平衡类技术k近邻 划分 过抽样
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部