期刊文献+
共找到124篇文章
< 1 2 7 >
每页显示 20 50 100
基于样本权重的不平衡数据欠抽样方法 被引量:43
1
作者 熊冰妍 王国胤 邓维斌 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2613-2622,共10页
现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此... 现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型.对19组UCI数据集和某电信运营商客户换机数据进行了测试实验,实验结果表明:KAcBag方法使抽样所得的样本具有较强的代表性,能有效提高少数类的分类性能并缩小问题规模. 展开更多
关键词 不平衡数据 欠抽样 样本权重 聚类 集成学习
下载PDF
基于邻域的K中心点聚类算法 被引量:32
2
作者 谢娟英 郭文娟 谢维信 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第4期16-22,共7页
提出一种基于邻域的K中心点聚类算法,该算法利用数据集样本的自然分布信息定义数据对象的邻域半径和相应邻域,选择位于样本分布密集区且相距较远的K个数据对象作为初始聚类中心,以期改进快速K中心点算法在选取初始中心点时有可能使多个... 提出一种基于邻域的K中心点聚类算法,该算法利用数据集样本的自然分布信息定义数据对象的邻域半径和相应邻域,选择位于样本分布密集区且相距较远的K个数据对象作为初始聚类中心,以期改进快速K中心点算法在选取初始中心点时有可能使多个初始中心位于同一类簇的潜在缺陷.通过UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集实验测试,表明提出的基于邻域的K中心点算法不仅具有很好的聚类效果,而且运行时间短,对噪音数据有很强的抗干扰性能,优于传统K中心点算法和Park等人的快速K中心点算法. 展开更多
关键词 邻域 K中心点算法 样本密度 聚类 样本空间分布
下载PDF
快速查找初始聚类中心的K_means算法 被引量:19
3
作者 曹志宇 张忠林 李元韬 《兰州交通大学学报》 CAS 2009年第6期15-18,共4页
传统的k_means算法对初始聚类中心十分敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优.为消除这种敏感性,针对k_means算法,提出了一种新的基于数据样本分布选取初始聚类中心的方法,对公共数据库UCI里面的数据实验表明改进后的k_... 传统的k_means算法对初始聚类中心十分敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优.为消除这种敏感性,针对k_means算法,提出了一种新的基于数据样本分布选取初始聚类中心的方法,对公共数据库UCI里面的数据实验表明改进后的k_means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性. 展开更多
关键词 聚类 数据样本 欧式距离 k_means算法 聚类中心
下载PDF
一种应用聚类分析的科研立项评审数据处理方法 被引量:15
4
作者 肖建华 吴今培 +2 位作者 陈世权 梁宇宁 马强 《科研管理》 CSSCI 北大核心 2000年第3期82-87,共6页
本文首先简单地介绍了基金项目立项评审的操作过程和现行专家评审数据的处理方法 ,并举例分析了这种处理方法所存在的不足。最后 ,从聚类分析的角度出发 ,提出了两种新的数据处理方法 :表格聚类法和指标聚类法。分析表明 :在立项评审中... 本文首先简单地介绍了基金项目立项评审的操作过程和现行专家评审数据的处理方法 ,并举例分析了这种处理方法所存在的不足。最后 ,从聚类分析的角度出发 ,提出了两种新的数据处理方法 :表格聚类法和指标聚类法。分析表明 :在立项评审中采用这两种数据处理方法比现行的处理方法更具有可行性。 展开更多
关键词 基金项目 数据处理 立项评审 聚类分析 科研项目
下载PDF
自适应AP聚类算法及其在入侵检测中的应用 被引量:17
5
作者 江颉 王卓芳 +2 位作者 陈铁明 朱陈晨 陈波 《通信学报》 EI CSCD 北大核心 2015年第11期118-126,共9页
网络数据流量的增大对入侵检测系统的实时性提出了更高的要求,压缩训练数据可加快未知样本的分类处理速度。针对数据量过大造成压缩处理和聚类效率低下的难题,提出了一种改进的自适应AP(affinity propagation)聚类方法,采取直接关联与... 网络数据流量的增大对入侵检测系统的实时性提出了更高的要求,压缩训练数据可加快未知样本的分类处理速度。针对数据量过大造成压缩处理和聚类效率低下的难题,提出了一种改进的自适应AP(affinity propagation)聚类方法,采取直接关联与簇中心距离较近样本的方法,减少聚类样本数量,降低聚类时空消耗,并依据关联结果,不断调整聚类参数,精确聚类结果。2个网络安全数据集的应用结果表明,该方法可从大规模样本中有效聚出代表性子集,在保证准确率的前提下,提高入侵检测的实效性。 展开更多
关键词 入侵检测 样本 聚类 吸引子传播算法 自适应
下载PDF
一种基于故障重要度的概率神经网络诊断方法 被引量:12
6
作者 雷正伟 徐章遂 +1 位作者 米东 刘美全 《计算机测量与控制》 CSCD 2004年第2期107-109,共3页
在研究概率神经网络的基础上 ,提出一种新的聚类方法对网络参数进行优化 ,能较好的反应故障重要度以及故障样本的空间的分布特性 ,合理的确定隐含层节点的个数 ,从而使网络结构得到优化 ,具有较高的训练效率。将该模型应用于漏磁裂纹识... 在研究概率神经网络的基础上 ,提出一种新的聚类方法对网络参数进行优化 ,能较好的反应故障重要度以及故障样本的空间的分布特性 ,合理的确定隐含层节点的个数 ,从而使网络结构得到优化 ,具有较高的训练效率。将该模型应用于漏磁裂纹识别 。 展开更多
关键词 飞机 故障诊断 概率 神经网络 故障重要度 聚类方法
下载PDF
基于样本加权FCM聚类的未知类别局部放电信号识别 被引量:15
7
作者 贾亚飞 朱永利 +1 位作者 高佳程 袁博 《电力自动化设备》 EI CSCD 北大核心 2018年第12期107-112,共6页
针对电力变压器待识别局部放电信号中可能存在不属于已知类别的未知样本的问题,提出了一种基于样本加权模糊C均值(FCM)聚类的未知类别局部放电信号识别方法。对已知类别的局部放电信号进行FCM聚类,确定各已知类的聚类中心;分别计算已知... 针对电力变压器待识别局部放电信号中可能存在不属于已知类别的未知样本的问题,提出了一种基于样本加权模糊C均值(FCM)聚类的未知类别局部放电信号识别方法。对已知类别的局部放电信号进行FCM聚类,确定各已知类的聚类中心;分别计算已知类别和待识别局部放电信号的样本权值,并根据Otsu准则确定样本权值的自适应阈值;将各待识别局部放电信号的权值与确定的阈值进行比较,判断其是否属于已知类别;采用支持向量机(SVM)对得到的属于已知类别的待识别局部放电信号进行分类,对未知类别样本进行人为分析判断。采用所提方法对实验室条件下的放电信号进行分析,实验结果表明,所提方法可以有效地区分待识别局部放电信号中的未知类别样本。 展开更多
关键词 电力变压器 局部放电 模式识别 未知样本 样本加权 FCM聚类 OTSU准则 支持向量机
下载PDF
基于事件实例驱动的新闻文本事件抽取 被引量:12
8
作者 许旭阳 李弼程 +1 位作者 张先飞 韩永峰 《计算机科学》 CSCD 北大核心 2011年第8期232-235,共4页
目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的... 目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的特征,构成候选事件实例表示;其次,通过二元分类器对新闻文本中的事件实例与非事件实例进行分类;最后,对事件实例采用基于层次聚类的k-medoids算法完成事件抽取。该方法不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性。实验结果验证了该方法的有效性,对比传统方法,事件抽取的准确率与召回率均获得了显著的提高。 展开更多
关键词 事件实例 分类 新闻文本 聚类 事件抽取
下载PDF
影响学生学习成绩因素的探究与分析 被引量:10
9
作者 王俊红 樊顺厚 邓一泉 《天津工业大学学报》 CAS 2007年第6期86-88,共3页
在影响本科生学习成绩的几种因素中,针对高考成绩这一因素是定量指标的特点,首先将有序样本进行聚类分析,从而把定量指标定性化,进而应用统计中的方差分析模型,找到影响在校学生成绩的重要因素,由此对今后的教学管理提出建设性意见.
关键词 方差分析 有序样本 聚类分析 教学管理
下载PDF
基于聚类算法优化样本的地质灾害易发性评价 被引量:6
10
作者 刘铁铭 郭有金 刘艳领 《人民长江》 北大核心 2023年第3期117-124,共8页
区域地质灾害易发性评价样本数据的可靠性是影响最终评价结果的关键因素之一。以陕西省白河县236处地质灾害为研究对象,分别采用层次聚类算法与动态K-means聚类算法对地质灾害样本数据进行聚类分析并获得其样本纯度。分析结果表明:层次... 区域地质灾害易发性评价样本数据的可靠性是影响最终评价结果的关键因素之一。以陕西省白河县236处地质灾害为研究对象,分别采用层次聚类算法与动态K-means聚类算法对地质灾害样本数据进行聚类分析并获得其样本纯度。分析结果表明:层次聚类算法与K-means聚类算法得到样本纯度分别为91.53%与92.80%;结合两种算法结果,剔除样本噪声点20个,确定有效样本点216个,得到最终样本纯度为91.53%。利用样本提纯前后数据分别建立信息量模型(Ⅳ前、Ⅳ后),开展区域地质灾害易发性评价。评价结果表明:Ⅳ前模型与Ⅳ后模型得到的区域易发性区划图中,地质灾害落入极高-高易发区的数量分别为149个与167个,分别占灾害总数的63.13%与70.77%,灾害密度分别为0.508个/km 2与0.584个/km 2,较初始样本条件,样本提纯后极高-高易发区内灾害点数增加18个,灾害密度增加0.076个/km 2,地质灾害分布更集中,预测结果准确度更高。研究结果可为地质灾害易发性评价研究中的初始样本数据提纯提供一定的理论与科学依据。 展开更多
关键词 地质灾害 易发性评价 评价指标 样本纯度 聚类算法 信息量模型
下载PDF
马尔科夫模型在网络流量分类中的应用与研究 被引量:10
11
作者 赵英 韩春昊 《计算机工程》 CAS CSCD 北大核心 2018年第5期291-295,共5页
传统的端口号与深度包检测分类技术已不能满足网络中各类应用的分类要求,无法进行准确分类。为此,提出一种基于半监督学习的马尔科夫模型网络流量分类算法。利用流之间的相关性构建马尔科夫模型,采用密度计算的方法估计聚类的中心点,通... 传统的端口号与深度包检测分类技术已不能满足网络中各类应用的分类要求,无法进行准确分类。为此,提出一种基于半监督学习的马尔科夫模型网络流量分类算法。利用流之间的相关性构建马尔科夫模型,采用密度计算的方法估计聚类的中心点,通过KL距离计算中心点与样本之间的相似度,将样本划分到不同的应用类型中。使用马尔科夫模型提取特征参数,用以识别流量应用类型,并提高准确度,解决传统的基于半监督学习的流量分类方法依赖不稳定聚类算法的问题。实验结果表明,使用该方法机器学习得到的网络流量分类器可以取得理想的分类效果。 展开更多
关键词 网络流量分类 马尔科夫模型 相似度计算 半监督学习 流相关性 样本密度 聚类算法 相对熵
下载PDF
基于DLMD样本熵和模糊聚类的滚动轴承故障诊断 被引量:9
12
作者 孟宗 王亚超 王晓燕 《中国机械工程》 EI CAS CSCD 北大核心 2014年第19期2634-2641,共8页
针对传统的局部均值分解(LMD)方法不能有效提取微弱高频信号成分的问题,提出了一种基于微分的微分局部均值分解(DLMD)方法,在此基础上,将DLMD、样本熵和模糊聚类分析相结合,提出了一种基于DLMD样本熵和模糊聚类的滚动轴承故障诊断方法... 针对传统的局部均值分解(LMD)方法不能有效提取微弱高频信号成分的问题,提出了一种基于微分的微分局部均值分解(DLMD)方法,在此基础上,将DLMD、样本熵和模糊聚类分析相结合,提出了一种基于DLMD样本熵和模糊聚类的滚动轴承故障诊断方法。该方法首先对滚动轴承振动信号进行微分局部均值分解,得到若干具有物理意义的乘积函数(PF)分量,然后求取各PF分量的样本熵并将其作为特征向量,最后通过模糊聚类对特征向量进行识别分类。实验结果表明,基于DLMD样本熵和模糊聚类相结合的方法能够准确、有效地对滚动轴承故障信号进行识别分类。 展开更多
关键词 故障诊断 滚动轴承 微分局部均值分解 样本熵 模糊聚类
下载PDF
均匀设计法在RBF神经网络样本优选中的应用 被引量:7
13
作者 马翔 陈新楚 王劭伯 《模式识别与人工智能》 EI CSCD 北大核心 2005年第2期252-255,共4页
鉴于学习样本的选择对神经网络的泛化能力有很大影响,本文提出学习样本的选择应针对被逼近的非线性对象的特性,采用均匀设计法构造样本中心,结合聚类理论对学习样本进行优选。应用结果表明这种方法可以提高神经网络的泛化能力。
关键词 径向基函数 神经网络 均匀设计 样本选择 聚类理论 泛化能力
原文传递
Three-dimensional(3D)parametric measurements of individual gravels in the Gobi region using point cloud technique
14
作者 JING Xiangyu HUANG Weiyi KAN Jiangming 《Journal of Arid Land》 SCIE CSCD 2024年第4期500-517,共18页
Gobi spans a large area of China,surpassing the combined expanse of mobile dunes and semi-fixed dunes.Its presence significantly influences the movement of sand and dust.However,the complex origins and diverse materia... Gobi spans a large area of China,surpassing the combined expanse of mobile dunes and semi-fixed dunes.Its presence significantly influences the movement of sand and dust.However,the complex origins and diverse materials constituting the Gobi result in notable differences in saltation processes across various Gobi surfaces.It is challenging to describe these processes according to a uniform morphology.Therefore,it becomes imperative to articulate surface characteristics through parameters such as the three-dimensional(3D)size and shape of gravel.Collecting morphology information for Gobi gravels is essential for studying its genesis and sand saltation.To enhance the efficiency and information yield of gravel parameter measurements,this study conducted field experiments in the Gobi region across Dunhuang City,Guazhou County,and Yumen City(administrated by Jiuquan City),Gansu Province,China in March 2023.A research framework and methodology for measuring 3D parameters of gravel using point cloud were developed,alongside improved calculation formulas for 3D parameters including gravel grain size,volume,flatness,roundness,sphericity,and equivalent grain size.Leveraging multi-view geometry technology for 3D reconstruction allowed for establishing an optimal data acquisition scheme characterized by high point cloud reconstruction efficiency and clear quality.Additionally,the proposed methodology incorporated point cloud clustering,segmentation,and filtering techniques to isolate individual gravel point clouds.Advanced point cloud algorithms,including the Oriented Bounding Box(OBB),point cloud slicing method,and point cloud triangulation,were then deployed to calculate the 3D parameters of individual gravels.These systematic processes allow precise and detailed characterization of individual gravels.For gravel grain size and volume,the correlation coefficients between point cloud and manual measurements all exceeded 0.9000,confirming the feasibility of the proposed methodology for measuring 3D parameters of individual gr 展开更多
关键词 Gobi gravels three-dimensional(3D)parameters point cloud 3D reconstruction Random sample Consensus(RANSAC)algorithm Density-Based Spatial clustering of Applications with Noise(DBSCAN)
下载PDF
文本分类中基于K-means的类偏斜KNN样本剪裁 被引量:6
15
作者 刘海峰 姚泽清 +1 位作者 苏展 张学仁 《微电子学与计算机》 CSCD 北大核心 2012年第5期24-28,共5页
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合... KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能. 展开更多
关键词 K最近邻 类偏斜 样本剪裁 聚类
下载PDF
基于模糊聚类和改进Densenet网络的小样本轴承故障诊断
16
作者 魏文军 张轩铭 杨立本 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第3期154-163,共10页
针对实际中轴承的故障数据少难以满足深度学习数据大量训练模型的要求,利用卷积神经网络的微小特征提取优势和模糊聚类不需要训练即可完成分类的特点,提出了一种基于模糊聚类和改进Densenet网络的小样本轴承故障诊断方法。首先将预训练... 针对实际中轴承的故障数据少难以满足深度学习数据大量训练模型的要求,利用卷积神经网络的微小特征提取优势和模糊聚类不需要训练即可完成分类的特点,提出了一种基于模糊聚类和改进Densenet网络的小样本轴承故障诊断方法。首先将预训练微调的Densenet网络去掉分类只保留特征提取层,设计一个维度自适应全局均值池化层(GAP)代替全连接层(FC),其次利用模糊聚类代替Densenet网络的softmax分类层,不需要训练即可完成分类。实验结果表明:该算法利用小样本数据训练网络中的GAP参数,模型需要的训练样本大大减少,诊断时将轴承时域图像输入到网络中,在GAP层输出1 920个特征数据,不同故障状态的特征数据构建特征向量矩阵,利用模糊聚类方法求得模糊相似矩阵和模糊等价矩阵,当置信因子从大到小变化时,由对应布尔矩阵得到动态聚类图,从而实现轴承故障分类。 展开更多
关键词 小样本 全局均值池化层 迁移学习 模糊聚类 故障诊断
下载PDF
合理进行多元分析——主成分分析 被引量:1
17
作者 胡纯严 胡良平 《四川精神卫生》 2023年第S01期48-54,共7页
本文目的是介绍与主成分分析有关的基本概念、计算方法、两个实例以及SAS实现。基本概念包括相关矩阵、特征值与特征向量、主成分变量、主成分表达式和主成分的性质;计算方法涉及特征值与特征向量的求法、主成分分析的计算原理以及系数... 本文目的是介绍与主成分分析有关的基本概念、计算方法、两个实例以及SAS实现。基本概念包括相关矩阵、特征值与特征向量、主成分变量、主成分表达式和主成分的性质;计算方法涉及特征值与特征向量的求法、主成分分析的计算原理以及系数估计和个数的确定;两个实例中的资料分别为“20例肝病患者的4项肝功能指标的测定结果”和“23种肿瘤类期刊的文献计量学指标的调查结果”;借助SAS对两个实例中的定量资料进行了主成分分析,并基于主成分的计算结果分别实现了样品聚类和样品排序,并对输出结果作出了解释。 展开更多
关键词 特征值 特征向量 主成分分析 样品聚类 样品排序
下载PDF
Dirichlet混合样本的EM算法与动态聚类算法比较 被引量:5
18
作者 夏棒 EMILION Richard 王惠文 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第9期1805-1811,共7页
Dirichlet分布是一类包含正参数向量的连续多元概率分布,在比例结构问题中具有广泛的应用。针对Dirichlet混合样本的聚类问题,进行了最大期望(EM)算法和动态聚类算法研究。首先,推导其数学过程,并给出算法迭代步骤。然后,利用数字仿真实... Dirichlet分布是一类包含正参数向量的连续多元概率分布,在比例结构问题中具有广泛的应用。针对Dirichlet混合样本的聚类问题,进行了最大期望(EM)算法和动态聚类算法研究。首先,推导其数学过程,并给出算法迭代步骤。然后,利用数字仿真实验,比较了EM算法与动态聚类算法两种机器学习算法在Dirichlet混合样本中的聚类效果。最后,计算对数似然函数值、程序运行时间、收敛迭代次数、聚类正确率、真正率(TPR)和假正率(FPR) 6个评价指标。仿真实验结果表明,EM算法聚类正确率更高但是运算效率相对较低,而动态聚类算法运算效率较高但是损失了部分聚类正确率。因此,实际应用中建议综合权衡聚类正确率与运算效率的相对需求后,再选取合适算法进行Dirichlet混合样本聚类。 展开更多
关键词 Dirichlet分布 混合样本 最大期望(EM)算法 动态聚类 机器学习
下载PDF
有序样品聚类的相关序列法 被引量:2
19
作者 程乾生 《石油地球物理勘探》 EI CSCD 北大核心 1994年第1期96-100,共5页
本文借助于广义相关系数(相关度),引入了相关序列的概念,并提出了有序样品聚类的相关序列法。应用该方法确定二曾一三叠系界线的实例表明,相关序列法是简单而有效的。
关键词 样品 序列 数据处理 采样
下载PDF
基于PCA-FINCH的磨煤机故障诊断方法 被引量:1
20
作者 钱虹 张现涛 《热力发电》 CAS CSCD 北大核心 2023年第9期147-154,共8页
针对类似磨煤机故障等小概率发生事件难以提取且用于机器学习分类导致的故障诊断精度低的问题,提出了一种基于小样本的PCA-FINCH高精度故障诊断方法。首先,基于主元分析(PCA)对表征设备运行状态的历史数据进行故障检测,通过T2控制限与Q... 针对类似磨煤机故障等小概率发生事件难以提取且用于机器学习分类导致的故障诊断精度低的问题,提出了一种基于小样本的PCA-FINCH高精度故障诊断方法。首先,基于主元分析(PCA)对表征设备运行状态的历史数据进行故障检测,通过T2控制限与Q控制限来检测故障的发生并识别故障样本,提取故障样本从而组成小样本故障集;然后,基于FINCH分类器,对获取的小样本故障集进行精确分类,实现对设备的故障诊断;最后,使用包含有磨煤机故障的历史数据集对该方法进行验证。结果表明,提出的PCA-FINCH故障诊断方法能够对小样本故障实现高精度分类,其在精确度上,较决策树CART、随机森林RF、支持向量机SVM分别提高了2.61百分点、1.74百分点、1.85百分点,其在收敛速度上也表现优异。 展开更多
关键词 磨煤机 故障诊断 小样本 FINCH聚类 主元分析
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部