期刊文献+
共找到9,138篇文章
< 1 2 250 >
每页显示 20 50 100
K-Means聚类算法研究综述 被引量:277
1
作者 杨俊闯 赵超 《计算机工程与应用》 CSCD 北大核心 2019年第23期7-14,63,共9页
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如... K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 展开更多
关键词 k-means 聚类算法 聚类中心 离群点
下载PDF
一种基于K-Means局部最优性的高效聚类算法 被引量:113
2
作者 雷小锋 谢昆青 +1 位作者 林帆 夏征义 《软件学报》 EI CSCD 北大核心 2008年第7期1683-1692,共10页
K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样... K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率. 展开更多
关键词 k-meansCAN 基于密度 k-means 聚类:连通性
下载PDF
用于数据挖掘的聚类算法 被引量:67
3
作者 姜园 张朝阳 +1 位作者 仇佩亮 周东方 《电子与信息学报》 EI CSCD 北大核心 2005年第4期655-662,共8页
数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计... 数据挖掘用于从超大规模数据库中提取感兴趣的信息。聚类是数据挖掘的重要工具,根据数据间的相似性 将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学 习过程。目前已有应用于统计、模式识别、机器学习等不同领域的几十种聚类算法。该文对数据挖掘中的聚类算法 进行了归纳和分类,总结了7类算法并分析了其性能特点。 展开更多
关键词 数据挖掘 聚类 分层聚类 分割聚类 k-means
下载PDF
基于均值-标准差的K均值初始聚类中心选取算法 被引量:57
4
作者 张文君 顾行发 +2 位作者 陈良富 余涛 许华 《遥感学报》 EI CSCD 北大核心 2006年第5期715-721,共7页
遥感图像分类是遥感图像处理中长期存在的一个难题,针对不同的传感器图像,不同的应用需求,选择合适的分类算法非常重要。在分类中不仅要考虑分类的精度,而且要考虑分类效率。本文研究了K均值算法的初始聚类中心的选择对算法本身聚类精... 遥感图像分类是遥感图像处理中长期存在的一个难题,针对不同的传感器图像,不同的应用需求,选择合适的分类算法非常重要。在分类中不仅要考虑分类的精度,而且要考虑分类效率。本文研究了K均值算法的初始聚类中心的选择对算法本身聚类精度及效率的影响,提出了一种高效高精度的初始聚类中心选取方案,实验结果表明,利用该算法进行地表分类,效率比ENVI的K-M eans(K均值)模块高。 展开更多
关键词 遥感图像分类 k均值 聚类
下载PDF
WiFi-PDR室内组合定位的无迹卡尔曼滤波算法 被引量:68
5
作者 陈国良 张言哲 +1 位作者 汪云甲 孟晓林 《测绘学报》 EI CSCD 北大核心 2015年第12期1314-1321,共8页
针对当前室内定位的应用需求和亟待解决的关键问题,结合城市室内环境下广泛存在的WiFi无线信号以及智能手机传感器信息,提出了一种WiFi无线信号联合行人航迹推算(PDR)的室内定位方法。该方法采用无迹卡尔曼滤波(UKF)算法对WiFi和PDR定... 针对当前室内定位的应用需求和亟待解决的关键问题,结合城市室内环境下广泛存在的WiFi无线信号以及智能手机传感器信息,提出了一种WiFi无线信号联合行人航迹推算(PDR)的室内定位方法。该方法采用无迹卡尔曼滤波(UKF)算法对WiFi和PDR定位信息进行融合处理,有效克服了WiFi单点定位精度低和PDR存在累计误差的问题。针对融合算法中WiFi指纹匹配计算量大的问题,用k-means聚类算法对WiFi指纹库进行聚类处理,降低了指纹匹配算法的计算量,提高了算法的实时性。通过在华为P6-U06智能手机平台上实际测试,在时间效率上经过聚类处理后系统定位耗时有很大程度的改善,平均降幅为51%,其中最大降幅达到64%,最小的也达到了36%;在定位精度上,当室内人员为行走状态时WiFi定位平均误差为7.76m,PDR定位平均误差为4.57m,UKF滤波融合后平均定位误差下降到1.24m。 展开更多
关键词 室内定位 手机传感器 WIFI 行人航迹推算 k-means 无迹卡尔曼滤波
下载PDF
一种基于Spark和聚类分析的辨识电力系统不良数据新方法 被引量:65
6
作者 孟建良 刘德超 《电力系统保护与控制》 EI CSCD 北大核心 2016年第3期85-91,共7页
随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框... 随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于Map Reduce框架的方法相比,具有更好的加速比、扩展性,能更好地处理电力系统的海量数据。 展开更多
关键词 SPARk 聚类 k-means 电力系统 不良数据 负荷曲线分类
下载PDF
K均值聚类算法的研究与优化 被引量:62
7
作者 陶莹 杨锋 +1 位作者 刘洋 戴兵 《计算机技术与发展》 2018年第6期90-92,共3页
聚类分析是数据挖掘的重要组成部分,K均值聚类算法是聚类分析方法中一种基本的划分式方法,也是无监督的机器学习方法。其具有效率高、容易理解和实现等优点,同时,可以对多种数据类型进行聚类,广泛应用于诸多领域。但是,K均值聚类算法也... 聚类分析是数据挖掘的重要组成部分,K均值聚类算法是聚类分析方法中一种基本的划分式方法,也是无监督的机器学习方法。其具有效率高、容易理解和实现等优点,同时,可以对多种数据类型进行聚类,广泛应用于诸多领域。但是,K均值聚类算法也有一些局限性。算法中合理的k值难以确定,而且算法选择初始聚类中心的随机性会导致聚类结果不稳定,同时,算法对噪声和离群点数据也有很强的敏感性。为了解决初始聚类中心随机性的问题,通过全局化思想对K均值聚类算法进行了改进,改进的聚类效果评价使用常用的误差平方和准则。实验结果表明,相较于一般的K均值聚类算法,全局K均值聚类算法得到了更好的聚类效果,同时提升了算法的稳定性。 展开更多
关键词 数据挖掘 k均值聚类 中心点 误差平方和
下载PDF
改进的k-平均聚类算法研究 被引量:50
8
作者 孙士保 秦克云 《计算机工程》 CAS CSCD 北大核心 2007年第13期200-201,209,共3页
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算... 聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。 展开更多
关键词 聚类算法 k-平均 聚类数据挖掘
下载PDF
数据挖掘技术在高校教学与管理中的应用 被引量:59
9
作者 刘美玲 李熹 李永胜 《计算机工程与设计》 CSCD 北大核心 2010年第5期1130-1133,共4页
针对传统的求总分统计成绩方法的不足,提出了一种基于K-Means算法的成绩聚类分析方法。该方法根据成绩分布情况选取固定的初始聚类中心,改进了K-Means算法随机选取初始聚类中心导致聚类不稳定的不足,在聚类后通过聚类内差异与聚类间差... 针对传统的求总分统计成绩方法的不足,提出了一种基于K-Means算法的成绩聚类分析方法。该方法根据成绩分布情况选取固定的初始聚类中心,改进了K-Means算法随机选取初始聚类中心导致聚类不稳定的不足,在聚类后通过聚类内差异与聚类间差异的比值来衡量聚类的质量。通过一个实例说明了该方法在分析学生成绩数据中的应用,实验结果表明,聚类方法比传统的求总分方法更合理、更科学,聚类结果蕴含更多有用的信息,而且改进后的聚类方法降低了随机选取初始聚类中心所产生的结果的不稳定性,聚类效果较好。 展开更多
关键词 数据挖掘 聚类分析 k-means 教学 管理
下载PDF
Research on practical power system stability analysis algorithm based on modified SVM 被引量:58
10
作者 Kaiyuan Hou Guanghui Shao +4 位作者 Haiming Wang Le Zheng Qiang Zhang Shuang Wu Wei Hu 《Protection and Control of Modern Power Systems》 2018年第1期129-135,共7页
Stable and safe operation of power grids is an important guarantee for economy development.Support Vector Machine(SVM)based stability analysis method is a significant method started in the last century.However,the SVM... Stable and safe operation of power grids is an important guarantee for economy development.Support Vector Machine(SVM)based stability analysis method is a significant method started in the last century.However,the SVM method has several drawbacks,e.g.low accuracy around the hyperplane and heavy computational burden when dealing with large amount of data.To tackle the above problems of the SVM model,the algorithm proposed in this paper is optimized from three aspects.Firstly,the gray area of the SVM model is judged by the probability output and the corresponding samples are processed.Therefore the clustering of the samples in the gray area is improved.The problem of low accuracy in the training of the SVM model in the gray area is improved,while the size of the sample is reduced and the efficiency is improved.Finally,by adjusting the model of the penalty factor in the SVM model after the clustering of the samples,the number of samples with unstable states being misjudged as stable is reduced.Test results on the IEEE 118-bus test system verify the proposed method. 展开更多
关键词 Security region analysis Support vector machine k-means clustering
原文传递
改进YOLOv3的金属表面缺陷检测研究 被引量:56
11
作者 程婧怡 段先华 朱伟 《计算机工程与应用》 CSCD 北大核心 2021年第19期252-258,共7页
针对金属表面缺陷检测中目标尺寸小和特征不清晰导致漏检的问题,提出一种改进YOLOv3的金属缺陷检测算法。在YOLOv3网络结构的基础上,将第11层浅层特征与网络深层特征融合,生成一个新的尺度为104×104特征图层,提取更多小缺陷目标特... 针对金属表面缺陷检测中目标尺寸小和特征不清晰导致漏检的问题,提出一种改进YOLOv3的金属缺陷检测算法。在YOLOv3网络结构的基础上,将第11层浅层特征与网络深层特征融合,生成一个新的尺度为104×104特征图层,提取更多小缺陷目标特征。加入DIoU边框回归损失,为边界框提供移动方向以及更准确的位置信息,加快模型收敛。利用K-Means++聚类分析数据集上的先验框尺寸信息,筛选出最优的AnchorBox,使定位更加精准,降低网络损失。将改进后的算法与其他检测算法在NEU-DET数据集上进行检测性能对比。实验分析表明改进后的YOLOv3平均检测速率为31.6 frame/s;平均检测精度为67.64%,比YOLOv3提高了7.49个百分点,相较于FasterR-CNN等算法也有较大的检测精度优势。结论表明,改进后的YOLOv3可以使小缺陷目标的位置信息和精度更加准确。 展开更多
关键词 目标检测 金属表面缺陷 YOLOv3 k-means++ 距离交并比(DIoU)
下载PDF
基于统计相关性与K-means的区分基因子集选择算法 被引量:56
12
作者 谢娟英 高红超 《软件学报》 EI CSCD 北大核心 2014年第9期2050-2075,共26页
针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原... 针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集;然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练SVM分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集.将该算法与采用随机策略选择各类簇代表基因的随机基因选择算法Random,Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS进行实验比较,几个经典基因数据集上的200次重复实验的平均实验结果表明:所提出的混合基因选择算法能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能. 展开更多
关键词 区分基因子集选择 Pearson 相关系数 Wilcoxon 秩和检验 k-means 聚类 统计相关性 FILTER 算法 Wrapper算法
下载PDF
基于MFCC和LPCC的说话人识别 被引量:47
13
作者 余建潮 张瑞林 《计算机工程与设计》 CSCD 北大核心 2009年第5期1189-1191,共3页
MFCC参数和LPCC参数是说话人识别中两种最常用的特征参数,研究了MFCC和LPCC参数提取的算法原理及差分倒谱参数的提取方法,采用MFCC、LPCC及其一阶、二阶差分作为特征参数,通过k均值算法与三层BP神经网络来进行说话人识别。实验结果表明... MFCC参数和LPCC参数是说话人识别中两种最常用的特征参数,研究了MFCC和LPCC参数提取的算法原理及差分倒谱参数的提取方法,采用MFCC、LPCC及其一阶、二阶差分作为特征参数,通过k均值算法与三层BP神经网络来进行说话人识别。实验结果表明,该方法可以有效提高识别率,同时也验证MFCC参数的鲁棒性优于LPCC参数。 展开更多
关键词 LPCC MFCC 特征提取 说话人识别 神经网络 k均值算法
下载PDF
自然环境下柑橘采摘机器人识别定位系统研究 被引量:50
14
作者 杨长辉 刘艳平 +3 位作者 王毅 熊龙烨 许洪斌 赵万华 《农业机械学报》 EI CAS CSCD 北大核心 2019年第12期14-22,72,共10页
为了准确理解柑橘采摘机器人在自然环境下的作业场景,获取采摘目标及周围障碍物的位置信息,构建了基于卷积神经网络和Kinect V2相机的识别定位系统。首先,对采摘场景中的果树提出5类目标物分类准则,包含1类可采摘果实和4类障碍物目标;然... 为了准确理解柑橘采摘机器人在自然环境下的作业场景,获取采摘目标及周围障碍物的位置信息,构建了基于卷积神经网络和Kinect V2相机的识别定位系统。首先,对采摘场景中的果树提出5类目标物分类准则,包含1类可采摘果实和4类障碍物目标;然后,在YOLO V3(You only look once)卷积层模块中添加3层最大池化层,对预测候选框进行K-means聚类分析,增强模型对枝叶类物体特征的提取能力,实现采摘场景的准确理解;最后,采用Kinect V2相机的深度图映射得到采摘目标和障碍物的三维信息,并在自然环境下进行了避障采摘作业。实验结果表明,构建的识别定位系统对障碍物和可采摘果实的识别综合评价指数分别为83.6%和91.9%,定位误差为5.9 mm,单帧图像的处理时间为0.4 s,采摘成功率和避障成功率分别达到80.51%和75.79%。 展开更多
关键词 采摘机器人 目标识别 三维定位 YOLO V3 k-means
下载PDF
澜沧江流域干旱变化的时空特征 被引量:50
15
作者 李斌 李丽娟 +4 位作者 李海滨 梁丽乔 李九一 柳玉梅 曾宏伟 《农业工程学报》 EI CAS CSCD 北大核心 2011年第5期87-92,I0002,共7页
干旱是澜沧江流域的突出自然灾害,研究气候变化背景下的流域干旱变化特征具有重要科学意义与应用价值。该文基于澜沧江流域及其周边35个气象站点1960-2005年的日降水数据,利用多时间尺度下的标准化降水指数(SPI)分析了流域干旱变化的时... 干旱是澜沧江流域的突出自然灾害,研究气候变化背景下的流域干旱变化特征具有重要科学意义与应用价值。该文基于澜沧江流域及其周边35个气象站点1960-2005年的日降水数据,利用多时间尺度下的标准化降水指数(SPI)分析了流域干旱变化的时空特征。研究发现,主成份分析与K-means聚类的多元统计方法可分别将流域在空间上分为4个具有不同干旱演化特征的区域,2种分区方案具有很高的空间一致性。对划分的4个区域典型站点的小波分析表明,流域干旱变化的周期一般在3~6a。研究结论可为相关部门的决策提供参考。 展开更多
关键词 降水 干旱 PCA 小波分析 时间序列分析 标准化降水指数 k-means
下载PDF
基于密度的K-means聚类中心选取的优化算法 被引量:48
16
作者 周炜奔 石跃祥 《计算机应用研究》 CSCD 北大核心 2012年第5期1726-1728,共3页
针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获... 针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获得最优聚类。采用标准的UCI数据集进行实验对比,发现改进后的算法相比传统的算法有较高的准确率和稳定性。 展开更多
关键词 k-均值 数据挖掘 聚类中心 垂直中点 密度
下载PDF
差分隐私保护k-means聚类方法研究 被引量:48
17
作者 李杨 郝志峰 +1 位作者 温雯 谢光强 《计算机科学》 CSCD 北大核心 2013年第3期287-290,共4页
研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k... 研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足ε-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。 展开更多
关键词 差分隐私 k-均值 聚类 隐私保护
下载PDF
一种面向对象的多角色蚁群算法及其TSP问题求解 被引量:47
18
作者 杜鹏桢 唐振民 孙研 《控制与决策》 EI CSCD 北大核心 2014年第10期1729-1736,共8页
蚁群算法的改进大多从算法本身入手或与其他算法相结合,未充分利用待解决问题所包含的信息,提升效果较为有限.对此,提出一种面向对象的多角色蚁群算法.该算法充分利用旅行商问题(TSP)对象的空间信息,采用k-均值聚类将城市划分为不同类别... 蚁群算法的改进大多从算法本身入手或与其他算法相结合,未充分利用待解决问题所包含的信息,提升效果较为有限.对此,提出一种面向对象的多角色蚁群算法.该算法充分利用旅行商问题(TSP)对象的空间信息,采用k-均值聚类将城市划分为不同类别;同时,对蚁群进行角色划分,不同角色的蚁群针对城市类别关系执行各自不同的搜索策略,增强了蚁群的搜索能力,较大幅度地提高了求解质量.每进行一次迭代,仅各角色最优个体进行信息素更新,防止算法退化为随机的贪婪搜索.将精英策略与跳出局部最优相结合可避免算法的停滞.50个经典TSP实例仿真实验表明:所提出的算法可以在较少的迭代次数内获得或非常接近于问题的已知最优解;对于大规模TSP问题所得结果也远超所对比的算法. 展开更多
关键词 蚁群算法 面向对象 多角色 k-均值 旅行商问题 2-Opt
原文传递
基于K-Means聚类算法的自动图谱识别在电缆局部放电在线监测系统中的应用 被引量:46
19
作者 靖小平 彭小圣 +3 位作者 姜伟 周文俊 周承科 唐泽洋 《高电压技术》 EI CAS CSCD 北大核心 2012年第9期2437-2446,共10页
局部放电相位谱图(phase resolved partial discharge pattern)是局部放电模式识别普遍采用的重要方法。但在中高压电缆在线局放监测系统中,电缆中的电压信号难以直接获取,使得局放相位谱图分析的开展遇到了重大的挑战。为此,在多年局... 局部放电相位谱图(phase resolved partial discharge pattern)是局部放电模式识别普遍采用的重要方法。但在中高压电缆在线局放监测系统中,电缆中的电压信号难以直接获取,使得局放相位谱图分析的开展遇到了重大的挑战。为此,在多年局放理论研究和局放现场应用研究的基础上,提出了基于K-Means聚类的局部放电相位谱图自动模式识别技术。该技术通过信号提取、坐标变换、K-Means聚类、中心点平移、模式判断的流程,克服了电缆局放监测中相位信息难以直接获取的缺点,能对来自三相的局部放电信号进行自动识别判断。5个应用实例证明,该方法能对电晕放电、内部放电、沿面放电和干扰信号做出准确的判断,必将在电缆在线监测系统中获得广泛的应用。 展开更多
关键词 局部放电(PD) k-means 局部放电相位谱图 自动模式识别 聚类 在线监测 电力电缆
下载PDF
中文文本聚类常用停用词表对比研究 被引量:46
20
作者 官琴 邓三鸿 王昊 《数据分析与知识发现》 CSSCI CSCD 2017年第3期72-80,共9页
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用... 【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。 展开更多
关键词 文本聚类 停用词 kmeans
原文传递
上一页 1 2 250 下一页 到第
使用帮助 返回顶部