期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于k-means聚类的无导词义消歧 被引量:16
1
作者 陈浩 何婷婷 姬东鸿 《中文信息学报》 CSCD 北大核心 2005年第4期10-16,共7页
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行... 无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在多个汉语高频多义词的两组测试中取得了平均准确率82·67%和80·87%的较好的效果。 展开更多
关键词 计算机应用 中文信息处理 词义消歧 HOWNET 二阶context k-means聚类
下载PDF
基于知网的无指导词义消歧 被引量:1
2
作者 陈浩 《电脑知识与技术》 2015年第4期67-68,71,共3页
词义消歧仍然是自然语言处理中一个重大的挑战,在自然语言处理的一开始,词义消歧就被认为是自然语言处理的中心任务之一。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最... 词义消歧仍然是自然语言处理中一个重大的挑战,在自然语言处理的一开始,词义消歧就被认为是自然语言处理的中心任务之一。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在多个汉语高频多义词的两组测试中取得了平均准确率82.67%和84.55%的较好的效果。 展开更多
关键词 词义消歧 HOWNET 二阶context k-means聚类
下载PDF
基于四维聚类的R^*-树结点分裂算法 被引量:10
3
作者 孙殿柱 田中朝 +1 位作者 李延瑞 范志先 《机械工程学报》 EI CAS CSCD 北大核心 2009年第10期180-184,共5页
针对R*-树应用到逆向工程领域时遇到的适用性差等问题,提出一种新的R*-树结点分裂算法,该算法以R*-树结点最小边界矩形外接球半径为权值,对点、三角形、矩形等多种三维几何对象进行加权处理,将其统一表示为四维点对象,选定距离最远的两... 针对R*-树应用到逆向工程领域时遇到的适用性差等问题,提出一种新的R*-树结点分裂算法,该算法以R*-树结点最小边界矩形外接球半径为权值,对点、三角形、矩形等多种三维几何对象进行加权处理,将其统一表示为四维点对象,选定距离最远的两个四维点作为初始分簇中心,根据点到两分簇中心的距离进行分簇,结合k-means算法以结点外接球半径为权值计算新的分簇中心,并迭代分簇过程,直到各分簇中心不再变化,结束R*-树的结点分裂过程。试验证明,采用该结点分裂算法可处理复杂数据对象的分簇,并在提高建树效率的同时,优化R*-树结构,提高空间查询效率,对提高逆向工程数据预处理效率具有重要意义。 展开更多
关键词 R*-树 四维聚类分簇 k-means 结点分裂
下载PDF
P2P用户兴趣社区形成研究 被引量:6
4
作者 赵捧未 马琳 秦春秀 《现代图书情报技术》 CSSCI 北大核心 2013年第10期53-58,共6页
基于共同的兴趣和需求,对等网中的节点用户很容易形成虚拟社区。在简要总结已有的P2P社区形成研究工作的基础上,分析P2P社区的形式化定义及结构,描述节点用户兴趣的表示方法,选取对等节点之间的兴趣相关度计算方法,进而借助层次聚类法和... 基于共同的兴趣和需求,对等网中的节点用户很容易形成虚拟社区。在简要总结已有的P2P社区形成研究工作的基础上,分析P2P社区的形式化定义及结构,描述节点用户兴趣的表示方法,选取对等节点之间的兴趣相关度计算方法,进而借助层次聚类法和K-means聚类法探讨P2P社区的形成过程,以期为进一步研究P2P社区提供参考。 展开更多
关键词 用户兴趣 P2P社区 层次聚类法 kmeans
原文传递
基于近邻传播聚类-K均值聚类的工业用户用电模式挖掘方法
5
作者 宗一 郑罡 南钰 《科技资讯》 2024年第12期34-36,共3页
为了充分发挥用户负荷的可调节潜力,提出了一种基于近邻传播聚类-K均值聚类的工业用户用电模式挖掘方法。首先,比较K均值聚类和近邻传播聚类-K均值聚类的优缺点。在工业用户的选取上,选择最佳聚类数均为3的工业用户负荷数据作为被分析... 为了充分发挥用户负荷的可调节潜力,提出了一种基于近邻传播聚类-K均值聚类的工业用户用电模式挖掘方法。首先,比较K均值聚类和近邻传播聚类-K均值聚类的优缺点。在工业用户的选取上,选择最佳聚类数均为3的工业用户负荷数据作为被分析对象以便聚类,借助MATLAB工具对用户负荷数据进行聚类,得到了3组所需的聚类中心,再绘制成曲线以便观察和后续提取特征指标。 展开更多
关键词 近邻传播聚类-k均值聚类 工业用户 可调节潜力评估 评估指标体系 多准则决策法
下载PDF
数据挖掘算法在入侵检测中的应用 被引量:1
6
作者 杨忠勇 《科学技术与工程》 2007年第6期1027-1031,共5页
数据挖掘可以从海量数据中发现模型和数据间的关系并做出预测。针对入侵检测系统的特点,将数据挖掘算法应用于入侵检测系统中,并着重研究了聚类算法中的K均值算法和一种改进的K均值算法。
关键词 入侵检测 聚类算法 k均值算法
下载PDF
WordNet在文本聚类中的应用研究 被引量:1
7
作者 饶洋辉 叶良 程洁 《现代图书情报技术》 CSSCI 北大核心 2009年第10期67-70,共4页
针对文本聚类算法在应用方面存在的"维灾"、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化的文本聚类方法进行性能... 针对文本聚类算法在应用方面存在的"维灾"、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化的文本聚类方法进行性能的比较。实验结果表明,该方法能大幅度降低词列表的维度,提高聚类的准确率和召回率,同时增强各个簇的可理解性。 展开更多
关键词 WORDNET 词性标注 文本聚类 并行kmeans
原文传递
一种改进的K-means聚类分析算法在医院信息系统中的应用研究 被引量:1
8
作者 马勇 《信息资源管理学报》 2012年第3期93-96,共4页
本文介绍了入侵检测以及聚类分析的概念,介绍了k-means算法以及一种改进的k-means算法—GK-means算法。研究了该算法在入侵检测中的应用以及在医院信息系统中的应用。
关键词 入侵检测 数据挖掘 聚类分析 kmeans HIS
下载PDF
基于AOI的客户行为分析方法 被引量:2
9
作者 薛军 陈英 《计算机应用与软件》 CSCD 北大核心 2008年第6期126-127,152,共3页
结合数据立方体技术以及概念分层的分析方法,将面向属性的归纳方法(AOI)与K-means聚类算法相结合,应用于客户时序数据聚类分析中,使每一类客户都具有相似的时序特征。实验表明该方法(AOIGen)能够满足大数据量的客户行为分析要求,比其它... 结合数据立方体技术以及概念分层的分析方法,将面向属性的归纳方法(AOI)与K-means聚类算法相结合,应用于客户时序数据聚类分析中,使每一类客户都具有相似的时序特征。实验表明该方法(AOIGen)能够满足大数据量的客户行为分析要求,比其它方法具有直观、高效等特点。 展开更多
关键词 客户行为分析 聚类分析 k-means算法 数据立方体 面向属性的归纳(AOI)
下载PDF
一种基于Kmax的K-means改进算法 被引量:1
10
作者 黄美璇 《佛山科学技术学院学报(自然科学版)》 CAS 2010年第2期49-52,共4页
K-means算法需要人工设定聚类个数且易受孤立点影响,根据这个缺陷提出了一种新的改进算法。改进算法通过设定初始值及初始值的最大值,在聚类过程中自动获取聚类数k。实验结果表明,该算法在一定程度上缓解了K-means算法对初始值敏感及受... K-means算法需要人工设定聚类个数且易受孤立点影响,根据这个缺陷提出了一种新的改进算法。改进算法通过设定初始值及初始值的最大值,在聚类过程中自动获取聚类数k。实验结果表明,该算法在一定程度上缓解了K-means算法对初始值敏感及受孤立点影响的问题,能产生高质量的聚类结果。 展开更多
关键词 聚类 k-means算法 kmax
下载PDF
基于粒子群算法的K均值半监督聚类算法研究 被引量:1
11
作者 郭长友 《计算机应用与软件》 CSCD 2010年第7期270-273,共4页
定义了一个欧氏距离和监督信息相结合的最近邻计算函数,综合考虑无监督学习的空间距离和监督学习的标签数据的影响,从而将K均值算法很好地用于半监督聚类问题;针对K均值算法对初始质心敏感的缺陷,用粒子群算法的搜索空间模拟聚类的欧氏... 定义了一个欧氏距离和监督信息相结合的最近邻计算函数,综合考虑无监督学习的空间距离和监督学习的标签数据的影响,从而将K均值算法很好地用于半监督聚类问题;针对K均值算法对初始质心敏感的缺陷,用粒子群算法的搜索空间模拟聚类的欧氏空间,通过迭代搜索找到较优的聚类质心。同时提出动态管理种群的策略以提高粒子群算法搜索效率。新算法在UC I的多个数据集上测试都得到了较好的聚类准确率。 展开更多
关键词 半监督聚类 改进的k均值算法 质心优化 粒子群算法 动态管理种群
下载PDF
基于位置大数据的景区流量时空特征识别
12
作者 吕奇光 万玺 +1 位作者 于倩 李天琦 《信息技术》 2022年第7期93-97,共5页
景区流量特征分析在旅游管理中具有重要意义,而当前丰富的位置大数据为此提供了重要支持。文中结合位置大数据特征,对数据源的时序化、空间化表达进行了设计,并结合动态时间弯曲的距离度量、K-Means的时序数据聚类分析了时序特征识别法... 景区流量特征分析在旅游管理中具有重要意义,而当前丰富的位置大数据为此提供了重要支持。文中结合位置大数据特征,对数据源的时序化、空间化表达进行了设计,并结合动态时间弯曲的距离度量、K-Means的时序数据聚类分析了时序特征识别法,设计了基于服务设施流量聚集度的空间特征分析法。通过白帝城景区的实例分析发现,这一方法能够利用位置大数据分析流量时序类型、识别流量空间分布特征,分析结果有助于景区内部交通、设施管理等工作。 展开更多
关键词 景区流量 位置大数据 时空特征 动态时间弯曲法 k-means时序聚类
下载PDF
一种基于离群指数的初始聚类中心优选算法
13
作者 李向 刘素红 《微电子学与计算机》 CSCD 北大核心 2013年第6期109-112,共4页
传统K-均值聚类算法的初始聚类中心是随机选择的,不同的初始聚类中心会得到不同的聚类结果,聚类结果随机性较大、稳定性差.采用局部离群指数优化K-均值聚类算法,通过计算所有数据样本的局部离群指数,选择k个相互距离最远的局部密集点作... 传统K-均值聚类算法的初始聚类中心是随机选择的,不同的初始聚类中心会得到不同的聚类结果,聚类结果随机性较大、稳定性差.采用局部离群指数优化K-均值聚类算法,通过计算所有数据样本的局部离群指数,选择k个相互距离最远的局部密集点作为初始聚类中心,消除局部离群点对算法的影响.实验结果证明,该算法能降低K-均值聚类算法初始聚类中心选取的敏感度,减少迭代次数,得到更为准确的聚类结果. 展开更多
关键词 聚类 离群指数 初始聚类中心k-均值聚类
下载PDF
基于数据密集性的自适应K均值初始化方法 被引量:20
14
作者 韩最蛟 《计算机应用与软件》 CSCD 北大核心 2014年第2期182-187,共6页
K均值聚类算法在数据挖掘、机器学习领域被广泛应用。但其初始聚类中心的选取对整个聚类效果会产生很大的影响,因此,如何合理地初始化K均值聚类算法成为重要的研究方向。提出一种基于数据内在密集性的自适应初始聚类中心选取方法。该方... K均值聚类算法在数据挖掘、机器学习领域被广泛应用。但其初始聚类中心的选取对整个聚类效果会产生很大的影响,因此,如何合理地初始化K均值聚类算法成为重要的研究方向。提出一种基于数据内在密集性的自适应初始聚类中心选取方法。该方法分为两个过程,第一个过程给出数据密集性的定义,并基于数据密集性选出满足条件的候选初始聚类中心,第二个过程是对选出的候选初始中心进行后处理,使其个数与数据类一致。实验证明,提出的方法有如下优势:1)能够自主发现数据集中数据分布的密集性,并能够合理找出初始聚类中心;2)对离群点和噪声鲁棒;3)减少了K均值聚类算法的迭代步骤;4)易于实现。 展开更多
关键词 聚类 k均值 初始化 初始聚类中心选取
下载PDF
商品隐式评价对象提取的方法研究 被引量:5
15
作者 邱云飞 倪学峰 邵良杉 《计算机工程与应用》 CSCD 北大核心 2015年第19期114-118,共5页
网络评论中没有明确指出评价对象的评论,如评论"东西有点贵"中并没有明确指出评价的是商品的价格。针对这种评论,提出一种在评论文本数据集上提取商品的隐式评价对象的方法。根据评论短文本的句式结构特点,构建出候选评价对... 网络评论中没有明确指出评价对象的评论,如评论"东西有点贵"中并没有明确指出评价的是商品的价格。针对这种评论,提出一种在评论文本数据集上提取商品的隐式评价对象的方法。根据评论短文本的句式结构特点,构建出候选评价对象模型,并利用How Net2000概念词典对候选评价对象中的特征词进行扩充,以缓解候选评价对象中信息缺乏的问题;基于k-means聚类算法利用候选评价对象中特征词之间的相似度,对候选评价对象进行聚类,得到若干隐式评价对象;利用χ2统计量来衡量候选评价对象中的特征词对隐式评价对象的指示能力,从而提取出评论中的隐式评价对象。实验结果表明,该方法提高了提取隐式评价对象的准确率。 展开更多
关键词 隐式评价对象 特征词 聚类 k-means聚类算法
下载PDF
一种基于K-Means分类的状态机车辆检测算法 被引量:4
16
作者 曹喆 闻育 +1 位作者 潘霓 刘泓 《工业控制计算机》 2010年第1期55-58,共4页
地磁车辆检测器是一种基于车辆对地球磁场的扰动效应实现的交通信息采集设备。目前基于地磁传感器的车辆检测算法主要有状态机检测算法及自适应阈值算法,但是基线漂移、阈值选取等因素对算法的检测精度有很大影响。结合车辆地磁响应信... 地磁车辆检测器是一种基于车辆对地球磁场的扰动效应实现的交通信息采集设备。目前基于地磁传感器的车辆检测算法主要有状态机检测算法及自适应阈值算法,但是基线漂移、阈值选取等因素对算法的检测精度有很大影响。结合车辆地磁响应信号的具体特征,提出一种基于K-Means分类的状态机车辆检测算法,将车辆地磁响应信号先进行K-Means分类,解决了现有算法阈值选取困难的问题,将分类后的信号输入状态机判别,解决了慢速车和长型车易被误判的问题。实验结果表明,该算法具有很高的检测准确率,且鲁棒性好。 展开更多
关键词 车辆检测 地磁传感器 kmeans分类 状态机
下载PDF
基于用户特性的Web会话模式聚类算法 被引量:2
17
作者 郑富兰 吴瑞 《计算机应用与软件》 CSCD 北大核心 2014年第2期283-286,共4页
Web用户聚类是通过分析用户会话,将具有相同或相似访问特征的用户聚为一类。在会话相似性度量方面综合考虑了网页浏览时间和访问频次两个因素,并考虑到用户个人习惯、能力等因素对浏览时间的影响,将浏览时间处理为RDP(Reduce the Differ... Web用户聚类是通过分析用户会话,将具有相同或相似访问特征的用户聚为一类。在会话相似性度量方面综合考虑了网页浏览时间和访问频次两个因素,并考虑到用户个人习惯、能力等因素对浏览时间的影响,将浏览时间处理为RDP(Reduce the Differences in Personality)浏览时间,以降低其个性特征。为此,提出一种基于用户特性的RDPk-means聚类算法。实验表明,该算法可以有效实现用户会话的聚类,聚类结果客观合理。 展开更多
关键词 WEB挖掘 WEB用户聚类 聚类算法 模式聚类 k-means
下载PDF
基于Hadoop云计算平台的聚类K-means算法的研究与实现 被引量:2
18
作者 汪一百 《信息与电脑》 2017年第11期92-94,共3页
随着社会的发展,我国的各行各业得到了飞速的发展,尤其是在现如今信息化飞速发展的社会形势下,信息技术得以不断创新和研发,计算机数据库技术也在发展过程中被人们广泛应用于工作与生活中。在不断应用数据库技术的过程中,由于数据信息... 随着社会的发展,我国的各行各业得到了飞速的发展,尤其是在现如今信息化飞速发展的社会形势下,信息技术得以不断创新和研发,计算机数据库技术也在发展过程中被人们广泛应用于工作与生活中。在不断应用数据库技术的过程中,由于数据信息不断扩增,对聚类算法的发展提出了很大的挑战。基于此,通过对基于Hadoop云计算平台的聚类K-means算法展开深入的研究,提出优化其算法的相应的策略,从而实现大小多数据的多功能特性。 展开更多
关键词 Hadoop云计算平台 聚类k-means算法 并行化
下载PDF
Web网页聚类系统研究与设计
19
作者 李建忠 《韩山师范学院学报》 2008年第6期27-30,共4页
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k-means聚类算法web网页聚类系统设计方案,并论述了各模块的设计与实现方法.
关键词 文本聚类 kmeans算法 预处理 NUTCH
下载PDF
中文文本聚类常用停用词表对比研究 被引量:47
20
作者 官琴 邓三鸿 王昊 《数据分析与知识发现》 CSSCI CSCD 2017年第3期72-80,共9页
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用... 【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。 展开更多
关键词 文本聚类 停用词 kmeans
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部