期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
云计算平台上的Canopy-Kmeans并行聚类算法研究
1
作者 孙秀娟 《现代电子技术》 北大核心 2019年第19期78-81,共4页
针对大数据的高维特性及海量性,提出云计算平台中的Canopy-Kmeans并行聚类算法,通过三角不等式原理,能够使计算冗余降低,使算法执行速度得到提高。对Canopy-Kmeans并行聚类算法进行深入的研究,并且在大量不同大小数据集中的实验结果表明... 针对大数据的高维特性及海量性,提出云计算平台中的Canopy-Kmeans并行聚类算法,通过三角不等式原理,能够使计算冗余降低,使算法执行速度得到提高。对Canopy-Kmeans并行聚类算法进行深入的研究,并且在大量不同大小数据集中的实验结果表明,所设计的并行聚类算法具有良好的加速比、数据伸缩率及扩展率等特点,能够在海量数据挖掘及分析中使用。 展开更多
关键词 云计算平台 Canopy-Kmeans算法 并行聚类算法 大数据挖掘 集群数据 数据分析
下载PDF
基于隐马尔可夫模型的招聘网络信息抽取
2
作者 俞琰 《自动化技术与应用》 2008年第10期58-61,53,共5页
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据... 网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。 展开更多
关键词 WEB信息抽取 隐马尔可夫模型 聚类
下载PDF
一种基于密度的空间数据流在线聚类算法 被引量:28
3
作者 于彦伟 王沁 +1 位作者 邝俊 何杰 《自动化学报》 EI CSCD 北大核心 2012年第6期1051-1059,共9页
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点... 为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033ms. 展开更多
关键词 空间数据挖掘 聚类数据流 基于密度的聚类 在线算法 噪声处理
下载PDF
概念聚类挖掘方法的客户交易行为分析 被引量:5
4
作者 吴峰 施鹏飞 《微型电脑应用》 2000年第5期26-28,共3页
本文首先介绍数据挖掘的相关概念 ,再给出一个在证券行业应用的系统。该系统采用概念聚类的挖掘方法 ,从客户的交易行为中提取有价值的信息 ,发现影响客户盈亏的一般性规律。
关键词 知识发现 数据挖掘 概念聚类 客户交易 数据库
下载PDF
聚类挖掘中隐私保护的几何数据转换方法 被引量:7
5
作者 黄伟伟 柏文阳 《计算机应用研究》 CSCD 北大核心 2006年第6期180-181,184,共3页
目前,尽管数据挖掘在许多领域都发挥了巨大的作用,但同时它也带来了一系列越来越值得重视的问题,如隐私的保护、信息的安全等。讨论了数据挖掘中的隐私保护问题,提出了一种几何数据转换方法,并将其用于聚类数据挖掘中的隐私保护。实验... 目前,尽管数据挖掘在许多领域都发挥了巨大的作用,但同时它也带来了一系列越来越值得重视的问题,如隐私的保护、信息的安全等。讨论了数据挖掘中的隐私保护问题,提出了一种几何数据转换方法,并将其用于聚类数据挖掘中的隐私保护。实验结果表明该方法可以较好地实现数据挖掘应用中的隐私保护。 展开更多
关键词 聚类数据挖掘 隐私问题 几何数据转换方法
下载PDF
聚类数据挖掘可视化模型方法与技术 被引量:8
6
作者 谢庆华 张宁蓉 +2 位作者 宋以胜 王海波 岳振军 《解放军理工大学学报(自然科学版)》 EI 北大核心 2015年第1期7-15,共9页
面向通用数据资源,研究聚类数据可视化方法与技术,旨在探索有效的数据处理方法,满足信息领域对高维数据处理的要求。通过对高维数据进行降维处理和可视化映射实现,建立K均值算法的聚类数据挖掘可视化系统模型,实现中间聚簇结果、聚类中... 面向通用数据资源,研究聚类数据可视化方法与技术,旨在探索有效的数据处理方法,满足信息领域对高维数据处理的要求。通过对高维数据进行降维处理和可视化映射实现,建立K均值算法的聚类数据挖掘可视化系统模型,实现中间聚簇结果、聚类中心、收敛准则函数值三类要素的可视化。利用加利福利亚大学欧文分校(UCI)数据库中的Iris数据集、Wine数据集、Seeds数据集对可视化系统模型方法进行测试。结果表明,该模型实现了对数据集的有效聚类,能够将中间聚类、聚类中心、收敛准则函数值进行实时有效的可视化表达,达到了预期效果。 展开更多
关键词 聚类数据挖掘 可视化 平行坐标法 K均值算法
下载PDF
数据预处理和初始化方法对K-均值聚类的影响 被引量:4
7
作者 杨春梅 万柏坤 丁北生 《仪器仪表学报》 EI CAS CSCD 北大核心 2003年第z1期189-192,209,共5页
基于酵母二次迁移实验中表达谱相似的五类基因表达数据 ,研究了不同相似性度量准则、数据预处理方法及质心初始化方式对 K -均值聚类效果的影响。结果表明 :若对基因表达数据进行 K-均值聚类分析 ,最好采用能反映数据结构特征的向量对... 基于酵母二次迁移实验中表达谱相似的五类基因表达数据 ,研究了不同相似性度量准则、数据预处理方法及质心初始化方式对 K -均值聚类效果的影响。结果表明 :若对基因表达数据进行 K-均值聚类分析 ,最好采用能反映数据结构特征的向量对质心进行初始化。若随机初始化质心 ,则采用取相对表达水平的预处理方式 ,以欧几里德距离 (Euclidean distance)作为相似性测量准则 ,可以获得最佳的聚类结果 ;在欧氏距离准则下 ,标准化处理因可能破坏原始数据的幅度特征 ,而导致聚类结果变坏。若以 展开更多
关键词 基因表达 聚类分析 K-均值聚类 数据预处理
下载PDF
基于加权向量提升的多尺度聚类挖掘算法 被引量:4
8
作者 苏东海 赵书良 +2 位作者 柳萌萌 苏嘉庚 李妍 《计算机科学》 CSCD 北大核心 2015年第4期263-267,共5页
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法。为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合... 多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法。为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm)。算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上。实验表明,算法WVB-MSCA是可行且有效的。 展开更多
关键词 多尺度 尺度转换 聚类挖掘 多尺度聚类
下载PDF
模糊聚类在数据预处理中的应用研究 被引量:4
9
作者 陈铁梅 《自动化仪表》 CAS 2008年第5期36-37,41,共3页
在分析工业过程数据测量误差源的基础上,提出了一种基于模糊聚类的数据预处理方法。该方法不依赖于任何数学模型,通过对某造纸厂的大量数据的仿真处理,表明该方法能在保留原始数据有用信息的基础上剔除冗余数据,侦破过失误差,减少随机... 在分析工业过程数据测量误差源的基础上,提出了一种基于模糊聚类的数据预处理方法。该方法不依赖于任何数学模型,通过对某造纸厂的大量数据的仿真处理,表明该方法能在保留原始数据有用信息的基础上剔除冗余数据,侦破过失误差,减少随机误差。并将该方法用于某造纸厂制浆蒸煮过程的数据预处理中,得到了良好的效果。 展开更多
关键词 模糊聚类 数据预处理 模糊等价矩阵 随机误差 过失误差
下载PDF
流数据挖掘中数据流聚类算法研究 被引量:1
10
作者 王高洋 李英梅 《智能计算机与应用》 2014年第5期6-8,13,共4页
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式。流挖掘是数据库领域的研究热点,有很大的应用前景。本文首先简单介绍了数据流与聚类... 随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式。流挖掘是数据库领域的研究热点,有很大的应用前景。本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结。在本文的最后,对流数据挖掘的前景做出展望。 展开更多
关键词 聚类 数据流 数据流聚类 数据挖掘 数据流挖掘
下载PDF
基于方差聚类的时序数据野值识别算法 被引量:2
11
作者 史椸 赵静 +2 位作者 鲍军鹏 齐勇 林秦颖 《计算机应用》 CSCD 北大核心 2012年第A02期22-25,共4页
时序数据中的野值会直接影响数据挖掘算法的结果,甚至造成算法失效。传统的基于密度的带有噪声的空间聚类(DBSCAN)算法可以用来识别野值,但是却存在算法对参数敏感、时间复杂度高、精度不高等问题。针对时序数据的特点,提出了一种可自... 时序数据中的野值会直接影响数据挖掘算法的结果,甚至造成算法失效。传统的基于密度的带有噪声的空间聚类(DBSCAN)算法可以用来识别野值,但是却存在算法对参数敏感、时间复杂度高、精度不高等问题。针对时序数据的特点,提出了一种可自动进行多次识别的基于方差聚类的野值识别算法。该方法通过将传统的邻域密度转换为方差和均值、将密度阈值转换为时间窗口内的方差和阈值,在定义野值数据、野簇数据和异常簇数据的基础上,给出野值识别方法的判断规则。同时,针对一次野值识别不能将全部野值剔除的问题,通过定义多次野值识别的结束条件将算法扩展为多次野值识别算法。通过在某航天数据挖掘项目中的应用,验证了该算法具有较好的通用性、低的时间复杂度、可进行多次识别以提高精度等特点。 展开更多
关键词 时序数据 野值识别 聚类挖掘 DBSCAN算法
下载PDF
基于区间值数据动态聚类算法的客户市场细分 被引量:2
12
作者 蒋宁 吴春旭 《计算机应用与软件》 CSCD 北大核心 2007年第12期116-118,共3页
K均值算法(K-means)目前较为成功地应用于客户市场细分,但随着市场规模的扩大,面临着对于初始类个数敏感,易陷入局部极小值的严重问题,制约了聚类效果。提出基于区间值数据,以自适应欧氏距离作为度量的动态聚类方法,将客户的多维属性和... K均值算法(K-means)目前较为成功地应用于客户市场细分,但随着市场规模的扩大,面临着对于初始类个数敏感,易陷入局部极小值的严重问题,制约了聚类效果。提出基于区间值数据,以自适应欧氏距离作为度量的动态聚类方法,将客户的多维属性和基因算法结合提高类初始化质量,自适应地调整聚类数,并通过实验测试表现出较好的性能。 展开更多
关键词 市场细分 动态聚类 数据挖掘 K均值
下载PDF
基于模糊矩阵的蚁群聚类算法研究与应用 被引量:2
13
作者 胡耀民 刘伟铭 《计算机工程与应用》 CSCD 北大核心 2011年第8期105-107,114,共4页
提出了基于模糊矩阵的数据聚类模型,其中引入了聚类过程的全局性控制模糊矩阵,描述了数据聚类的过程;提出了基于模糊矩阵的蚁群聚类算法,实验结果证明了算法的正确性和高效性。
关键词 数据聚类 数据挖掘 蚁群算法
下载PDF
飞行试验数据聚类约简方法研究 被引量:2
14
作者 党怀义 《计算机测量与控制》 北大核心 2013年第11期3032-3034,共3页
飞行试验数据是航空武器装备研制过程中所形成的最重要的科研信息资料,而试飞数据量越来越大,造成试飞数据的存储、管理困难,数据挖掘效率低下;采用数据约简方法对试飞数据全集进行约简符合数据挖掘方法原理;分析建立了试飞数据属性集... 飞行试验数据是航空武器装备研制过程中所形成的最重要的科研信息资料,而试飞数据量越来越大,造成试飞数据的存储、管理困难,数据挖掘效率低下;采用数据约简方法对试飞数据全集进行约简符合数据挖掘方法原理;分析建立了试飞数据属性集结构树,综合利用数据属性约简法、数据块分层约简法和数据压缩方法,对海量试飞数据集进行聚类综合采样约简,建立试飞数据集的极为相似和有效精简的数据子集;利用该方法对某试验机某年试飞数据集的约简,有效数据集约简为源数据集的六分之一;实践表明,该方法具有良好的约简效果。 展开更多
关键词 飞行试验数据 属性集结构树 聚类 数据约简
下载PDF
改进的GA-FCM算法及其在交通事故挖掘中的应用 被引量:1
15
作者 杨兴春 王刚 张安妮 《计算机系统应用》 2010年第9期159-162,共4页
目前,公安信息化建设和应用正在不断深入推进,如果能从高速增长的公安业务数据中发掘出隐藏的信息并用于指导公安实战,不但能提升信息化的水平,而且能极大提升实战工作的针对性和有效性。论文针对GA-FCM算法收敛慢、解质量不高的缺点,... 目前,公安信息化建设和应用正在不断深入推进,如果能从高速增长的公安业务数据中发掘出隐藏的信息并用于指导公安实战,不但能提升信息化的水平,而且能极大提升实战工作的针对性和有效性。论文针对GA-FCM算法收敛慢、解质量不高的缺点,利用前期工作的成果,并对GA-FCM的种群选择、变异算子进行了改进。将改进后的算法应用于城区交通事故历史数据挖掘,实验表明,挖掘结果对于预防交通事故、改善交通状况具有一定的指导意义。 展开更多
关键词 公安信息化 聚类挖掘 GA-FCM 交通事故
下载PDF
一种有效的基因投影聚类算法 被引量:1
16
作者 赵宇海 武晓新 +1 位作者 刘志勇 印莹 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期105-108,共4页
针对现有基因投影聚类算法的不足,提出一种有效的基因投影聚类算法。该算法基于样本构建穷举树,根据基因间的相互作用关系,采用深度优先遍历的思想进行投影聚类,为观察疾病的成因提供了一个很好的视角。通过真实微阵列数据实验,证明了... 针对现有基因投影聚类算法的不足,提出一种有效的基因投影聚类算法。该算法基于样本构建穷举树,根据基因间的相互作用关系,采用深度优先遍历的思想进行投影聚类,为观察疾病的成因提供了一个很好的视角。通过真实微阵列数据实验,证明了提出的算法具有较高的正确率。 展开更多
关键词 基因表达数据 投影聚类 数据挖掘
下载PDF
基于ZigBee-WSN和GPRS/CDMA1x的智能远程无线自动抄表系统 被引量:1
17
作者 龚志广 张红岭 +2 位作者 郭伟 龙在云 杜春晖 《低压电器》 北大核心 2011年第14期30-34,52,共6页
提出一种融合ZigBee和GPRS/CDMA1x技术的低成本、低功耗、高效率的智能远程无线自动抄表系统,设计方案采用三级三网双模组网模型,底层网络采用射频通信技术和星型网络拓扑,能降低整个网络的成本,并提出一种低成本、低功耗的表具改造方案... 提出一种融合ZigBee和GPRS/CDMA1x技术的低成本、低功耗、高效率的智能远程无线自动抄表系统,设计方案采用三级三网双模组网模型,底层网络采用射频通信技术和星型网络拓扑,能降低整个网络的成本,并提出一种低成本、低功耗的表具改造方案;设计了一种基于MSP430的无线脉冲远程传表,采用中断唤醒和电磁波唤醒技术,使通信设备实现了低功耗。将目的驱动多播路由算法应用于自动抄表系统,通过逐层分簇数据融合,降低了网络能耗,提高了四表数据的集抄效率。 展开更多
关键词 无线自动抄表系统 无线传感器网络 三级三网双模组网模型 无线脉冲远程传表 逐层分簇数据融合
下载PDF
基于分类信息的关联规则间距离函数的改进 被引量:1
18
作者 梁敏 阮备军 朱扬勇 《计算机应用与软件》 CSCD 北大核心 2006年第3期7-9,14,共4页
规则聚类将关联规则挖掘产生的大量规则重新组织,帮助用户发现感兴趣的规则。规则距离函数是规则聚类中的重要一环。本文基于分类信息的层次结构特点,对已有的规则距离函数进行改进,提出了参数控制距离和递归权重距离的方法,解决了以往... 规则聚类将关联规则挖掘产生的大量规则重新组织,帮助用户发现感兴趣的规则。规则距离函数是规则聚类中的重要一环。本文基于分类信息的层次结构特点,对已有的规则距离函数进行改进,提出了参数控制距离和递归权重距离的方法,解决了以往规则距离函数的多次匹配问题。通过距离函数的对比实验,证明提出的方法是合理有效的。 展开更多
关键词 距离函数 关联规则 聚类 数据挖掘
下载PDF
桥载设备工况监控网络中能耗均衡的路由协议 被引量:1
19
作者 张天娇 陈维兴 曲睿 《计算机工程与设计》 北大核心 2017年第5期1121-1124,1131,共5页
针对桥载设备工况监控网络中传感器节点通信时易发生数据拥塞,造成能耗高而过早死亡等问题,提出一种基于分簇的数据融合算法。通过评估网络平均能量、能量消耗速度以及一级、二级节点位置参数选出簇头,保证簇内网络的能耗均衡;权衡节点... 针对桥载设备工况监控网络中传感器节点通信时易发生数据拥塞,造成能耗高而过早死亡等问题,提出一种基于分簇的数据融合算法。通过评估网络平均能量、能量消耗速度以及一级、二级节点位置参数选出簇头,保证簇内网络的能耗均衡;权衡节点路径和距离确定根节点,建立数据融合树去除冗余数据,防止因为传输数据量大而占据网络带宽造成拥塞,以及节点进行大量数据通信耗费不必要的能量而减缩生命周期。仿真结果表明,该方法与原有LEACH算法相比能更好地利用有限带宽资源均衡节点的能量消耗,提高传输数据率,保证网络监控系统的持久性和可靠性。 展开更多
关键词 桥载设备 无线传感器网络 分簇 数据融合 能耗均衡
下载PDF
基于数据分割和近邻对的快速SVM分类算法 被引量:1
20
作者 张永 杨晓伟 《科学技术与工程》 2007年第21期5563-5566,共4页
大样本的学习是支持向量机领域中的一个重要课题。基于数据分割和邻近对策略,提出了一种新的支持向量机分类算法。在新的算法中,首先利用c均-值聚类分别对数据集中的正负类进行聚类,把大数据集分割成互不相交的子集合;然后来自正负类的... 大样本的学习是支持向量机领域中的一个重要课题。基于数据分割和邻近对策略,提出了一种新的支持向量机分类算法。在新的算法中,首先利用c均-值聚类分别对数据集中的正负类进行聚类,把大数据集分割成互不相交的子集合;然后来自正负类的子集合两两组合形成多个二分类问题,并用SMO算法求解;最后用邻近对策略对未知数据进行识别。为了验证新算法的有效性,把它应用于5个UCI数据集,并和SMO算法做了比较。结果表明:新算法不仅大大地减少了大样本学习的训练时间,而且相应的测试精度几乎没有降低。 展开更多
关键词 支持向量机 C-均值聚类 数据分割 邻近对策略
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部