期刊文献+
共找到317篇文章
< 1 2 16 >
每页显示 20 50 100
基于代理的分布式数据挖掘系统设计 被引量:20
1
作者 陈刚 《计算机工程》 CAS CSCD 北大核心 2001年第9期65-67,192,共4页
提出了一种基于代理的分布式数据挖掘系统,用来实现大容量的数据在分布式存放情况下的数据挖掘。因为本系统只传送数据挖掘的中间结果,所以大大减少了网络的数据传输量,并加强了数据的安全性和保密性。对在分布式数据库上进行数据挖... 提出了一种基于代理的分布式数据挖掘系统,用来实现大容量的数据在分布式存放情况下的数据挖掘。因为本系统只传送数据挖掘的中间结果,所以大大减少了网络的数据传输量,并加强了数据的安全性和保密性。对在分布式数据库上进行数据挖掘进行了一些有意义的探索,并通过一个应用实例来加以说明。 展开更多
关键词 代理 分布式数据挖掘系统 分布式数据库 人工智能 设计
下载PDF
贝叶斯网络的参数学习研究 被引量:20
2
作者 李晓毅 徐兆棣 孙笑微 《沈阳农业大学学报》 CAS CSCD 北大核心 2007年第1期125-128,共4页
贝叶斯网络是数据采掘的一个非常有效的工具,它能够定性和定量地分析属性之间的依赖关系,进行概率推理。在给出贝叶斯网络相关概念后,讨论了贝叶斯网络在离散型、连续型和混合型3种情况下的参数学习计算公式;利用给定样本数据,对具有完... 贝叶斯网络是数据采掘的一个非常有效的工具,它能够定性和定量地分析属性之间的依赖关系,进行概率推理。在给出贝叶斯网络相关概念后,讨论了贝叶斯网络在离散型、连续型和混合型3种情况下的参数学习计算公式;利用给定样本数据,对具有完整数据和不具有完整数据的贝叶斯网络,学习网络参数,更新网络变量原有的先验分布;从理论上给出两种不同类型下的参数学习公式。 展开更多
关键词 贝叶斯网络 网络结构 参数学习 狄利克雷分布 数据采掘
下载PDF
FSMBUS:一种基于Spark的大规模频繁子图挖掘算法 被引量:21
3
作者 严玉良 董一鸿 +1 位作者 何贤芒 汪卫 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1768-1783,共16页
随着社交网络用户数的快速增加,大规模单图上频繁子图挖掘的需求越来越强烈.单机算法对大规模图的运行效率较低,难以支撑支持度较低的频繁子图的挖掘;现有的分布式环境下单图的频繁子图挖掘算法不支持子图增长模式的挖掘,它们所使用的Ha... 随着社交网络用户数的快速增加,大规模单图上频繁子图挖掘的需求越来越强烈.单机算法对大规模图的运行效率较低,难以支撑支持度较低的频繁子图的挖掘;现有的分布式环境下单图的频繁子图挖掘算法不支持子图增长模式的挖掘,它们所使用的Hadoop框架也不适合运行迭代式算法.提出了一种基于Spark的大规模单图频繁子图挖掘算法FSMBUS,通过次优树构建并行计算的候选子图,在给定最小支持度时挖掘出所有的频繁子图,并利用非频繁检测和搜索顺序选择实现优化,还设计了一种名为Sorted-Greedy的轻量级数据划分方法.实验结果表明,FSMBUS的效率要比现有单图上最新的算法快一个数量级,并支持更低最小支持度阈值以及更大规模图数据的挖掘,同时FSMBUS比其Hadoop的移植版要快2~4倍. 展开更多
关键词 频繁子图 大规模单图 分布式挖掘 SPARK 负载均衡
下载PDF
频繁量化模式图挖掘及应用
4
作者 沙雨济 王欣 +2 位作者 何艳潇 钟学燕 方宇 《计算机科学》 CSCD 北大核心 2023年第S02期565-576,共12页
频繁模式挖掘(FPM)是图数据研究领域的一个经典问题,单一大图上的FPM问题近年来受到了更加广泛的关注。该问题被定义为根据用户给定的频率阈值查找在大图(Graph)中频繁出现的所有模式图(Pattern)。近年来,人们见证了FPM在多个领域的广... 频繁模式挖掘(FPM)是图数据研究领域的一个经典问题,单一大图上的FPM问题近年来受到了更加广泛的关注。该问题被定义为根据用户给定的频率阈值查找在大图(Graph)中频繁出现的所有模式图(Pattern)。近年来,人们见证了FPM在多个领域的广泛应用,例如社交网络分析、欺诈检测等。然而,面对新兴的应用需求,人们需要更具语义表达力的模式图及其挖掘技术。为此,在传统模式图的基础上,首先提出了量化模式图(Quantified Graph Patterns,QGPs)——一类具有计数量词约束的模式图,实现了模式图语义的扩展;其次设计了一种在分布式场景下挖掘QGPs的算法,提出了量化图模式关联规则(Quantified Graph Pattern Association Rules,QGPARs)及其挖掘技术,用于预测(社交)网络中实体之间的潜在联系,然后利用真实图和合成图数据,通过翔实的实验验证了QGPs挖掘算法的计算效率,通过与经典链接预测方法进行对比,发现QGPARs可以取得更高的链接预测准确性;最后通过与传统图模式关联规则(Graph Pattern Association Rules,GPARs)的链接预测结果进行对比,验证了QGPARs与GPARs之间在链接预测结果方面存在显著差异,也进一步验证了QGPARs在链接预测中的有效性。 展开更多
关键词 量化模式图 频繁模式挖掘 分布式挖掘 量化图模式关联规则 链接预测
下载PDF
基于局部性原理的分布式关联规则挖掘算法 被引量:2
5
作者 张春生 李艳 +2 位作者 庄丽艳 图雅 张玉春 《计算机工程与应用》 CSCD 2012年第21期143-145,190,共4页
针对分布式数据挖掘需要节点间进行大量数据交换的缺点,根据张春生,宋琳琳提出的关联规则局部性原理,不进行数据交换,通过节点挖掘,直接得到局部性全局关联规则,通过各节点间规则的合并,直接得到非局部全局关联规则,该算法简单易行,不... 针对分布式数据挖掘需要节点间进行大量数据交换的缺点,根据张春生,宋琳琳提出的关联规则局部性原理,不进行数据交换,通过节点挖掘,直接得到局部性全局关联规则,通过各节点间规则的合并,直接得到非局部全局关联规则,该算法简单易行,不需要节点间的数据交换,提高了数据挖掘效率,不仅挖掘出其他分布式数据挖掘算法挖掘出的全局关联规则,还能够发现其他算法不能发现的局部全局规则。 展开更多
关键词 局部性 分布式 关联规则 数据挖掘
下载PDF
一种分布环境中最大频繁项目集挖掘算法 被引量:1
6
作者 李忠哗 何丕廉 《微电子学与计算机》 CSCD 北大核心 2006年第9期162-164,共3页
挖掘最大频繁项目集是数据挖掘中的重要研究课题。目前已经提出的最大频繁项目集挖掘算法大多是基于单机环境的,在分布环境中挖掘最大频繁项目集的算法尚不多见。文章提出了一种基于分布数据库的并行挖掘最大频繁项目集的算法。该算法... 挖掘最大频繁项目集是数据挖掘中的重要研究课题。目前已经提出的最大频繁项目集挖掘算法大多是基于单机环境的,在分布环境中挖掘最大频繁项目集的算法尚不多见。文章提出了一种基于分布数据库的并行挖掘最大频繁项目集的算法。该算法尽可能地让每个处理器独立地挖掘,采用频繁模式树(FP-tree)作为数据结构,可方便地从各局部FP-tree中挖掘局部最大频繁项目集及判断各项目集的支持度。采用传递侯选最大频繁项目集的方法。实验表明该算法是有效的并行算法。 展开更多
关键词 分布数据库 数据挖掘 最大频繁项目集 频繁模式树
下载PDF
自中心网络生成的高效分布式设计与实现 被引量:1
7
作者 金欣 王晶 沈奇威 《电信科学》 北大核心 2010年第11期85-88,共4页
近年来数据挖掘在电信领域的应用越来越广泛,而自中心网络从人与环境交互的角度为数据分析提出了新的思路,但是由于数据量、数据维度、计算复杂度等原因,传统的计算方式不能应付海量数据的自中心网络生成和分析的需求。本文首先给出了基... 近年来数据挖掘在电信领域的应用越来越广泛,而自中心网络从人与环境交互的角度为数据分析提出了新的思路,但是由于数据量、数据维度、计算复杂度等原因,传统的计算方式不能应付海量数据的自中心网络生成和分析的需求。本文首先给出了基于mapreduce模型的传统自中心网络生成算法的实现,然后提出了新的基于三角形提取自中心网络生成算法,并给出了基于mapreduce编程模型的实现,该算法针对mapreduce模型和真实的社会网络进行了优化并实现性能提升,最后对两种算法进行了运行时间和IO的比较。 展开更多
关键词 社会网络分析 分布式 HADOOP MAPREDUCE 数据挖掘 自中心网络
下载PDF
分布式最小生成树聚类的设计与实现 被引量:1
8
作者 金欣 王晶 沈奇威 《计算机系统应用》 2011年第7期69-75,共7页
聚类是数据挖掘的主要问题之一,聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中的有价值的信息。近年来数据挖掘在电信领域的应用越来越广泛,但是由于数据量、数据类型、计算复杂度等原因,聚类算法应用的却... 聚类是数据挖掘的主要问题之一,聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中的有价值的信息。近年来数据挖掘在电信领域的应用越来越广泛,但是由于数据量、数据类型、计算复杂度等原因,聚类算法应用的却不多。提出一种新的适合于分布式计算的最小生成树算法,结合适合的相似度度量,设计了一种用于解决海量数据分析的分布式聚类算法,并给出了基于mapreduce编程模型的分布式实现。 展开更多
关键词 聚类 分布式 HADOOP MAPREDUCE 数据挖掘 最小生成树
下载PDF
基于SOAP的分布式数据挖掘系统的设计 被引量:10
9
作者 夏红霞 水俊峰 +1 位作者 钟珞 马志军 《武汉理工大学学报》 CAS CSCD 2003年第1期73-76,共4页
提出了一种基于 SOAP的分布式数据挖掘系统 ,实现分布式异构环境下的大容量数据的数据挖掘 。
关键词 设计 SOAP协议 分布式数据挖掘 XML 数据库
下载PDF
基于相似性的分布式数据挖掘 被引量:1
10
作者 郑荔平 《漳州师范学院学报(自然科学版)》 2010年第3期36-39,共4页
基于相似性的数据挖掘模型,主要是用于发现分布式资源之间的相似性,利用相似性,融合分布式数据库,减小数据挖掘的规模.本文主要介绍以关联规则中最大频繁项集为基础的一个相似性的度量方法,并根据对得到的相似性值的判断,来决定数据挖... 基于相似性的数据挖掘模型,主要是用于发现分布式资源之间的相似性,利用相似性,融合分布式数据库,减小数据挖掘的规模.本文主要介绍以关联规则中最大频繁项集为基础的一个相似性的度量方法,并根据对得到的相似性值的判断,来决定数据挖掘的数据源的引用规模. 展开更多
关键词 分布式数据挖掘 相似性 最大频繁项集
下载PDF
基于SLIQ的分布式图像分类框架的研究实现
11
作者 吴微 朱玉全 +1 位作者 程鹏 王恒 《微计算机信息》 北大核心 2008年第15期309-311,共3页
针对医学图像数据过于复杂且分布存储的特点,提出并实现了一种基于SLIQ的分布式医学图像分类框架。该框架包括:表示层、处理层和挖掘层。其中,分布式协调器(DTC)是处理层的核心,通过分析以往算法的优缺点,建立一种分布式数据挖掘的计算... 针对医学图像数据过于复杂且分布存储的特点,提出并实现了一种基于SLIQ的分布式医学图像分类框架。该框架包括:表示层、处理层和挖掘层。其中,分布式协调器(DTC)是处理层的核心,通过分析以往算法的优缺点,建立一种分布式数据挖掘的计算框架,并给出相应的求解算法。挖掘层中的分类算法采用适合处理海量数据的SLIQ决策树方法。实验结果表明该分类系统是有效和可行的。 展开更多
关键词 分布式数据挖掘 医学图像 分类算法
下载PDF
构建知识管理系统的探讨 被引量:27
12
作者 刘武 朱明富 《计算机应用研究》 CSCD 北大核心 2002年第4期35-37,共3页
知识管理的实施引起对知识管理系统构建的广泛探索和研究。从总结知识管理系统所必须实现的功能入手 ,探讨了构建知识管理系统的可行策略 ,重点分析了分布式搜索、分类编目、Agent。
关键词 分布式搜索 数据挖掘 数据库 知识管理系统
下载PDF
PDMiner:基于云计算的并行分布式数据挖掘工具平台 被引量:28
13
作者 何清 庄福振 +2 位作者 曾立 赵卫中 谭庆 《中国科学:信息科学》 CSCD 2014年第7期871-885,共15页
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究... 随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法. 展开更多
关键词 云计算 并行算法 分布式 数据挖掘 大数据
原文传递
分布式安全审计系统设计与实现 被引量:18
14
作者 黄晨 胡红云 +1 位作者 蒋安东 谢俊元 《计算机工程与设计》 CSCD 北大核心 2007年第4期811-813,共3页
安全审计愈来愈受关注,但是大多数分布式安全审计系统仍不成熟。首先阐述了分布式安全审计的概念。然后介绍了一个基于数据挖掘技术的分布式分层的安全审计系统的功能及体系结构设计,并详细阐述了XML日志格式、多模式串匹配、模糊聚类... 安全审计愈来愈受关注,但是大多数分布式安全审计系统仍不成熟。首先阐述了分布式安全审计的概念。然后介绍了一个基于数据挖掘技术的分布式分层的安全审计系统的功能及体系结构设计,并详细阐述了XML日志格式、多模式串匹配、模糊聚类和关联安全规则等系统设计实现中采用的一些重要技术。提高了检测效率和发现未知攻击的能力,增强了系统的安全性,可以有效的对整个系统进行安全级别的评估。 展开更多
关键词 安全审计 分布式 入侵检测 数据挖掘 日志
下载PDF
主动配电网综合能量管理系统设计与应用 被引量:19
15
作者 鲁文 李卫星 +1 位作者 杜红卫 张磐 《电力系统自动化》 EI CSCD 北大核心 2016年第8期133-139,151,共8页
目前国内主动配电网还缺乏统一的综合能量管理。在研究综合能量管理平台技术、区域能量综合预测技术和多级能源协调控制技术基础上,设计并开发了一种针对主动配电网的综合能量管理系统。系统综合考虑电源—电网—用户三个方面的需求,集... 目前国内主动配电网还缺乏统一的综合能量管理。在研究综合能量管理平台技术、区域能量综合预测技术和多级能源协调控制技术基础上,设计并开发了一种针对主动配电网的综合能量管理系统。系统综合考虑电源—电网—用户三个方面的需求,集成配电网已存在的信息和自动化系统,对配电网海量信息数据深度挖掘、高度整合和综合应用,最终实现能量合理分配、多元互补、综合利用,有效提高了可再生能源渗透率,降低了配电网能量损耗。系统在天津生态城示范区域部署应用,运行结果验证了所述主动配电网综合管理技术的可行性及有效性。 展开更多
关键词 主动配电网 分布式电源 数据挖掘 综合能量管理
下载PDF
孤岛检测的关键特征识别及元学习方法 被引量:16
16
作者 张沛超 谭啸风 杨珮鑫 《电力系统自动化》 EI CSCD 北大核心 2014年第18期72-78,共7页
数据挖掘技术能有效解决孤岛检测中检测阈值的整定问题,已成为重要的孤岛检测方法。文中提出由关键特征识别、基学习器和元学习器等3个环节构成的孤岛检测数据挖掘系统。首先,分析了孤岛检测样本中的弱相关特征对分类的不利影响,提出利... 数据挖掘技术能有效解决孤岛检测中检测阈值的整定问题,已成为重要的孤岛检测方法。文中提出由关键特征识别、基学习器和元学习器等3个环节构成的孤岛检测数据挖掘系统。首先,分析了孤岛检测样本中的弱相关特征对分类的不利影响,提出利用RELIEF(recursive elimination of features)算法首先识别孤岛检测的关键特征。然后,分析了单一分类器的归纳偏置现象,提出利用多个分类器的互补性提高孤岛检测的精度;最后,提出了基于元学习的新的孤岛检测方法。为验证上述方法的有效性,仿真算例中充分考虑了功率不平衡度、电压扰动等因素。仿真结果表明,上述3个环节对提高孤岛检测的精度和泛化能力具有重要作用。 展开更多
关键词 微电网(微网) 分布式电源 孤岛检测 数据挖掘 RELIEF算法 功率不平衡度 元学习方法
下载PDF
一种基于Web服务的分布式数据挖掘体系结构 被引量:6
17
作者 侯敬军 曾致远 向凌 《微机发展》 2004年第6期48-51,共4页
分布式数据挖掘是数据挖掘领域的一个新兴研究课题,而其主要问题是知识共享和软组件重用。结合Web服务技术的跨平台、统一数据表示格式以及可实现软组件重用和数据重用等优点,文中提出了一种基于Web服务的分布式数据挖掘体系,可实现分... 分布式数据挖掘是数据挖掘领域的一个新兴研究课题,而其主要问题是知识共享和软组件重用。结合Web服务技术的跨平台、统一数据表示格式以及可实现软组件重用和数据重用等优点,文中提出了一种基于Web服务的分布式数据挖掘体系,可实现分布式异构环境下的大容量数据的数据挖掘,旨在对异构数据库的数据挖掘进行一些有意义的探讨。 展开更多
关键词 WEB服务 分布式 数据挖掘
下载PDF
分布式系统下挖掘关联规则的两种方案 被引量:11
18
作者 邹丽 孙辉 李浩 《计算机应用研究》 CSCD 北大核心 2006年第1期77-78,110,共3页
对关联规则的分布式挖掘问题进行了探讨,给出了两种实现方案。一是采用局部-局部的通信模式,各个站点的通信负载比较均衡;二是采用局部-全局的通信模式,减少了各局部站点的通信负荷,实现了各局部站点的完全异步,但对全局站点的性能要求... 对关联规则的分布式挖掘问题进行了探讨,给出了两种实现方案。一是采用局部-局部的通信模式,各个站点的通信负载比较均衡;二是采用局部-全局的通信模式,减少了各局部站点的通信负荷,实现了各局部站点的完全异步,但对全局站点的性能要求较高。 展开更多
关键词 分布式系统 数据挖掘 关联规则 支持度 可信度
下载PDF
基于K-邻近法的电网关键断面在线分布式发现方法 被引量:13
19
作者 王彬 郭文鑫 +4 位作者 刘文涛 卢建刚 向德军 周哲民 余志文 《电力系统保护与控制》 EI CSCD 北大核心 2019年第7期113-118,共6页
随着可再生能源大规模接入电网,电力系统正面临着越来越复杂的运行环境,从而对电网在线操作的时间粒度提出了更高的要求。关键断面在线发现以及其极限传输容量计算是保证大电网在线安全运行的重要手段,调度员通过调控关键断面控制电网... 随着可再生能源大规模接入电网,电力系统正面临着越来越复杂的运行环境,从而对电网在线操作的时间粒度提出了更高的要求。关键断面在线发现以及其极限传输容量计算是保证大电网在线安全运行的重要手段,调度员通过调控关键断面控制电网安全、稳定运行。从数据驱动的角度出发,对电网在线运行状态建立特征集合,运用层次聚类和分布式特征选择筛选出影响断面出现与否的关键特征,随后运用二分类分布式的K-邻近法(KNN)建立特征集合与断面出现与否的映射。算例分析表明,相比于传统方法,所提机器学习方法可以大大减少关键断面在线发现所需时间,且关键断面预测精度达到工程应用需求。 展开更多
关键词 关键断面 K-邻近法 分布式 机器学习 数据挖掘
下载PDF
基于粗集和多Agent技术的分布式数据挖掘 被引量:9
20
作者 孙惠琴 熊璋 《微电子学与计算机》 CSCD 北大核心 2005年第1期36-40,共5页
在分布式数据库基础上,对各个站点的数据库使用粗集的方法进行挖掘,产生各个站点的规则,将这些规则库组合起来,产生一个全局的规则库,从而可以为管理者提供决策的依据。但是,产生的全局库中往往会有不一致的规则出现,一方面,是由于数据... 在分布式数据库基础上,对各个站点的数据库使用粗集的方法进行挖掘,产生各个站点的规则,将这些规则库组合起来,产生一个全局的规则库,从而可以为管理者提供决策的依据。但是,产生的全局库中往往会有不一致的规则出现,一方面,是由于数据库本身的不一致等原因,导致了规则的不一致;而另一方面,则由于各个站点都追求规则的简洁性,使得直接从全局数据提取的规则不矛盾,在分布式环境下却得到矛盾的规则。对于第一种情况,可以通过现有的增加规则的可信度等方法加以避免;而对于第二种情况,本文提出了三种算法来解决了这个问题,并对这三种算法的效率、得到的一致规则的长度等问题进行详细的分析,说明了算法3是一种高效实用的算法。另外,本文对局部站点的核和全局站点的核的关系进行了研究,并证明了一个定理。 展开更多
关键词 粗集 代理 分布式系统 不一致性 数据挖掘
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部