期刊文献+
共找到163篇文章
< 1 2 9 >
每页显示 20 50 100
基于特征效用参与率的空间高效用co-location模式挖掘方法 被引量:12
1
作者 王晓璇 王丽珍 +2 位作者 陈红梅 方圆 杨培忠 《计算机学报》 EI CSCD 北大核心 2019年第8期1721-1738,共18页
空间co-location模式是指其实例在空间邻域内频繁一起出现的空间特征子集.与传统的空间co-location模式挖掘不同,在空间高效用co-location模式挖掘中,不再将参与度(PI)作为有趣模式的度量指标,而是将效用值作为挖掘有趣模式的兴趣度量指... 空间co-location模式是指其实例在空间邻域内频繁一起出现的空间特征子集.与传统的空间co-location模式挖掘不同,在空间高效用co-location模式挖掘中,不再将参与度(PI)作为有趣模式的度量指标,而是将效用值作为挖掘有趣模式的兴趣度量指标.现有的空间高效用co-location模式挖掘方法分为特征带效用和实例带效用两类.特征带效用的现有方法没有考虑不同特征效用之间的差异,挖掘的结果往往包含了许多不尽合理的"高效用"模式;而实例带效用的现有方法,则考虑了不同特征对模式效用的影响,但没有客观地度量这种影响.该文提出了一种确定特征在模式中的效用权重ω(fi,c)的方法,定义了更为合理的空间高效用co-location模式概念,设计了一个有效的挖掘算法.大量的实验表明提出的高效用co-location模式度量方法和相应的挖掘算法能够处理特征效用差异性和特征间的相互影响问题,能更有效地挖掘到空间高效用co-location模式. 展开更多
关键词 空间数据挖掘 空间co-location模式 高效用 效用权重 数据挖掘
下载PDF
CLS-Miner: efficient and effective closed high-utility itemset mining 被引量:10
2
作者 Thu-Lan DAM Kenli LI +1 位作者 Philippe FOURNIER-VIGER Quang-Huy DUONG 《Frontiers of Computer Science》 SCIE EI CSCD 2019年第2期357-381,共25页
High-utility itemset mining (HUIM) is a popular data mining task with applications in numerous domains. However, traditional HUIM algorithms often produce a very large set of high-utility itemsets (HUIs). As a result,... High-utility itemset mining (HUIM) is a popular data mining task with applications in numerous domains. However, traditional HUIM algorithms often produce a very large set of high-utility itemsets (HUIs). As a result, analyzing HUIs can be very time consuming for users. Moreover, a large set of HUIs also makes HUIM algorithms less efficient in terms of execution time and memory consumption. To address this problem, closed high-utility itemsets (CHUIs), concise and lossless representations of all HUIs, were proposed recently. Although mining CHUIs is useful and desirable, it remains a computationally expensive task. This is because current algorithms often generate a huge number of candidate itemsets and are unable to prune the search space effectively. In this paper, we address these issues by proposing a novel algorithm called CLS-Miner. The proposed algorithm utilizes the utility-list structure to directly compute the utilities of itemsets without producing candidates. It also introduces three novel strategies to reduce the search space, namely chain-estimated utility co-occurrence pruning, lower branch pruning, and pruning by coverage. Moreover, an effective method for checking whether an itemset is a subset of another itemset is introduced to further reduce the time required for discovering CHUIs. To evaluate the performance of the proposed algorithm and its novel strategies, extensive experiments have been conducted on six benchmark datasets having various characteristics. Results show that the proposed strategies are highly efficient and effective, that the proposed CLS-Miner algorithm outperforms the current state-ofthe- art CHUD and CHUI-Miner algorithms, and that CLSMiner scales linearly. 展开更多
关键词 utility MINING high-utility ITEMSET MINING CLOSED ITEMSET MINING CLOSED high-utility ITEMSET MINING
原文传递
A related degree-based frequent pattern mining algorithm for railway fault data
3
作者 Jiaxu Guo Ding Ding +2 位作者 Peihan Yang Qi Zou Yaping Huang 《High-Speed Railway》 2024年第2期101-109,共9页
It is of great significance to improve the efficiency of railway production and operation by realizing the fault knowledge association through the efficient data mining algorithm.However,high utility quantitative freq... It is of great significance to improve the efficiency of railway production and operation by realizing the fault knowledge association through the efficient data mining algorithm.However,high utility quantitative frequent pattern mining algorithms in the field of data mining still suffer from the problems of low time-memory performance and are not easy to scale up.In the context of such needs,we propose a related degree-based frequent pattern mining algorithm,named Related High Utility Quantitative Item set Mining(RHUQI-Miner),to enable the effective mining of railway fault data.The algorithm constructs the item-related degree structure of fault data and gives a pruning optimization strategy to find frequent patterns with higher related degrees,reducing redundancy and invalid frequent patterns.Subsequently,it uses the fixed pattern length strategy to modify the utility information of the item in the mining process so that the algorithm can control the length of the output frequent pattern according to the actual data situation and further improve the performance and practicability of the algorithm.The experimental results on the real fault dataset show that RHUQI-Miner can effectively reduce the time and memory consumption in the mining process,thus providing data support for differentiated and precise maintenance strategies. 展开更多
关键词 high utility QUANTITATIVE Frequent pattern mining Related degree pruning Fixed pattern length
下载PDF
PHUI-GA: GPU-based efficiency evolutionary algorithm for mining high utility itemsets
4
作者 JIANG Haipeng WU Guoqing +3 位作者 SUN Mengdan LI Feng SUN Yunfei FANG Wei 《Journal of Systems Engineering and Electronics》 SCIE CSCD 2024年第4期965-975,共11页
Evolutionary algorithms(EAs)have been used in high utility itemset mining(HUIM)to address the problem of discover-ing high utility itemsets(HUIs)in the exponential search space.EAs have good running and mining perform... Evolutionary algorithms(EAs)have been used in high utility itemset mining(HUIM)to address the problem of discover-ing high utility itemsets(HUIs)in the exponential search space.EAs have good running and mining performance,but they still require huge computational resource and may miss many HUIs.Due to the good combination of EA and graphics processing unit(GPU),we propose a parallel genetic algorithm(GA)based on the platform of GPU for mining HUIM(PHUI-GA).The evolution steps with improvements are performed in central processing unit(CPU)and the CPU intensive steps are sent to GPU to eva-luate with multi-threaded processors.Experiments show that the mining performance of PHUI-GA outperforms the existing EAs.When mining 90%HUIs,the PHUI-GA is up to 188 times better than the existing EAs and up to 36 times better than the CPU parallel approach. 展开更多
关键词 high utility itemset mining(HUIM) graphics process-ing unit(GPU)parallel genetic algorithm(GA) mining perfor-mance
下载PDF
一种基于关联程度的高效用数量比频繁模式挖掘算法
5
作者 王辉 李燕 +2 位作者 丁丁 吴坤 黄雅平 《计算机工程与科学》 CSCD 北大核心 2024年第9期1702-1710,共9页
高效用频繁模式挖掘算法运用数据项的重要度信息,能够从数据中挖掘出更重要的频繁模式,而高效用数量比频繁模式挖掘算法可以进一步研究频繁模式中数据项的数量比例关系,是目前数据挖掘领域中的研究课题。从提高算法性能和实用性的角度... 高效用频繁模式挖掘算法运用数据项的重要度信息,能够从数据中挖掘出更重要的频繁模式,而高效用数量比频繁模式挖掘算法可以进一步研究频繁模式中数据项的数量比例关系,是目前数据挖掘领域中的研究课题。从提高算法性能和实用性的角度出发对高效用数量比频繁模式挖掘算法进行优化,提出了一种基于关联程度的高效用数量比频繁模式挖掘算法RHUQI-Miner。RHUQI-Miner首先提出关联程度的概念,依据关联程度构建项目关联程度结构,并给出关联剪枝优化策略,寻找关联程度更高的项目集合,减少冗余和无效的频繁模式;随后运用修正模式长度策略,修正挖掘过程中项集的效用信息,使算法可根据实际数据情况控制输出频繁模式的长度,进一步提升算法的性能,提高算法的实用性。通过对RHUQI-Miner在动车组PHM系统车载故障数据集上的实验结果进行分析,表明该算法能够有效减少挖掘过程中的时间以及内存消耗,可以得出该算法适用于铁路实际数据和业务的有效结论。 展开更多
关键词 高效用 数量比 频繁模式挖掘 关联剪枝 修正模式长度
下载PDF
基于效用表的快速高平均效用挖掘算法 被引量:5
6
作者 王敬华 罗相洲 吴倩 《计算机应用》 CSCD 北大核心 2016年第11期3062-3066,共5页
高效用项集挖掘在数据挖掘领域中受到了广泛的关注,但是高效用项集挖掘并没有考虑项集长度对效用值的影响,所以高平均效用项集挖掘被提出;而目前的一些高平均效用项集挖掘算法需要耗费大量的时间才能挖掘出有效的高平均效用项集。针对... 高效用项集挖掘在数据挖掘领域中受到了广泛的关注,但是高效用项集挖掘并没有考虑项集长度对效用值的影响,所以高平均效用项集挖掘被提出;而目前的一些高平均效用项集挖掘算法需要耗费大量的时间才能挖掘出有效的高平均效用项集。针对此问题,给出了一个高平均效用项集挖掘的改进算法——FHAUI。FHAUI算法将效用信息保存到效用列表中,通过效用列表的比较来挖掘出所有的高平均效用值,同时FHAUI算法还采用了一个二维矩阵来有效减少二项效用值的连接比较次数。最后将FHAUI算法在多个经典的数据集上测试。实验结果表明,FHAUI算法在效用列表的连接比较次数上有了极大的降低,同时其时间性能也有非常大提高。 展开更多
关键词 平均效用 高效用 模式挖掘 数据挖掘 频繁模式
下载PDF
HUITWU: An Efficient Algorithm for High-Utility Itemset Mining in Transaction Databases 被引量:4
7
作者 Shi-Ming Guo Hong Gao 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第4期776-786,共11页
Mining high-utility itemsets (HUIs) from a transaction database refers to the discovery of itemsets with high utilities like profits. Most of existing studies discover HUIs from a transaction database in two phases.... Mining high-utility itemsets (HUIs) from a transaction database refers to the discovery of itemsets with high utilities like profits. Most of existing studies discover HUIs from a transaction database in two phases. In phase 1, different overestimation methods are applied to calculate the upper bounds of the utilities of itemsets. Since the overestimated utilities of itemsets are adopted, the itemsets whose overestimated utilities are no less than a user-specified threshold are selected as candidate HUIs, and they are verified by scanning the database one more time in phase 2. However, a large number of candidate HUIs incur two problems: 1) it requires excessive memory to store these candidates; 2) it needs a large amount of running time to calculate their exact utilities. Vertical data format has been applied to mine HUIs recently. However this kind of method cannot deal with transactions with the same items effectively so that the size of database cannot be reduced sufficiently. The overall performance of algorithms is degraded consequently. Thus an algorithm HUITWU is proposed in this paper for mining HUIs. A novel data structure HUITwu-Tree is adopted to efficiently calculate the utilities of itemsets in a database. Extensive studies with both sparse and dense datasets have demonstrated that our proposed algorithm is more than an order of magnitude faster and consumes less memory than the state-of-the-art algorithms. 展开更多
关键词 data mining high-utility itemset pattern growth
原文传递
A Parallel High-Utility Itemset Mining Algorithm Based on Hadoop 被引量:1
8
作者 Zaihe Cheng Wei Shen +1 位作者 Wei Fang Jerry Chun-Wei Lin 《Complex System Modeling and Simulation》 2023年第1期47-58,共12页
High-utility itemset mining(HUIM)can consider not only the profit factor but also the profitable factor,which is an essential task in data mining.However,most HUIM algorithms are mainly developed on a single machine,w... High-utility itemset mining(HUIM)can consider not only the profit factor but also the profitable factor,which is an essential task in data mining.However,most HUIM algorithms are mainly developed on a single machine,which is inefficient for big data since limited memory and processing capacities are available.A parallel efficient high-utility itemset mining(P-EFIM)algorithm is proposed based on the Hadoop platform to solve this problem in this paper.In P-EFIM,the transaction-weighted utilization values are calculated and ordered for the itemsets with the MapReduce framework.Then the ordered itemsets are renumbered,and the low-utility itemsets are pruned to improve the dataset utility.In the Map phase,the P-EFIM algorithm divides the task into multiple independent subtasks.It uses the proposed S-style distribution strategy to distribute the subtasks evenly across all nodes to ensure load-balancing.Furthermore,the P-EFIM uses the EFIM algorithm to mine each subtask dataset to enhance the performance in the Reduce phase.Experiments are performed on eight datasets,and the results show that the runtime performance of P-EFIM is significantly higher than that of the PHUI-Growth,which is also HUIM algorithm based on the Hadoop framework. 展开更多
关键词 pattern mining data mining HADOOP PARALLEL high-utility itemset mining big data
原文传递
基于投影的高效用项集挖掘算法 被引量:5
9
作者 王敬华 罗相洲 吴倩 《小型微型计算机系统》 CSCD 北大核心 2016年第6期1212-1216,共5页
随着高效用模式挖掘算法在实际应用中的重要性逐步显著,因而其得到了越来越多的关注和研究,但是已知的一些算法存在着多遍数据集扫描以及会产生大量候选项集、时效性不高等问题.这些问题使得高效用模式的挖掘效率大大降低,故本文提出一... 随着高效用模式挖掘算法在实际应用中的重要性逐步显著,因而其得到了越来越多的关注和研究,但是已知的一些算法存在着多遍数据集扫描以及会产生大量候选项集、时效性不高等问题.这些问题使得高效用模式的挖掘效率大大降低,故本文提出一种新的基于投影的高效用项集挖掘算法HUPMP(high utility pattern mining on projection).采用基于投影的方式将项集的信息存储在数组中,能有效的减少前人基于树结构建树所产生的耗时.同时HUPMP算法将多次数据集扫描减少为只需要进行两次数据集的扫描便可挖掘出所有的高效用模式.另外,针对会产生大量候选项集的问题,提出了一种不同于闭包属性的新性质.通过与多个算法的实验比较可以看出,HUPMP算法表现优异. 展开更多
关键词 投影 高效用 频繁项集 模式挖掘
下载PDF
面向数据流的一个高效用项集挖掘算法 被引量:4
10
作者 慕欢欢 柴玉梅 王黎明 《计算机应用与软件》 CSCD 2015年第4期283-287,313,共6页
近年来,在数据流中进行高效用项集挖掘成为一个重要的研究课题。已存在的算法在挖掘过程中产生大量的候选项集,使用户很难从大量候选模式中筛选出有用的信息。针对这种情况,提出一个数据流高效用项集挖掘算法HUIDE(High-Utility Itemset... 近年来,在数据流中进行高效用项集挖掘成为一个重要的研究课题。已存在的算法在挖掘过程中产生大量的候选项集,使用户很难从大量候选模式中筛选出有用的信息。针对这种情况,提出一个数据流高效用项集挖掘算法HUIDE(High-Utility Itemsets Over Data Streams)。算法首先综合考虑数据的信息特征,提出一种有效的效用度量方法。然后采用基于时间的滑动窗口技术更加准确地描述数据分布,构建一种树结构HUI-tree(High Utility Itemsets tree)。最后遍历构建的树结构HUI-tree挖掘高效用项集。在人工和真实数据流上的实验结果表明该算法通过扫描一次数据库获取挖掘结果,减少了候选项集的产生及时间和空间的消耗。该算法在数据流中能够有效地挖掘高效用项集。 展开更多
关键词 高效用 数据流 效用度量 树结构
下载PDF
高效用模式产生策略综述 被引量:4
11
作者 高曼 韩萌 雷冰冰 《计算机工程与应用》 CSCD 北大核心 2020年第16期1-12,共12页
高效用模式挖掘用于从数据中找出对用户有用的信息。现有的高效用模式挖掘算法很多,如何选择更优的方法进行使用,是普遍存在的问题。要解决这个问题首先要了解高效用模式挖掘算法的分类,继而针对问题找出对应的算法。按照不同的角度可... 高效用模式挖掘用于从数据中找出对用户有用的信息。现有的高效用模式挖掘算法很多,如何选择更优的方法进行使用,是普遍存在的问题。要解决这个问题首先要了解高效用模式挖掘算法的分类,继而针对问题找出对应的算法。按照不同的角度可以划分多种不同类型的算法。从使用数据结构的类型,划分为基于树和基于效用列表的方法;从算法所需要经历的阶段,划分为一阶段和两阶段算法;还可以从算法使用的剪枝策略进行划分,如投影,保留效用,提高最小阈值等。首先对一阶段、两阶段高效用模式算法进行分析,主要分析基于树的两阶段算法和基于列表的一阶段算法。然后从是否产生候选分析基于树的高效用模式算法。最后分析高效用模式算法用到的缩减空间策略,如剪枝策略、投影技术等。通过分析得到一阶段算法在时间与空间上优于两阶段算法,不产生候选项集的算法在时间与空间上优于产生候选项集的算法,算法缩小搜索空间一般通过多种剪枝策略。 展开更多
关键词 高效用 模式挖掘 列表 一阶段算法 二阶段算法 剪枝策略
下载PDF
频繁和高效用项集挖掘 被引量:4
12
作者 李慧 刘贵全 瞿春燕 《计算机科学》 CSCD 北大核心 2015年第5期82-87,123,共7页
对从事务数据库中挖掘有意义的项集的研究已超过10年。然而,大多数的研究要么使用频繁度或支持度(如频繁项集挖掘),要么使用效用值或利润(如高效用项集挖掘)作为主要的衡量标准。单独使用这两种衡量方式都有各自的局限性,比如频繁度很... 对从事务数据库中挖掘有意义的项集的研究已超过10年。然而,大多数的研究要么使用频繁度或支持度(如频繁项集挖掘),要么使用效用值或利润(如高效用项集挖掘)作为主要的衡量标准。单独使用这两种衡量方式都有各自的局限性,比如频繁度很高的项集其效用值有可能很低,而效用值很高的项集其频繁度往往很低,将这些项集推荐给用户没有意义。将这两种衡量标准综合考虑,希望找出那些频繁度和效用值都很高的项集。该项工作最大的挑战是效用值既不满足单调性也不满足反单调性。因此,提出了高效算法FHIMA。FHIMA采用PrefixSpan的思想,挖掘时能避免产生非频繁的候选项集。此外,还根据效用和质量上界的一些性质,有效地缩小了搜索空间,极大地提高了FHIMA算法的效率。 展开更多
关键词 TOP-K 频繁 高效用 高质量项集
下载PDF
山区公路高填方路基经济实用的断面型式选择 被引量:1
13
作者 徐积江 钟以明 杨灯发 《重庆交通学院学报》 2005年第1期85-88,共4页
山区公路高填深挖路基多,几十米高填方路段随处可见,边坡伸出一百米以上或落空的路基也经常出现,如何减少填方或挡墙数量,减少工程经费,降低施工难度,经比较选择砌石路基断面型式是非常经济实用可行的措施之一.
关键词 高填方 路基 经济实用 断面型式
下载PDF
一种高效用模式挖掘算法
14
作者 钟新成 李慧芳 《山西大同大学学报(自然科学版)》 2022年第2期21-23,共3页
针对已有两阶段高效用挖掘算法在遍历解空间时耗时过长的问题,提出一种随机高效用模式挖掘算法。即在阶段一置若干随机数,每个随机数对应一个节点,随后计算该节点的事务权重效用值并利用事务权重向下闭包的特性,若该节点的事务权重效用... 针对已有两阶段高效用挖掘算法在遍历解空间时耗时过长的问题,提出一种随机高效用模式挖掘算法。即在阶段一置若干随机数,每个随机数对应一个节点,随后计算该节点的事务权重效用值并利用事务权重向下闭包的特性,若该节点的事务权重效用值低于设定阈值,则该项集的任意超集被剪枝。实验表明,该算法平均运行效率相较原始算法有明显提升。 展开更多
关键词 高效用 事务权重效用 剪枝
下载PDF
Application of GIS in urban utility mapping using image processing techniques 被引量:1
15
作者 R.MANONMANI S.PRABAHARAN +1 位作者 R.VIDHYA M.RAMALINGAM 《Geo-Spatial Information Science》 SCIE EI 2012年第4期271-275,共5页
Growing cities are creating an alarming situation in all countries of the world.It has led to serious land use problems such as loss of agricultural land,unauthorized urban sprawl,high land values,speculation in land,... Growing cities are creating an alarming situation in all countries of the world.It has led to serious land use problems such as loss of agricultural land,unauthorized urban sprawl,high land values,speculation in land,and other related problems.In this emerging scenario,it is essential to have updated information on urban growth patterns and their impact on the living environment.Growth and development of these cities are likely to continue and therefore there will be a need for proper planning and managing or improving the existing infrastructure facilities.This study demonstrates image fusion of LISS-IV MX and Cartosat-1 satellite data to create detailed town planning and utility mapping for amenity patterns and facilities available in Karaikal city,India.Road patterns within the city are analyzed and a road network map is generated.A proximity analysis was carried out to understand the availability of institutions,hospitals,and industries for effective disaster management.Karaikal has grown rapidly in all directions especially in north,northwest and west parts.A big question for planners is the provision of proper amenities.Using geographic information system and remote sensing,city administrators can now evolve an expert decision support system aimed at various decisionmaking processes. 展开更多
关键词 high-resolution satellite data proximity analysis utility mapping
原文传递
成本系统的高级化趋势与现代成本效用控制
16
作者 王忠贤 施宏伟 《西安石油学院学报(社会科学版)》 2003年第2期3-8,共6页
从对成本系统的演进及其高级化趋势的描述与反思入手 ,深入分析了我国成本理论与实践的根本缺陷 ,并对现代成本效用控制的理念与基本模型进行了有益探索。
关键词 成本系统 高级化 成本效用
下载PDF
Research on Competition Game Algorithm Between High-Speed Railway and Ordinary Railway System Under the Urban Corridor Background
17
作者 Lei Wang Yao Lu 《国际计算机前沿大会会议论文集》 2020年第2期290-308,共19页
The coexistence of high-speed railway and ordinary railway in public transport corridors has led to competition and cooperation between the two transports systems.In this case study of Baolan high-speed railway,a game... The coexistence of high-speed railway and ordinary railway in public transport corridors has led to competition and cooperation between the two transports systems.In this case study of Baolan high-speed railway,a game theory model is established,including three types of players of high-speed railway,ordinary railway and passenger,and involving three kinds of influencing factors of economy,fastness and comfort.The concept of“linear city”was used to simulate the position of the passengers and passenger’s origin and destination into the two-dimensional O-D matrices.Based on the utility theory and heuristic algorithm,the Nash equilibrium problem was solved,and the reasonable pricing strategy of high-speed railway and ordinary railway was obtained. 展开更多
关键词 high-speed railway Ordinary railway Game theory Heuristic algorithm utility theory
原文传递
运用Logit模型对高速客流分担率的估计 被引量:39
18
作者 马波涛 张于心 赵翠霞 《北方交通大学学报》 CSCD 北大核心 2003年第2期66-69,共4页
运用Logit模型对高速铁路与航空客流之间的分担率进行估计,并采用运输产品效用函数值代替传统的用多元线性回归求解的特征函数值,得到了较好的结论.
关键词 高速铁路 客流 分担率 运输产品效用函数
下载PDF
基于Openstack的科研教学云计算平台的构建与运用 被引量:40
19
作者 李磊 李小宁 金连文 《实验技术与管理》 CAS 北大核心 2014年第6期127-133,174,共8页
随着云计算技术的发展与运用,云计算在资源的效用比、按需服务等方面优势显著。相对于高校传统的计算资源构建,云计算凭借其安全性保障、高效的弹性计算资源分配能力、简易的硬件要求等特性,能实现面对不同需求时的计算资源快速弹性构... 随着云计算技术的发展与运用,云计算在资源的效用比、按需服务等方面优势显著。相对于高校传统的计算资源构建,云计算凭借其安全性保障、高效的弹性计算资源分配能力、简易的硬件要求等特性,能实现面对不同需求时的计算资源快速弹性构建。基于Openstack开源云计算平台,构建了一个适用于高校教学和科研实验的校园云计算平台,既能弹性分配实验计算资源,满足课程教学、开发、测试、管理等不同需求,又成为集群技术、分布式计算、云计算应用等研发工作的实用平台。 展开更多
关键词 科研云计算平台 OPENSTACK 弹性资源分配 高效用比
下载PDF
基于聚类划分的高效用模式并行挖掘算法 被引量:25
20
作者 邢淑凝 刘方爱 赵晓晖 《计算机应用》 CSCD 北大核心 2016年第8期2202-2206,2212,共6页
针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树,从而导致内存空间占用较大以及丢失一些高效用项集的问题,提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先,采用聚类的方法把数据库... 针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树,从而导致内存空间占用较大以及丢失一些高效用项集的问题,提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先,采用聚类的方法把数据库中相似的事务划分为若干数据子集;然后,把若干划分好的数据子集分配到Hadoop平台的各个节点中构造效用模式树;最后,把各个节点中相同项的条件模式基分配到同一个节点中进行挖掘,以减少各个节点交叉操作的次数。通过实验结果和理论分析表明:PUCP算法在不影响挖掘结果可靠性的前提下,与主流串行高效用模式挖掘——效用模式增长挖掘算法(UP-Growth)和现有的并行高效用模式挖掘算法PHUI-Growth相比,挖掘效率分别提高了61.2%和16.6%;并且使用了Hadoop计算平台,能有效缓解挖掘大规模数据的内存压力。 展开更多
关键词 大数据 高效用模式挖掘 聚类 并行计算 HADOOP
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部