期刊文献+
共找到76篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于FP-Growth的频繁项目集并行挖掘算法 被引量:43
1
作者 章志刚 吉根林 《计算机工程与应用》 CSCD 2014年第2期103-106,共4页
FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式... FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。 展开更多
关键词 频繁项目集 并行挖掘 FP Growth MAP REDUCE
下载PDF
基于文献的中医治疗哮喘辨证用药规律分析 被引量:11
2
作者 唐农 李宗友 +2 位作者 亢力 杨硕 雷蕾 《国际中医中药杂志》 2019年第12期1370-1374,共5页
目的基于文献探索中医治疗哮喘的辨证用药规律。方法检索中国临床文献数据库,以及中国生物医学文献服务系统(SinoMed)、中国期刊全文数据库(CNKI)、中国学术期刊数据库(万方数据)、中文科技期刊数据库(重庆维普)1949年1月1日-2017年12... 目的基于文献探索中医治疗哮喘的辨证用药规律。方法检索中国临床文献数据库,以及中国生物医学文献服务系统(SinoMed)、中国期刊全文数据库(CNKI)、中国学术期刊数据库(万方数据)、中文科技期刊数据库(重庆维普)1949年1月1日-2017年12月31日有关中医治疗哮喘的临床研究文献,通过人机结合的方式,抽取疾病、证型、药物组成等关键信息,构建数据库。使用中医药数据挖掘系统(http://tcmminer.cintcm.com:8023/tcm/index.jsp)计算证型-中药的共现矩阵及针对不同证型的中药频繁项集,分析中医辨证治疗哮喘的组方规律,并针对5个高频证型提出新药处方。结果共纳入文献234篇,包含处方1337首、证型124个、中药290味。高频证型前5位为热哮证、寒哮证、痰热壅盛证、肺脾气虚证、肾阳虚证。最常用的中药前5位为麻黄、苦杏仁、甘草、地龙、五味子。分析5个高频证型的中药频繁项集,演化得到5个新药处方,热哮证处方为地龙、黄芩、苦杏仁、麻黄、桑白皮、甘草、紫苏子;寒哮证处方为紫苏子、麻黄、地龙、细辛、半夏、苦杏仁、五味子;痰热壅肺证处方为苦杏仁、麻黄、地龙、款冬花、桑白皮、甘草;肺脾气虚证处方为白术、黄芪、山萸肉、茯苓、党参、桑白皮、五味子;肾阳虚证处方为五味子、补骨脂、茯苓、紫苏子、黄芩、生地黄。结论不同的证型使用的高频中药明显不同,提示区分证型对中医处方进行挖掘分析更符合中医辨证论治的思想精髓。 展开更多
关键词 哮喘 组方规律 频繁项集 共现矩阵 新药处方 数据挖掘
原文传递
基于频繁项特征扩展的短文本分类方法 被引量:9
3
作者 靳一凡 傅颖勋 马礼 《计算机科学》 CSCD 北大核心 2019年第B06期478-481,共4页
短文本具有特征维度高且稀疏等特点,导致将传统的分类方法应用于短文本分类时效果较差。针对此问题,提出基于频繁项特征扩展的短文本分类方法(Short Text Classification Based on Frequent Item Feature Extension,STCFIFE)。首先通过F... 短文本具有特征维度高且稀疏等特点,导致将传统的分类方法应用于短文本分类时效果较差。针对此问题,提出基于频繁项特征扩展的短文本分类方法(Short Text Classification Based on Frequent Item Feature Extension,STCFIFE)。首先通过FP-growth算法挖掘背景语料库的频繁项集,结合上下文的关联特征,计算出扩展特征权重;然后将新特征加入到原短文本的特征空间中,在此基础上训练SVM(Support Vector Machine,SVM)分类器,并进行分类。实验结果表明,与传统的SVM算法和LDA+KNN算法相比,STCFIFE方法能有效缓解短文本特征不足、高维稀疏的问题,使F 1值提升了2%~10%,提高了短文本的分类效果。 展开更多
关键词 短文本分类 特征扩展 频繁项挖掘 特征权重 支持向量机
下载PDF
高性能网络安全告警信息的关联分析方法 被引量:8
4
作者 付泽强 王晓锋 孔军 《计算机科学》 CSCD 北大核心 2019年第5期116-121,共6页
在网络安全防御体系中,入侵检测系统会实时产生海量冗余、错误的网络安全告警信息,因此有必要对告警信息的关联规则和序列模式进行频繁项模式挖掘,分辨正常的行为模式,筛选出真正的攻击信息。相对于Apriori和FP-growth等算法,COFI-tree... 在网络安全防御体系中,入侵检测系统会实时产生海量冗余、错误的网络安全告警信息,因此有必要对告警信息的关联规则和序列模式进行频繁项模式挖掘,分辨正常的行为模式,筛选出真正的攻击信息。相对于Apriori和FP-growth等算法,COFI-tree算法虽然具有较大的性能优势,但仍无法满足大规模网络安全信息快速分析的需求。为此,基于COFI-tree算法,提出了一种改进的网络安全告警信息关联分析算法。该算法通过基于倒序链表的头表节点寻址方式和基于新的SD结构的频繁项处理方法,提升了COFI-tree算法的性能。基于Kddcup99数据集的实验结果表明,与传统的Cofi算法相比,该方法在基本保证准确率的同时,能大量降低计算开销,使处理时间平均缩短21%以上,解决了在海量网络告警信息下进行关联分析时速率不高的问题。 展开更多
关键词 COFI-tree 网络安全 频繁项目集 数据挖掘 关联分析
下载PDF
基于MapReduce的并行频繁项集挖掘算法研究 被引量:7
5
作者 刘卫明 张弛 毛伊敏 《计算机应用研究》 CSCD 北大核心 2021年第3期689-695,共7页
针对并行MRPrePost(parallel prepost algorithm based on MapReduce)频繁项集挖掘算法在大数据环境存在运行时间长、内存占用量大和节点负载不均衡的问题,提出一种基于DiffNodeset的并行频繁项集挖掘算法(parallel frequent itemsets m... 针对并行MRPrePost(parallel prepost algorithm based on MapReduce)频繁项集挖掘算法在大数据环境存在运行时间长、内存占用量大和节点负载不均衡的问题,提出一种基于DiffNodeset的并行频繁项集挖掘算法(parallel frequent itemsets mining using DiffNodeset,PFIMD)。该算法首先采用一种数据结构DiffNodeset,有效地避免了N-list基数过大的问题;此外提出一种双向比较策略(2-way comparison strategy,T-wcs),以减少两个DiffNodeset在连接过程中的无效计算,极大地降低了算法时间复杂度;最后考虑到集群负载对并行算法效率的影响,进一步提出了一种基于动态分组的负载均衡策略(load balancing strategy based on dynamic grouping,LBSBDG),该策略通过将频繁1项集F-list中的每项进行均匀分组,降低了集群中每个计算节点上PPC-Tree树的规模,进而减少了先序后序遍历PPC-Tree树所需的时间。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。 展开更多
关键词 DiffNodeset数据结构 MAPREDUCE T-wcs策略 LBSBDG策略 频繁项集挖掘
下载PDF
采用N-list结构的混合并行频繁项集挖掘算法 被引量:6
6
作者 刘卫明 张弛 毛伊敏 《计算机科学与探索》 CSCD 北大核心 2022年第1期120-136,共17页
针对大数据环境下并行MRPrePost频繁项集挖掘算法中存在计算节点负载不均衡,N-list合并效率低以及冗余搜索等问题,提出了基于N-list结构的混合并行频繁项集挖掘算法HP-FIMBN。首先,设计负载量估计函数(LE)来计算出频繁1项集F-list中每... 针对大数据环境下并行MRPrePost频繁项集挖掘算法中存在计算节点负载不均衡,N-list合并效率低以及冗余搜索等问题,提出了基于N-list结构的混合并行频繁项集挖掘算法HP-FIMBN。首先,设计负载量估计函数(LE)来计算出频繁1项集F-list中每一项的负载量,同时提出基于贪心策略的分组方法(GM-GS)将F-list中的每一项根据其负载量进行均匀分组,既解决了数据划分中计算节点负载不均衡的问题,又降低了集群中各节点上子PPC-Tree树的规模;其次,提出预先放弃策略(EAS),该策略不仅能有效避免合并过程中的无效计算,而且不需要遍历初始N-list结构就能得到最终的N-list,极大地提高了N-list结构的合并效率;最后,采用集合枚举树作为搜索空间,并提出超集等价剪枝策略(SES)来避免挖掘过程中的冗余搜索,生成最终的挖掘结果。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。 展开更多
关键词 频繁项集挖掘 N-list结构 贪心策略 集合枚举树 超集等价剪枝策略(SES)
下载PDF
基于频繁项统计的流-安时积分SOC估计方法 被引量:5
7
作者 李昆 赵理 +2 位作者 赵博阳 客汉宸 李俊丽 《重庆理工大学学报(自然科学)》 CAS 北大核心 2022年第3期19-27,共9页
针对传统安时积分法由于无法在线更新库仑效率而导致的难以准确估测电池剩余容量的问题,提出一种基于频繁项统计进行电流分段积分,利用不同库仑效率对分段积分后电量进行修正的流-安时积分法。该方法利用连续充放电循环对库仑效率进行... 针对传统安时积分法由于无法在线更新库仑效率而导致的难以准确估测电池剩余容量的问题,提出一种基于频繁项统计进行电流分段积分,利用不同库仑效率对分段积分后电量进行修正的流-安时积分法。该方法利用连续充放电循环对库仑效率进行在线修正,基于柯西频繁项统计算法对电流进行分段累积,利用修正后的库仑效率对分段累计电量进行校正,最后实现了电池剩余容量的准确估计。仿真和实验分析表明:基于频繁项统计的安时积分法有效减小了传统安时积分法产生的电量累积误差,提高了剩余容量及SOC的估计精度。 展开更多
关键词 频繁项统计 流挖掘算法 库仑效率 安时积分法 SOC估计
下载PDF
基于知识的目标关系分析挖掘技术
8
作者 王峰 赵伟伟 +3 位作者 马培博 康彦肖 王澜涛 周炜昊 《计算机与网络》 2024年第3期268-271,共4页
在战场目标价值分析和打击目标排序分析过程中,为了构建敌方作战目标体系,需要分析战场目标间的关联关系。轨迹和部署数据中隐藏大量信息,提出了一种从轨迹和部署数据中挖掘出感兴趣的目标关系类型信息的方法,所提方法对轨迹部署数据进... 在战场目标价值分析和打击目标排序分析过程中,为了构建敌方作战目标体系,需要分析战场目标间的关联关系。轨迹和部署数据中隐藏大量信息,提出了一种从轨迹和部署数据中挖掘出感兴趣的目标关系类型信息的方法,所提方法对轨迹部署数据进行时空聚类,从聚类结果提取目标;对聚类目标使用频繁项挖掘算法分析挖掘满足一定支持度的有关联关系的目标,再根据构建的关系类型知识库或关系规则,分析目标间的具体关系类型。所提方法能对积累的目标历史轨迹部署数据分析挖掘出目标间的关联关系,挖掘出目标潜在的关系类型可为后续构建目标体系提供关系数据。 展开更多
关键词 关联关系 时空聚类 轨迹数据 频繁项挖掘 关系规则
下载PDF
基于隐结构模型联合频繁项集的针灸治疗弱精子症不育患者的辨证取穴规律
9
作者 何瑞宣 孙自学 +3 位作者 华众 张芳 张迪 胡创政 《世界中医药》 CAS 北大核心 2024年第14期2185-2190,共6页
目的:探讨针灸治疗弱精子症不育患者的辨证取穴规律,为临床治疗弱精子症不育患者提供帮助。方法:检索国家知识基础设施数据库(CNKI)、中国生物医学文献数据库(CBM)、中国学术期刊数据库(CSPD)及中文科技期刊数据库(CCD)等数据库有关针... 目的:探讨针灸治疗弱精子症不育患者的辨证取穴规律,为临床治疗弱精子症不育患者提供帮助。方法:检索国家知识基础设施数据库(CNKI)、中国生物医学文献数据库(CBM)、中国学术期刊数据库(CSPD)及中文科技期刊数据库(CCD)等数据库有关针灸治疗弱精子症的相关文献,提取症状、取穴处方信息构建医案数据库,采用隐结构模型、频繁项集的数据挖掘方法,分析针灸治疗弱精子症的辨证取穴规律。结果:纳入文献35篇,涉及症状62种,穴位49个。高频症状包括腰酸、神疲乏力等,高频腧穴包括关元、肾俞等。对症状、腧穴、证型进行频繁项集分析,挖掘出症状-腧穴频繁项集4项,包括耳鸣+头晕+腰酸+关元+肾俞等;证型-症状频繁项集4项,包括肾精亏虚证+健忘+性欲淡漠+神疲乏力+脉细等;证型-症状-腧穴频繁项集4项,包括肾精亏虚证+性欲淡漠+神疲乏力+头发易脱+关元等。结论:针灸治疗弱精子症多以关元、肾俞、足三里为主穴。 展开更多
关键词 隐结构模型 频繁项集 弱精子症 辨证取穴规律 数据挖掘 Apriori算法 穴位 针灸
下载PDF
多层实时网络加密数据流频繁项集挖掘方法 被引量:6
10
作者 蔡中民 《沈阳工业大学学报》 EI CAS 北大核心 2021年第3期301-306,共6页
针对多层实时网络加密数据流频繁项集常受码间干扰,现有挖掘方法缺少对干扰的抑制而导致挖掘输出效果不好、传输误码率偏高、滤波效果差的问题,提出一种基于集对分析的挖掘方法.构建频繁项集的传输信道模型,对频繁项集的输出进行聚簇性... 针对多层实时网络加密数据流频繁项集常受码间干扰,现有挖掘方法缺少对干扰的抑制而导致挖掘输出效果不好、传输误码率偏高、滤波效果差的问题,提出一种基于集对分析的挖掘方法.构建频繁项集的传输信道模型,对频繁项集的输出进行聚簇性设计和跟踪识别,根据空频结构在簇首节点完成集成处理;在近场源中提取频繁项集的平均集对特征量,通过自适应滤波器进行码间干扰抑制;对经干扰抑制的加密大数据流频繁项集进行集对分析,提取频繁项集的平均集对特征量,优化挖掘函数.结果表明,该方法的抗干扰能力强,传输误码率较低,滤波效果好. 展开更多
关键词 集对分析 多层实时网络 加密数据流 频繁项集 挖掘 干扰滤波 关联规则 最小支持度
下载PDF
基于隐结构模型和频繁项集的针刺治疗慢性前列腺炎辨证取穴规律
11
作者 胡创政 孙自学 +4 位作者 张宸铭 樊立鹏 华众 付晓君 门波 《世界中医药》 CAS 北大核心 2024年第8期1182-1187,共6页
目的:探讨针刺治疗慢性前列腺炎的辨证取穴规律,为临床治疗慢性前列腺炎提供帮助。方法:检索国家知识基础设施数据库(CNKI)、中文科技期刊数据库(CCD)等数据库中关于针刺辨证论治慢性前列腺炎的文献,构建包含症状、证型、穴位处方的慢... 目的:探讨针刺治疗慢性前列腺炎的辨证取穴规律,为临床治疗慢性前列腺炎提供帮助。方法:检索国家知识基础设施数据库(CNKI)、中文科技期刊数据库(CCD)等数据库中关于针刺辨证论治慢性前列腺炎的文献,构建包含症状、证型、穴位处方的慢性前列腺炎病历数据库,运用隐结构模型分析、频繁项集等方法,分析针刺治疗慢性前列腺炎的辨证取穴规律。结果:共纳入文献64篇,涉及穴位91个,症状248项。高频穴位如三阴交、中极等;高频症状包括舌体瘀点瘀斑、苔黄腻、滴白、尿急等;构建隐结构模型,得出慢性前列腺炎主要证型有湿热下注、肾阳不足等;挖掘出症状-穴位频繁项集、症状-证型-穴位频繁项集各4项。症状-穴位频繁项集如“尿急+滴白+阳痿+早泄+肾俞+足三里”,症状-证型-穴位频繁项集如“尿频+尿急+苔黄腻+滴白+舌体瘀点瘀斑+湿热瘀阻+三阴交+会阴”,提示治疗时可根据相应症状判定证型及选择对应穴位。结论:针刺治疗慢性前列腺炎多以三阴交、中极、关元等为主要穴位,穴位配伍依据临床情况辨证选穴,此可为临床治疗慢性前列腺炎提供参考。 展开更多
关键词 隐结构模型 频繁项集 慢性前列腺炎 数据挖掘 辨证取穴规律 针刺 穴位 APRIORI算法
下载PDF
基于大数据技术的信息频繁项集挖掘研究 被引量:5
12
作者 张胜祥 石超 +1 位作者 姜欣 张迎 《自动化与仪器仪表》 2020年第11期42-45,共4页
针对传统信息频繁项集挖掘方法,在挖掘过程当中冗余数据项集较多,导致运行时间过长的问题,提出基于大数据技术的信息频繁项集挖掘研究。分析数据之间的关联规则,利用关联规则算法,获得各数据节点的局部频繁项集,根据映射原理,参考事务... 针对传统信息频繁项集挖掘方法,在挖掘过程当中冗余数据项集较多,导致运行时间过长的问题,提出基于大数据技术的信息频繁项集挖掘研究。分析数据之间的关联规则,利用关联规则算法,获得各数据节点的局部频繁项集,根据映射原理,参考事务库的存储结构,通过相关计算,得到数据主要特征,利用BP神经网络的反向传播算法,按照实际需求,修正权值方向,压缩数据事务库,生成频繁模式树,至此完成基于大数据技术的信息频繁项集挖掘研究。设计仿真实验,将传统信息频繁项集挖掘方法,与所提出方法相对照,分析所得结果表明,将大数据技术应用到信息频繁项集挖掘当中,能够有效减少冗余数据项集,缩短运行时长。 展开更多
关键词 大数据技术 频繁项集 数据挖掘 关联规则 目标事务库 特征提取
原文传递
基于前缀树的高效频繁项集挖掘算法 被引量:5
13
作者 才科扎西 黄景廉 《计算机工程》 CAS CSCD 北大核心 2010年第4期42-44,共3页
针对频繁项集挖掘时间与空间效率低的问题,提出一种基于前缀树的高效频繁项集挖掘算法,通过对事务集进行预处理,创建索引表并分配索引编号,保证前缀树中事务顺序的一致性,根据索引编号等信息创建紧凑的前缀树,采用自底向上的挖掘与投影... 针对频繁项集挖掘时间与空间效率低的问题,提出一种基于前缀树的高效频繁项集挖掘算法,通过对事务集进行预处理,创建索引表并分配索引编号,保证前缀树中事务顺序的一致性,根据索引编号等信息创建紧凑的前缀树,采用自底向上的挖掘与投影的方式挖掘出频繁项集。实验结果表明,该算法挖掘效率高、占用空间少。 展开更多
关键词 频繁项集 数据挖掘 前缀树
下载PDF
面向文本的本体学习方法 被引量:4
14
作者 王俊华 左万利 彭涛 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第1期236-244,共9页
借助文本预处理工具Gate和通用本体Word Net,采用统计、频繁项挖掘、模式匹配、启发式学习和主动学习等技术,学习本体基元——概念(含实例)、概念间的分类关系、概念间的语义关系和概念属性,其中概念属性学习为本文首次提出。实验结果表... 借助文本预处理工具Gate和通用本体Word Net,采用统计、频繁项挖掘、模式匹配、启发式学习和主动学习等技术,学习本体基元——概念(含实例)、概念间的分类关系、概念间的语义关系和概念属性,其中概念属性学习为本文首次提出。实验结果表明,本文方法改善了概念语义排歧效果,丰富了短语概念学习与语义关系学习,提高了本体自动构建的准确度,降低了本体学习的代价。 展开更多
关键词 人工智能 本体学习 主动学习 模式匹配 频繁项挖掘 启发式学习
下载PDF
隐私保护频繁项集挖掘中的分组随机化模型 被引量:4
15
作者 郭宇红 童云海 《华侨大学学报(自然科学版)》 CAS 北大核心 2020年第2期230-236,共7页
通过对隐私保护频繁项集挖掘问题的研究,发现现有的单参数随机化回答模型调控的数据范围宽、粒度粗,导致无法实现精细化、差异化的隐私保护的问题.在沃纳模型、单参数等随机化模型的基础上,提出个体分组多参随机化PN/g模型,给出其在隐... 通过对隐私保护频繁项集挖掘问题的研究,发现现有的单参数随机化回答模型调控的数据范围宽、粒度粗,导致无法实现精细化、差异化的隐私保护的问题.在沃纳模型、单参数等随机化模型的基础上,提出个体分组多参随机化PN/g模型,给出其在隐私保护频繁项集挖掘中的支持度重构方法.研究结果表明:该模型面向多样化、差异化的隐私保护需求,将N个不同个体分为若干组,每组设置不同的随机化参数,可实现差异化的隐私保护效果.实例分析表明:结合所提出的支持度重构方法,可实现基于分组随机化的隐私保护频繁项集挖掘,在保护不同群体隐私的同时,挖掘到有效的频繁项集与关联规则. 展开更多
关键词 随机化回答 隐私保护 频繁项集 支持度重构 数据挖掘 沃纳模型
下载PDF
基于计数的数据流频繁项挖掘算法 被引量:4
16
作者 祝然威 王鹏 刘马金 《计算机研究与发展》 EI CSCD 北大核心 2011年第10期1803-1811,共9页
挖掘数据流的频繁项已受到广泛关注,经典的频繁项挖掘算法尽管能够比较好地找到频繁项,但对频繁项频数的估计往往存在较大误差.SRoEC(segment rotative efficient count),SReEC(segment reserve efficient count)和RFreq(reserve freque... 挖掘数据流的频繁项已受到广泛关注,经典的频繁项挖掘算法尽管能够比较好地找到频繁项,但对频繁项频数的估计往往存在较大误差.SRoEC(segment rotative efficient count),SReEC(segment reserve efficient count)和RFreq(reserve frequent)算法针对该问题,继承基于计数的算法思想,将计数器进行划分并定义相应的操作,以期提高频数统计准确度并减小"噪音"影响.实验和数据分析表明,这些算法不仅能够保证频数超过阈值的数据项都能被找到,而且大大提高了频繁项频数统计的准确性.在同样空间代价下,算法无论在模拟数据集和真实数据集实验中,都表现出较高的频数准确率、较低的频数偏差率和较高的频数保有率,尤其是数据分布较平缓时,算法优势更加明显. 展开更多
关键词 频繁项 Top—K 数据流 数据挖掘 频数估计
下载PDF
基于位编码链表的快速频繁模式挖掘算法研究 被引量:3
17
作者 顾军华 苏鸣 +1 位作者 张亚娟 张丹红 《计算机工程与应用》 CSCD 北大核心 2020年第19期86-93,共8页
多数基于FP-growth思想的频繁模式挖掘算法存在建树过程复杂、支持度计算繁琐的问题。针对这些问题,提出一种基于位编码链表(Bitmap-Code List,BC-List)的频繁项集挖掘算法(BC-List Frequent Itemsets Mining,BCLFIM)。该算法首先采用... 多数基于FP-growth思想的频繁模式挖掘算法存在建树过程复杂、支持度计算繁琐的问题。针对这些问题,提出一种基于位编码链表(Bitmap-Code List,BC-List)的频繁项集挖掘算法(BC-List Frequent Itemsets Mining,BCLFIM)。该算法首先采用基于位图表示的节点编码模型生成位图树(BC-tree),以BC-tree的节点信息作为数据结构通过按位运算来快速获取BC-List的节点集,避免了复杂的交集运算,提高了连接效率;其次通过使用超集等价和支持度计数剪枝策略,缩小了挖掘频繁模式的搜索空间。实验结果证明,该算法相比于FIN算法和DFIN算法具有更快的挖掘速度。 展开更多
关键词 频繁项集挖掘 关联规则 剪枝策略 位图编码
下载PDF
空间数据库中有效数据频繁项检测仿真研究 被引量:3
18
作者 郑斌 《计算机仿真》 北大核心 2017年第4期444-447,共4页
对空间数据库中有效数据频繁项检测,可以提高有效数据搜索的效率。进行有效数据频繁项检测时,应计算频繁项集的支持度概率和频繁概率,获取空间数据库中有效数据概率矩阵完成检测,但是传统方法通过利用大量候选集对频繁项进行检测,不能... 对空间数据库中有效数据频繁项检测,可以提高有效数据搜索的效率。进行有效数据频繁项检测时,应计算频繁项集的支持度概率和频繁概率,获取空间数据库中有效数据概率矩阵完成检测,但是传统方法通过利用大量候选集对频繁项进行检测,不能精确计算频繁项集的支持度概率和频繁概率,无法建立空间数据库中有效数据概率检测矩阵,存存挖掘误差大的问题。提出一种基于概率衰减窗口的空间数据库中有效数据频繁项挖掘方法。上述方法先根据概率密度函数给出空间数据库中不确定有效数据概率,计算出单位时间内模式期望支持度的衰减比率,组建有效数据概率频繁项集,计算出各个频繁项集的支持度概率和频繁概率,获取空间数据库的不确定有效数据概率矩阵,计算出项集的频繁概率,在此基础上完成对空间数据库中有效数据频繁项挖掘。仿真结果表明,所提方法挖掘精确度高,可以有效地挖掘出空间数据库中有效数据频繁项。 展开更多
关键词 空间数据库 有效数据 频繁项 挖掘
下载PDF
基于贝叶斯粗糙集的大数据频繁项挖掘技术 被引量:3
19
作者 张本文 《科技通报》 北大核心 2015年第6期211-213,共3页
对大数据的频繁项集挖掘是关联规则挖掘的关键步骤,通过有效的频繁项挖掘提高大数据量数据库的访问效率。传统方法中对大数据的频繁项集挖掘采用FP-Growth的粗糙集挖掘算法,扩展性和容错性不好。提出一种基于贝叶斯粗糙集的大数据频繁... 对大数据的频繁项集挖掘是关联规则挖掘的关键步骤,通过有效的频繁项挖掘提高大数据量数据库的访问效率。传统方法中对大数据的频繁项集挖掘采用FP-Growth的粗糙集挖掘算法,扩展性和容错性不好。提出一种基于贝叶斯粗糙集的大数据频繁项挖掘技术,引入后缀项表的概念,通过后缀项表的构建,保留频繁项集的完整信息。构建FP-Tree,生成闭频繁项集,计算样本的密度,并抽取高密度区域的点集作为聚类中心集合,进行后缀项表的构造,按支持度分成若干集合,对各约简集内的属性集合进行融合,用变精度粗糙集的贝叶斯粗糙进行数据挖掘算法改进,仿真结果表明,算法不受可变参数的影响,鲁棒性较高,数据挖掘的准确度较高,运行时间较短。算法将在人工智能和数据挖掘领域具有更广的应用前景。 展开更多
关键词 贝叶斯粗糙集 频繁项挖掘 大数据
下载PDF
一种二进制私有协议字段格式划分方法 被引量:3
20
作者 秦中元 陆凯 +1 位作者 张群芳 黄星期 《小型微型计算机系统》 CSCD 北大核心 2019年第11期2318-2323,共6页
针对现有基于频繁项挖掘的协议字段格式划分方法以字节作为划分的基本单位,不能完全适用于二进制私有协议数据,以及在挖掘得到频繁项集合后缺乏有效的格式划分定界方法的问题,该文提出了一种改进的基于频繁项挖掘的协议字段格式划分方法... 针对现有基于频繁项挖掘的协议字段格式划分方法以字节作为划分的基本单位,不能完全适用于二进制私有协议数据,以及在挖掘得到频繁项集合后缺乏有效的格式划分定界方法的问题,该文提出了一种改进的基于频繁项挖掘的协议字段格式划分方法.通过构建半字节为最小长度的、长度逐渐增加的最大项集,并采用常见度和位置熵指标进行频繁项筛选,最后基于正向最大匹配进行投票以及对投票结果进行筛选来完成格式划分.仿真实验结果表明,该文方案能够得到比传统的AutoRe Engine方案更高的精确度. 展开更多
关键词 网络流量 协议逆向 频繁项挖掘 格式划分
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部