期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
带通配符和One-Off条件的序列模式挖掘 被引量:23
1
作者 吴信东 谢飞 +2 位作者 黄咏明 胡学钢 高隽 《软件学报》 EI CSCD 北大核心 2013年第8期1804-1815,共12页
很多应用领域产生大量的序列数据.如何从这些序列数据中挖掘具有重要价值的模式,已成为序列模式挖掘研究的主要任务.研究这样一个问题:给定序列S、支持度阈值和间隔约束,从序列S中挖掘所有出现次数不小于给定支持度阈值的频繁序列模式,... 很多应用领域产生大量的序列数据.如何从这些序列数据中挖掘具有重要价值的模式,已成为序列模式挖掘研究的主要任务.研究这样一个问题:给定序列S、支持度阈值和间隔约束,从序列S中挖掘所有出现次数不小于给定支持度阈值的频繁序列模式,并且要求模式中任意两个相邻元素在序列中的出现位置满足用户定义的间隔约束.设计了一种有效的带有通配符的模式挖掘算法One-Off Mining,模式在序列中的出现满足One-Off条件,即模式的任意两次出现都不共享序列中同一位置的字符.在生物DNA序列上的实验结果表明,One-Off Mining比相关的序列模式挖掘算法具有更好的时间性能和完备性. 展开更多
关键词 数据挖掘 序列模式挖掘 频繁模式 通配符 one-off条件
下载PDF
一般间隙及一次性条件的严格模式匹配 被引量:9
2
作者 柴欣 贾晓菲 +2 位作者 武优西 江贺 吴信东 《软件学报》 EI CSCD 北大核心 2015年第5期1096-1112,共17页
具有间隙约束的模式匹配是序列模式挖掘的关键问题之一.一次性条件约束是要求序列中每个位置的字符最多只能使用一次,在序列模式挖掘中采用一次性条件约束更加合理.但是目前,间隙约束多为非负间隙,非负间隙对字符串中每个字符的出现顺... 具有间隙约束的模式匹配是序列模式挖掘的关键问题之一.一次性条件约束是要求序列中每个位置的字符最多只能使用一次,在序列模式挖掘中采用一次性条件约束更加合理.但是目前,间隙约束多为非负间隙,非负间隙对字符串中每个字符的出现顺序具有严格的约束,一定程度上限定了匹配的灵活性.为此,提出了一般间隙及一次性条件的严格模式匹配问题;之后,理论证明了该问题的计算复杂性为NP-Hard问题.为了对该问题进行有效求解,在网树结构上构建了动态更新结点信息的启发式求解算法(dynamically changing node property,简称DCNP).该算法动态地更新各个结点的树根路径数、叶子路径数和树根-叶子路径数等,进而每次可以获得一个较优的出现;之后,迭代这一过程.为了有效地提高DCNP算法速度,避免动态更新大量的结点信息,提出了Checking机制,使得DCNP算法仅在可能产生内部重复出现的时候才进行动态更新.理论分析了DCNP算法的时间复杂度和空间复杂度.大量实验结果验证了DCNP算法具有良好的求解性能. 展开更多
关键词 一般间隙 模式匹配 一次性条件 网树
下载PDF
基于通配符和长度约束的近似模式匹配算法 被引量:5
3
作者 黄国林 郭丹 胡学钢 《计算机应用》 CSCD 北大核心 2013年第3期800-805,共6页
针对近似模式匹配算法在处理带有灵活通配符和长度约束近似模式匹配(APMWL)问题时只能解决替换操作,提出一种基于动态规划的编辑距离矩阵(EDM)构造方法,设计了基于EDM的近似模式匹配算法APM,可以处理近似匹配中的三种编辑操作,即插入、... 针对近似模式匹配算法在处理带有灵活通配符和长度约束近似模式匹配(APMWL)问题时只能解决替换操作,提出一种基于动态规划的编辑距离矩阵(EDM)构造方法,设计了基于EDM的近似模式匹配算法APM,可以处理近似匹配中的三种编辑操作,即插入、替换和删除操作。此外,根据文本中字符是否允许被重复使用的约束条件,设计APM-OF算法。实验结果表明,APM和APM-OF与同类算法相比具备显著的优势:与Sail_Approx匹配算法实验对比,获取解的平均增长率分别达到8.34%和12.37%;将APM-OF算法应用至模式挖掘中,挖掘出的频繁近似模式个数为OneoffMining算法的2.07倍。 展开更多
关键词 近似匹配 通配符 长度约束 编辑距离矩阵 oneoff条件
下载PDF
高效的一次性弱间隙序列模式挖掘算法
4
作者 杨鸿茜 武优西 +2 位作者 耿萌 刘靖宇 李艳 《计算机工程》 CAS CSCD 北大核心 2024年第3期60-67,共8页
间隙约束序列模式挖掘作为序列模式挖掘的一个重要分支,可以发现模式在序列中的重复出现。然而,当前研究主要针对单项序列进行挖掘,并且序列中每一项都被认为具有相同意义。为解决该问题,提出一次性弱间隙序列模式挖掘(OWP)算法,该算法... 间隙约束序列模式挖掘作为序列模式挖掘的一个重要分支,可以发现模式在序列中的重复出现。然而,当前研究主要针对单项序列进行挖掘,并且序列中每一项都被认为具有相同意义。为解决该问题,提出一次性弱间隙序列模式挖掘(OWP)算法,该算法由准备阶段、支持度计算和候选模式生成3个步骤组成。在准备阶段,建立倒排索引,并对不频繁的项进行剪枝;在支持度计算方面,利用倒排索引结构记录出现位置,避免对原始数据集的重复扫描;在候选模式生成方面,采用模式连接策略,减少冗余候选模式的生成。在项集序列和单项序列共6个真实数据集上的实验结果表明,OWP算法相比OWP-p、Ows-OWP和OWP-e算法在运行时间上分别提升了2.653、1.348、3.592倍,在内存消耗上分别减少了3.51%、0.07%、5%,说明OWP算法可以更高效地挖掘出用户感兴趣的模式。此外,OWP算法在以D1数据集为基础的6倍大小的数据集上的运行时间比D1数据集增长了3.763倍,内存消耗增长了2.310倍,运行时间和内存消耗的增加倍数均小于数据集大小的增加倍数,说明OWP算法具有良好的可扩展性。 展开更多
关键词 序列模式挖掘 项集挖掘 间隙约束 一次性条件 弱间隙约束
下载PDF
一次性条件下top-k高平均效用序列模式挖掘算法
5
作者 杨克帅 武优西 +2 位作者 耿萌 刘靖宇 李艳 《计算机应用》 CSCD 北大核心 2024年第2期477-484,共8页
针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首... 针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。 展开更多
关键词 数据挖掘 序列模式挖掘 高平均效用 一次性条件 TOP-K
下载PDF
一般间隙与One-Off条件的序列模式匹配 被引量:3
6
作者 刘慧婷 刘志中 +1 位作者 黄厚柱 吴信东 《软件学报》 EI CSCD 北大核心 2018年第2期363-382,共20页
带有间隙约束的模式匹配问题是序列模式挖掘的关键问题之一.目前,大多数的研究都为非负间隙,对字符串中每个字符的出现顺序有着严格的要求.为了增加匹配的灵活性,并且考虑到在序列模式挖掘中采用one-off条件更加合理,研究一般间隙与one-... 带有间隙约束的模式匹配问题是序列模式挖掘的关键问题之一.目前,大多数的研究都为非负间隙,对字符串中每个字符的出现顺序有着严格的要求.为了增加匹配的灵活性,并且考虑到在序列模式挖掘中采用one-off条件更加合理,研究一般间隙与one-off条件下的模式匹配问题.该问题为NP-Hard问题.为了有效地求解该问题,提出了MSAING(maximum sequential pattern matching with one-off and general gaps condition)算法:首先,利用Reverse策略使模式与序列达到最佳的匹配状态;然后,使用线性表的结构使匹配过程中消耗的时间和空间大幅度地降低,同时,利用回溯机制提高匹配的成功率;最后,根据inside_Checking机制判断模式串是否会产生内部重复现象,以进一步提高算法的执行效率.理论证明了MSAING算法的完备性,实验结果验证了MSAING算法匹配结果的准确性以及在时间和空间方面的高效性. 展开更多
关键词 一般间隙 one-off条件 模式匹配 线性表
下载PDF
带通配符的多序列模式挖掘 被引量:1
7
作者 马晓文 胡学钢 +1 位作者 谢飞 郭丹 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第2期226-234,共9页
带有通配符的多序列模式挖掘在文本检索、网络安全、生物科学等领域中具有很重要的作用.通过挖掘多序列模式,能够透彻的了解序列之间的联系,在各个领域中具有重要的现实意义.在已有的工作中,随着多序列集长度的增大,挖掘的规模呈现指数... 带有通配符的多序列模式挖掘在文本检索、网络安全、生物科学等领域中具有很重要的作用.通过挖掘多序列模式,能够透彻的了解序列之间的联系,在各个领域中具有重要的现实意义.在已有的工作中,随着多序列集长度的增大,挖掘的规模呈现指数级增长.研究这样一个问题:给定多条序列s1,…,sn,支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于给定支持度阈值的频繁序列模式,并且要求模式中任意两个相邻元素在序列中的出现位置满足用户定义的间隔约束.设计了一个有效的算法M-OneOffMine,模式在序列中的出现满足one-off条件.在生物DNA序列上的实验结果表明,M-OneOffMine算法比相关的序列模式挖掘算法具有更好的时间性能. 展开更多
关键词 多序列 间隔约束 通配符 one-off条件 频繁模式
下载PDF
带有间隔约束的多序列模式挖掘
8
作者 王华东 杨杰 李亚娟 《计算机应用》 CSCD 北大核心 2014年第9期2612-2616,2634,共6页
研究这样一个问题:给定多序列、支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于支持度阈值的频繁序列模式,这里要求模式中任意两个相邻元素在序列中的出现都要满足用户自定义的间隔约束,并且模式在序列中的出现要满足one-off... 研究这样一个问题:给定多序列、支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于支持度阈值的频繁序列模式,这里要求模式中任意两个相邻元素在序列中的出现都要满足用户自定义的间隔约束,并且模式在序列中的出现要满足one-off条件。在解决该问题上,已有算法M-OneOffMine在计算模式的支持度时,只考虑模式的每个字符在序列中的首次出现,导致计算的模式支持度远小于其真实支持度,以致许多频繁的模式没有被挖掘出来。为此,设计了一个有效的带有间隔约束的多序列模式挖掘算法——MMSP算法:首先,通过采用二维表保存模式的候选位置;然后,根据候选位置采用最左最优的思想选择匹配位置。通过生物DNA序列进行实验,多序列中元素序列数目不变而序列长度变化时,MMSP挖掘出的频繁模式总数是同类算法M-OneOffMine的3.23倍;在元素序列个数变化时,MMSP挖掘出的频繁模式个数平均是M-OneOffMine的4.11倍;这两种情况下MMSP都有更好的时间性能。在模式长度变化时,MMSP挖掘出的频繁模式个数分别平均是M-OneOffMine的2.21倍和MPP的5.24倍。同时还验证了M-OneOffMine挖掘到的模式是MMSP挖掘到的频繁的子集。实验结果表明,MMSP算法不仅可以挖掘到更多的频繁模式,而且时间花费更少,更适合于实际的应用。 展开更多
关键词 多序列模式挖掘 间隔约束 频繁模式 one-off条件
下载PDF
求解PMWOC问题的位并行算法
9
作者 张浩 叶明全 《计算机应用研究》 CSCD 北大核心 2015年第10期2973-2977,共5页
带有灵活通配符和One-Off条件的模式匹配问题(pattern matching with flexible wildcards and One-Off condition,PMWOC)具有重要的理论意义和实际应用价值。给定带灵活通配符的模式和文本,目标是在线的计算模式在文本中的出现次数和匹... 带有灵活通配符和One-Off条件的模式匹配问题(pattern matching with flexible wildcards and One-Off condition,PMWOC)具有重要的理论意义和实际应用价值。给定带灵活通配符的模式和文本,目标是在线的计算模式在文本中的出现次数和匹配位置,这里要求任何两次出现不能共享文本同一位置,即One-Off条件。提出了一个基于位并行的搜索算法,采用了非确定有限自动机(nondeterministic finite automatons,NFA)对文本进行扫描。通过理论和实验证明,与其他解决相同问题的算法对比,该算法取得更好的时间性能和空间性能,而且不受模式长度变化和通配符间距变化影响。 展开更多
关键词 模式匹配 通配符 one-off条件
下载PDF
水质时间序列模式挖掘
10
作者 夏达 李士进 《计算机技术与发展》 2018年第5期149-153,共5页
对水质时间序列进行数据挖掘,找出其蕴含的模式,对于水资源的改善有重要的现实意义。针对带间隔约束的有序时间序列的模式挖掘,现有算法多按左优先匹配以完备性为代价加快效率或枚举可能位置损失效率提高完备性。为了提高模式挖掘的效... 对水质时间序列进行数据挖掘,找出其蕴含的模式,对于水资源的改善有重要的现实意义。针对带间隔约束的有序时间序列的模式挖掘,现有算法多按左优先匹配以完备性为代价加快效率或枚举可能位置损失效率提高完备性。为了提高模式挖掘的效率同时保证一定的完备性,提出一种满足One-Off条件的带有间隔约束的单序列模式挖掘算法FOFM(fast one-offing mining)。算法首先扫描序列获得长度为1的模式,再通过将当前长度的所有频繁模式进行两两比较,而后连接可连接的模式以形成新的模式,在模式连接的过程中记录候选模式最后事件的可能位置并通过回溯位置序列的方法检查模式的支持度,直至无法生成新的模式。实验结果表明,FOFM算法在水质时间序列上相较于相关序列模式挖掘算法拥有较高的效率和一定的完备性。 展开更多
关键词 数据挖掘 序列模式挖掘 间隔约束 one-off条件
下载PDF
求解PMWOC问题的算法
11
作者 张浩 侯宝剑 叶明全 《安徽师范大学学报(自然科学版)》 CAS 北大核心 2014年第3期242-246,251,共6页
带有灵活通配符和One-Off条件的模式匹配问题(Pattern Matching with flexible Wildcards and One-off Condition,PMWOC)在生物信息学、文本检索和数据流等领域都有着广泛的应用.给定带灵活通配符的模式和文本,在one-off条件下,已有算... 带有灵活通配符和One-Off条件的模式匹配问题(Pattern Matching with flexible Wildcards and One-off Condition,PMWOC)在生物信息学、文本检索和数据流等领域都有着广泛的应用.给定带灵活通配符的模式和文本,在one-off条件下,已有算法不能得到模式在文本中的完备解,即模式在文本中最大的出现数目.为此,设计一个求解该问题的算法:首先,利用动态规划的思想去获得模式的所有出现及匹配位置;然后,根据模式的完备解至少包含任意一次出现中的一个位置的思想获得模式解的集合.通过DNA数据进行实验,实验结果显示相对于已有的算法,该算法能够获得最多的出现解. 展开更多
关键词 模式匹配 通配符 oneoff条件
下载PDF
带可变长度空位和一次性条件的模式匹配
12
作者 田芳 《合肥学院学报(自然科学版)》 2014年第4期50-56,共7页
带可变长度空位和一次性条件的模式匹配是一种带通配符长度约束的模式匹配问题,主要目标是寻找模式在序列中的最多出现,要求序列中任何位置只能被使用一次.提出了一种基于网树在线的启发式算法,该算法首先通过模式中子模式的出现位置构... 带可变长度空位和一次性条件的模式匹配是一种带通配符长度约束的模式匹配问题,主要目标是寻找模式在序列中的最多出现,要求序列中任何位置只能被使用一次.提出了一种基于网树在线的启发式算法,该算法首先通过模式中子模式的出现位置构建网树;然后,从网树上选择使用次数最小的节点作为出现的位置;最后,对网树进行修剪,以达到满足一次性条件和加快搜索效率的目的.通过理论分析,该算法有更好的时间复杂度和空间复杂度.通过真实生物数据进行实验,实验结果表明,该算法与其他在线算法进行对比,可以获得更多的出现次数和更好的时间性能. 展开更多
关键词 可变长度空位 一次性条件 网树 模式匹配
下载PDF
求解近似模式匹配的启发式算法
13
作者 黄国林 郭丹 胡学钢 《计算机科学与探索》 CSCD 2013年第1期83-91,共9页
研究了带有灵活通配符和长度约束的近似模式匹配问题(approximate pattern matching with wildcards and length constraint,APMWL);为避免文本字符重复使用造成解的指数级增长,引入了一次性使用原则one_off条件,提出了一种后向构造编... 研究了带有灵活通配符和长度约束的近似模式匹配问题(approximate pattern matching with wildcards and length constraint,APMWL);为避免文本字符重复使用造成解的指数级增长,引入了一次性使用原则one_off条件,提出了一种后向构造编辑距离矩阵的BAPM(backward approximate pattern matching)算法。该算法在one_off条件、灵活通配符和长度约束条件的基础上,可同时处理插入、替换和删除三种编辑操作。与同类算法Sail_Approx进行实验对比,结果表明BAPM算法获取解的平均增长率可达18.99%,具备良好的解优势。 展开更多
关键词 近似匹配 通配符 长度约束 编辑距离矩阵 one_off条件
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部