一种基于位置信息的高效DNA序列挖掘算法被引量：1

AN EFFICIENT POSITION-BASED DNA SEQUENCE MINING ALGORITHM

下载PDF

导出

摘要类Apriori算法在产生频繁模式时需要多次扫描数据库,并且产生大量的候选集;Free Span和Prefix Span等基于投影数据库的算法在产生频繁模式时会产生大量的投影数据库,占用很多内存空间,这些都造成了很大的冗余。针对以往序列挖掘算法存在的不足,提出一种高效的序列挖掘算法——基于位置信息的序列挖掘算法PBSMA(Position-Based Sequence Mining Algorithm)。PBSMA算法通过记录频繁子序列的位置信息来减少对数据库的扫描,利用位置信息逐渐扩大频繁模式的长度,并且借鉴关联矩阵的思想和Prefix Span算法中前缀的概念,深度优先去寻找更长的关键模式。实验结果证明,无论在时间还是空间上,PBSMA算法都比Prefix Span算法更高效。 Similar to Apriori algorithm in generating frequent patterns need to scan the database several times, and generate a large number of candidate sets. Algorithms based on the projection database, such as FreeSpan and PrefixSpan , in generating frequent patterns will produce a large number of projection database, taking up a lot of memory space, which have caused a lot of redundancy. Aiming at the shortcomings of the previous sequence mining algorithms, an efficient sequence mining algorithm named PBSMA is proposed in this paper. The PBSMA reduces the scanning of the database by recording the position information of frequent subsequences, and gradually enlarges the length of the frequent patterns by using the position information. The algorithm uses the idea of association matrix and the concept of prefix in PrefixSpan algorithm to search for a longer key pattern. The experimental results show that the PBSMA is more efficient than PrefixSpan algorithm both in time and space.

作者杨静欣毛国君

机构地区中央财经大学信息学院

出处《计算机应用与软件》 2017年第6期230-235,308,共7页 Computer Applications and Software

基金国家自然科学基金项目(61273293)

关键词序列挖掘 DNA序列位置信息关联矩阵前缀 Sequence mining DNA sequence Position information Association matrix Prefix

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1毛国君,段立娟,王实,石云编著..数据挖掘原理与算法第2版[M].北京:清华大学出版社,2007:329.
2陈卓,杨炳儒,宋威,宋泽锋.序列模式挖掘综述[J].计算机应用研究,2008,25(7):1960-1963. 被引量：24
3罗春雨,毛国君,邱洪君.序列分析技术在DNA序列挖掘中的应用[J].计算机系统应用,2005,14(12):22-25. 被引量：1
4张坤,朱扬勇.无重复投影数据库扫描的序列模式挖掘算法[J].计算机研究与发展,2007,44(1):126-132. 被引量：17
5张利军,李战怀,王淼.基于位置信息的序列模式挖掘算法[J].计算机应用研究,2009,26(2):529-531. 被引量：12
6刘栋,尉永清,薛文娟.基于Map Reduce的序列模式挖掘算法[J].计算机工程,2012,38(15):43-45. 被引量：2
7吴信东,谢飞,黄咏明,胡学钢,高隽.带通配符和One-Off条件的序列模式挖掘[J].软件学报,2013,24(8):1804-1815. 被引量：23
8刘端阳,冯建,李晓粉.一种基于逻辑的频繁序列模式挖掘算法[J].计算机科学,2015,42(5):260-264. 被引量：9
9朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37
10熊赟,陈越,朱扬勇.DnaReSM:一个基于多支持度的DNA重复序列挖掘算法[J].计算机科学,2007,34(2):211-212. 被引量：4

二级参考文献101

1吕静,王晓峰,Osei Adjei,Fiaz Hussain.序列模式图及其构造算法[J].计算机学报,2004,27(6):782-788. 被引量：16
2牛兴雯,杨冬青,唐世渭,王腾蛟.OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[J].计算机研究与发展,2004,41(10):1760-1767. 被引量：4
3Jia-WeiHan,JianPei,Xi-FengYan.From Sequential Pattern Mining to Structured Pattern Mining： A Pattern-Growth Approach[J].Journal of Computer Science & Technology,2004,19(3):257-279. 被引量：18
4邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
5邓绪斌,朱扬勇.L-Tree Match： A New Data Extraction Model and Algorithm for Huge Text Stream with Noises[J].Journal of Computer Science & Technology,2005,20(6):763-773. 被引量：4
6李冬冬,王正志,倪青山.一种有效的重复序列识别算法[J].生物信息学,2005,3(4):163-166. 被引量：2
7邓绪斌,朱扬勇.ReDE:一个基于正则表达式的生物数据抽取方法[J].计算机研究与发展,2005,42(12):2184-2191. 被引量：8
8王国仁,葛健,徐恒宇,郑若石.基于二分频率变换的序列相似性查询处理技术[J].软件学报,2006,17(2):232-241. 被引量：8
9王涛.在有噪音的环境中挖掘序列模式精简基[J].华中科技大学学报（自然科学版）,2006,34(6):36-38. 被引量：1
10LI Rong,CAO Shunliang,LI Yuanyuan,TAN Hao,ZHU Yangyong,ZHONG Yang,LI Yixue.A measure of semantic similarity between gene ontology terms based on semantic pathway covering[J].Progress in Natural Science:Materials International,2006,16(7):721-726. 被引量：1

共引文献106

1赵静,李俊,龙春,万巍,杨帆.基于频繁项集挖掘的长周期异常行为检测[J].计算机应用研究,2020,37(S02):221-223. 被引量：2
2王伟娜,李陶深,陈庆锋.基于投影位置的序列模式挖掘算法[J].华中科技大学学报（自然科学版）,2012,40(S1):104-107.
3熊赟,邱伯仁,张坤,朱扬勇.Gen-Cluster:一个基因表达数据的高维聚类算法[J].复旦学报（自然科学版）,2008,47(2):135-146. 被引量：2
4陈卓,杨炳儒,宋威,宋泽锋.序列模式挖掘综述[J].计算机应用研究,2008,25(7):1960-1963. 被引量：24
5岳晓宁,井元伟.基于DNA序列数据挖掘算法研究[J].生物数学学报,2009,24(2):363-368. 被引量：7
6冯玉才,蒋涛,李国徽,朱虹.高效时序相似搜索技术[J].计算机学报,2009,32(11):2107-2122. 被引量：10
7吴永俊,郑诚,赵建伟.基于2-序列矩阵的序列模式增量式更新研究[J].微型机与应用,2009,28(21):70-73.
8王虎,丁世飞.序列模式挖掘研究与发展[J].计算机科学,2009,36(12):14-17. 被引量：33
9何宏,谭永红.基于计算智能的基因表达数据聚类分析研究进展[J].信息与控制,2009,38(6):743-751. 被引量：2
10朱扬勇,戴东波,熊赟.序列数据相似性查询技术研究综述[J].计算机研究与发展,2010,47(2):264-276. 被引量：13

同被引文献7

1焦雅,高静,张文广.两序列比对算法与软件研究进展[J].计算机应用与软件,2015,32(6):5-8. 被引量：7
2许俊富,谢江,顾永立,束俊辉,项超娟,张武.基于CUDA的生物序列数据算术编码并行压缩[J].计算机应用与软件,2016,33(12):26-29. 被引量：2
3孟倩.基于高通量测序的短序列生物数据压缩研究[J].计算机应用与软件,2017,34(4):22-27. 被引量：2
4赵晓永,陈晨.面向云平台的二代测序数据近似去重方法研究[J].计算机工程与应用,2017,53(23):1-5. 被引量：4
5吴建盛,冯巧遇,袁京洲,胡海峰,周家特,高昊.基于快速多示例多标记学习的G蛋白偶联受体生物学功能预测[J].计算机研究与发展,2018,55(8):1674-1682. 被引量：3
6曹春萍,张政.基于本体参考数据的生物医学本体融合模型研究[J].计算机应用与软件,2018,35(10):38-44. 被引量：3
7周卫星,石海鹤.高通量测序中序列拼接算法的研究进展[J].计算机科学,2019,46(5):36-43. 被引量：6

引证文献1

1李春良,宋卫星,徐勤业,贾瀚栋,李晓峰,柳楠.基于邻接的单面基因组片段填充问题研究进展[J].计算机应用与软件,2021,38(12):1-6. 被引量：2

二级引证文献2

1柳楠,卞忠勇,李洋,朱永琦.基于Contig的单面基因组框架填充2-近似算法[J].计算机技术与发展,2024,34(2):148-155.
2柳楠,李洋,卞忠勇.限制插入位置的单面基因组框架填充问题研究[J].软件导刊,2024,23(10):88-94.

1刘智萍.序列模式数据挖掘算法研究[J].科学与财富,2014(6):442-442.
2Zhuo Zhang,Dong-Dai Zhou,Hong-Ji Yang,Shao-Chun Zhong.A Service Composition Approach Based on Sequence Mining for Migrating E-learning Legacy System to SOA[J].International Journal of Automation and computing,2010,7(4):584-595. 被引量：1
3赵健.基于Fp-Tree频繁模式的挖掘算法[J].电子技术与软件工程,2017(10):163-165.
4张利军,李战怀,王淼.基于位置信息的序列模式挖掘算法[J].计算机应用研究,2009,26(2):529-531. 被引量：12
5软硬,慕宗昭.Extra Strength Partition—It——改造你的驱动器[J].新浪潮,1998(21):29-29.
6张亚鹏,叶娜,蔡东风.利用句法信息改进交互式机器翻译[J].中文信息学报,2017,31(2):42-48. 被引量：5
7王佳星,陈华辉.Wu-Manber算法的改进研究[J].移动通信,2017,41(10):63-69.
8虞保忠,郝继锋.物联网操作系统技术研究[J].航空计算技术,2017,47(3):102-104. 被引量：4
9宋睿.嵌入式Linux系统内存优化使用方法研究[J].中国新通信,2017,19(12):98-98.
10陈衡,刘玉文.基于二维数组和十字链表的Apriori算法[J].德州学院学报,2017,33(2):63-67. 被引量：1

计算机应用与软件

2017年第6期

浏览历史

内容加载中请稍等...

一种基于位置信息的高效DNA序列挖掘算法被引量：1

参考文献13

二级参考文献101

共引文献106

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于位置信息的高效DNA序列挖掘算法 被引量：1

参考文献13

二级参考文献101

共引文献106

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于位置信息的高效DNA序列挖掘算法被引量：1