(l,d)-模体识别问题的遗传优化算法被引量：6

Genetic Optimization for (l,d)-Motif Discovery

下载PDF

导出

摘要转录因子结合位点识别在基因表达调控过程中起着重要的作用.文中提出了一种贝叶斯模型驱动的模体识别的遗传优化算法GOBMD(Genetic Optimization with Bayesian Model for Motif Discovery).GOBMD首先使用一个基于位置加权散列的投影过程,将输入序列中的l-mers投影到k维(k<l)子空间,找出DNA序列中的起始良好候选模体,作为遗传算法的初始群体,以进一步求精.在遗传迭代过程中,采用结合贝叶斯模型的适应度函数指导进化过程.模拟数据的实验结果表明,与Gibbs、WINNOWER、SP-STAR、PROJECTION这些模体识别算法相比,GOBMD在对植入(l,d)-模体识别时有较好的性能,能够解决大部分挑战性的植入(l,d)-模体识别问题.此外,作者用Boxplot显示了上述模体识别算法在模拟数据识别上的性能系数分布,结果表明GOBMD具有较好的效率.针对真实生物序列的实验结果同样表明了GOBMD算法的有效性. Transcription factor binding site（TFBS） detection plays an important role in gene finding and understanding gene regulation relationship.Motifs are weakly conserved and motif discovery is a challenging problem.We propose a new approach called Genetic Optimization with Bayesian model for Motif Discovery（GOBMD）.GRBMA first uses a position-weight hashing based projection,which mapping the l-mers in DNA sequences into some k-demission subspaces（kl）,to find good starting candidates motifs.GOBMD then employs an effective genetic refinement to evolve the candidate motifs for further optimization.GOBMD also incorporates the Bayesian formula and relative entropy in its fitness to find the best configuration of sites locations.Experimental results on simulated data show that GOBMD can compete with Gibbs,WINNOWER,SP-STAR,PROJECTION on most implanted（l,d）-motif finding problems.We compare the performance coefficient scores for identifying（l,d）-motif finding problems by making separate box plots for each of the algorithms listed above.The experimental results on realistic biological data by identifying a number of known transcriptional regulatory motifs in eukaryotes also show that GOBMD can predict the TFBSs efficiently.

作者霍红卫郭丹丹于强张懿璞牛伟

机构地区西安电子科技大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2012年第7期1429-1439,共11页 Chinese Journal of Computers

基金国家自然科学基金(69601003) 博士点基金(20100203110010) 青年科学基金(60705004)资助

关键词模体识别遗传算法贝叶斯模型散列投影 motif identification genetic algorithm Bayesian model hashing projection

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献28

1Tompa M et al. Assessing computational tools for the discov- ery of transcription factor binding sites. Nature Biotechnology, 2005, 23(1): 137-144. 被引量：1
2Das Modan K, Dai Ho-Kwok. A survey of DNA motif find- ing algorithms. BMC Bioinformaties, 2007, 8(Suppl 7)~ $21. 被引量：1
3GuhaThakurta D. Computational identification of transcrip- tional regulatory elements in DNA sequence. Nucleic Acids Research, 2006, 34(12): 3585-3598. 被引量：1
4Sinha S, Tompa M. YMF: A program for discovery of novel transcription factor binding sites by statistical overrepresent- ation. Nucleic Acids Research, 2003, 31(13): 3586-3588. 被引量：1
5Pesole G, Prunella N, Liuni S, Attimonelli M, Saccone C.WORDUP: An efficient algorithm for discovering statistically significant patterns in DNA sequences. Nucleic Acids Research, 1992, 20(11): 2871-2875. 被引量：1
6Pavesi G, Mauri G, Pesole G. An algorithm for finding sig- nals of unknown length in DNA sequences. Bioinformatics, 2001, 17(1): S207-S214. 被引量：1
7Marsan L, Sagot M-F. Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification. Journal of Computa- tional Biology, 2000, 7(3-4): 345-362. 被引量：1
8Eskin E, Fevzner F A. l'inding composite regulatory pat- terns in DNA sequences. Bioinformatics, 2002, 18(1): 354-363. 被引量：1
9Pevzner P A, Sze S H. Combinatorial approaches to finding subtle signals in DNA sequenees//Proeeedings of the Inter- national Conference on Intelligent Systems for Molecular Bi- ology (ISMB). Price Center, UC San Diego, La Jolla,California, 2000, 8:269-278. 被引量：1
10GuhaThakurta D, Stormo G D. Identifying target sites for cooperatively binding factors. Bioinformatics, 2001, 17 (7) : 608-621. 被引量：1

二级参考文献17

1Lander E S, Linton L M, Birren Bet al, Initial sequencing and analysis of the human genome. Nature, 2001, 409 (6822) : 860-921. 被引量：1
2Saha Surya, Bridges Susan, Magbanua Zenaida V, Peterson Daniel G. Empirical comparison of ab initio repeat finding programs. Nucleic Acids Research, 2008, 36(7) : 2284-2294. 被引量：1
3Lefebvre A, Leeroq T, Dauchel H, Alexandre J. FORRepeats: Detects repeats on entire chromosomes and between genomes. Bioinformatics, 2003, 19(3): 319-326. 被引量：1
4Jones Nell C, Pevzner Pavel A. Introduction to Bioinformatics Algorithms. Cambridge, Massachusetts: MIT Press, 2004. 被引量：1
5Huntington's Disease Collaborative Research Group. A novel gene containing a trinucleotide repeat that is expanded an unstable on Huntington's disease chromosomes. Cell, 1993, 72(6), 971-983. 被引量：1
6Bergman Casey M, Quesneville Hadi. Discovering and detecting transposable elements in genome sequences. Briefings in Bioinformatics, 2007, 8(6) : 382-392. 被引量：1
7Pevzner P A, Tang H, Tesler G. De novo repeat classification and fragment assembly. Genome Research, 2004, 14 (9): 1786-1796. 被引量：1
8Kurtz S, Schleiermacher C. REPuter: Fast computation of maximal repeats in complete genomes. Bioinformatics, 1999, 15(5): 426-427. 被引量：1
9Price A L, Jones N C, Pevzner P A. De novo identification of repeat families in large genomes. Bioinformatics, 2005, 21 (Supplement) : i351-i358. 被引量：1
10Edgar R, Myers E. Piler: Identification and classification of genomic repeats. Bioinformatics, 2005, 21 (Supplement) : i152-i158. 被引量：1

共引文献3

1陈聪,韩建民,贾泂,辛德东.基于FSA的DNA重复体频率统计算法[J].计算机工程,2011,37(11):184-186.
2侯宝剑,谢飞,胡学钢,刘应玲,王海平.基于后缀树的带有通配符的模式匹配研究[J].计算机科学,2012,39(12):177-180. 被引量：7
3木妮娜.玉素甫,古丽娜.玉素甫,张海军.基于QSA数组计算序列中所有NE重复模式的算法[J].计算机科学,2014,41(3):249-252. 被引量：3

同被引文献40

1陈垚亮,洪骥,崔万云,肖仰华.BWA Plus:一个基于频繁序列的下一代基因比对工具[J].计算机研究与发展,2011,48(S3):391-394. 被引量：2
2徐肖豪,姚源.遗传算法在终端区飞机排序中的应用[J].交通运输工程学报,2004,4(3):121-126. 被引量：43
3杜春娟,朱云平,贺福初,曾衍钧.蛋白质家族模体(motif)的评价策略[J].北京生物医学工程,2005,24(2):97-102. 被引量：4
4罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机研究与发展,2006,43(7):1173-1179. 被引量：76
5葛宏伟,梁艳春.基于隐马尔可夫模型和免疫粒子群优化的多序列比对算法[J].计算机研究与发展,2006,43(8):1330-1336. 被引量：9
6杜耀华,倪青山,王正志.利用序列保守模体和局部构象信息预测转录因子结合位点[J].生命科学研究,2006,10(3):215-223. 被引量：4
7王维彬,钟润添.一种基于贪心EM算法学习GMM的聚类算法[J].计算机仿真,2007,24(2):65-68. 被引量：15
8胡旺,李志蜀.一种更简化而高效的粒子群优化算法[J].软件学报,2007,18(4):861-868. 被引量：334
9王宇平,李英华.求解TSP的量子遗传算法[J].计算机学报,2007,30(5):748-755. 被引量：71
10罗泽举,李艳会,宋丽红,朱思铭.基于隐马尔可夫模型的DNA序列识别[J].华南理工大学学报（自然科学版）,2007,35(8):123-126. 被引量：7

引证文献6

1张懿璞,霍红卫,于强,郭鸿志.用于转录因子结合位点识别的定位投影求精算法[J].计算机学报,2013,36(12):2545-2559. 被引量：2
2王洪波,荣岩,罗贺,王晓佳.基于流形学习的DNA序列数据挖掘方法研究[J].合肥工业大学学报（自然科学版）,2014,37(8):933-937. 被引量：2
3李丹程,曹斌,钟华刚,王威.改进GA-PSO算法在多跑道航班着陆调度中的应用[J].小型微型计算机系统,2014,35(9):2110-2115. 被引量：4
4张懿璞.一种新的DNA模体发现聚类求精算法[J].西安电子科技大学学报,2014,41(6):95-99. 被引量：1
5张斐.预测Motifs算法的改进评价策略[J].计算机与数字工程,2018,46(5):879-884.
6张斐.基于贪心EM的模体预测算法[J].计算机与数字工程,2018,46(6):1074-1077.

二级引证文献9

1刘杰,张淑艳.数据挖掘在检验医学中的应用[J].中华检验医学杂志,2015,38(12):888-890. 被引量：7
2王翠娥,李香林,崔冬华.复杂网络数据流的入侵数据检测方法仿真[J].计算机仿真,2015,32(12):272-275. 被引量：5
3幸小燕.基于多目标动态规划的多跑道进港排序研究[J].科技创新与应用,2016,6(5):54-54. 被引量：2
4张书琴,夏洪山,姜雨,战绪仁.用于跑道调度的约束多目标遗传模拟退火算法[J].华南理工大学学报（自然科学版）,2015,43(10):35-41. 被引量：1
5范全润,段振华.一种布尔子句的两阶段聚类方法[J].西安电子科技大学学报,2016,43(3):55-60.
6张书琴,姜雨,夏洪山,刘照明.基于遗传模拟退火算法的航班进离场调度[J].航空计算技术,2016,46(5):4-8. 被引量：2
7王菊,刘付显,靳春杰,李祯东.一种面向不确定数据流的模体发现算法[J].电子科技大学学报,2017,46(1):81-87. 被引量：3
8王菊,刘付显.一种面向多属性不确定数据流的模体发现算法[J].电子与信息学报,2017,39(1):159-166. 被引量：1
9马琳娜,鲁晓春,杨彦欢.双跑道混合起降的货运飞机起飞排序问题优化[J].计算机仿真,2020,37(7):44-47. 被引量：3

1刘玉荣,李涛.基于多态并行处理器的生物计算并行实现[J].计算机技术与发展,2014,24(8):55-58.
2陈昆,张小骏.MCL聚类算法求解植入(l,d)模体识别问题[J].河南大学学报（自然科学版）,2015,45(1):102-107. 被引量：2
3刘文远,田陆芳,王常武,王宝文.基于Gibbs采样与遗传算法的模体识别[J].计算机工程,2011,37(14):180-182.
4黄影.一种有效的后缀树建立方法[J].中国电子教育,2013(3):61-65. 被引量：1
5陈昆.计算机技术在转录因子结合位点识别的研究及应用[J].电子技术与软件工程,2014(20):189-191.
6张航,昝乡镇,刘志伟.生物网络模体识别算法概述[J].科协论坛（下半月）,2010(2):72-73.
7胡桂武.基于迁徙差分进化算法集成的模体识别[J].计算机工程,2008,34(11):12-14. 被引量：1
8张曙红,孙建勋,诸克军.基于遗传优化的采样模糊C均值聚类算法[J].系统工程理论与实践,2004,24(5):121-125. 被引量：21
9杨柳,刘铁英,李雪莲.混合群智能算法在模体识别中的应用[J].吉林大学学报（信息科学版）,2012,30(1):56-59. 被引量：1
10韩宗芬,邹建平,陶智飞,罗雅琴.并行防火墙系统的容错加权散列调度算法[J].华中科技大学学报（自然科学版）,2005,33(10):73-75. 被引量：1

计算机学报

2012年第7期

浏览历史

内容加载中请稍等...

(l,d)-模体识别问题的遗传优化算法被引量：6

参考文献28

二级参考文献17

共引文献3

同被引文献40

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

(l,d)-模体识别问题的遗传优化算法 被引量：6

参考文献28

二级参考文献17

共引文献3

同被引文献40

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

(l,d)-模体识别问题的遗传优化算法被引量：6