摘要
大数据一体机作为大数据时代的基础设施,其自主安全可控显得尤为重要。基因数据因其巨大的社会价值、经济价值及军事价值,其安全是国家安全的一部分。因此,存储、分析与处理基因数据是国产处理器大数据一体机的重要应用之一。文中首先介绍了国产处理器大数据一体机和基因序列文件主要格式,然后分为无参考序列基因压缩算法和基于参考序列基因压缩算法综述了FASTA格式基因数据压缩技术及基因压缩并行化技术的发展历程和研究现状,同时在国产处理器大数据一体机上验证了近年来优秀基因压缩算法的性能。研究面向国产处理器大数据一体机的基因压缩技术对解决基因数据安全和基因压缩技术自主可控具有很重要的意义,也为我国基因处理技术的全面国产化提供了参考。
As an infrastructure in the era of big data,an independent,safe and controllable big data machine is particularly important.Because of its huge social value,economic value and military value,genomic data are a part of national security.Therefore,storing,analyzing and processing genomic data is one of the important applications of the domestic processor big data machine.This paper firstly introduces the domestic processor big data machine and the main file formats of the genome sequence,and then reviews the reference-free genome compression algorithms and the reference-based genome compression algorithms.Meanwhile,the paper verifys the performance of the state-of-the-art genome compression algorithms in recent years on the domestic processor big data machine.The research on the genome compression technology for domestic processor big data machine is of great significance to solving the safety problems of genomic data and the independent control of the genome compression technology.The technology provides a reference for the domestic production of genome processing technologies in China.
作者
陈国良
尧海昌
陈帅
吴梦雪
方厚之
法虎
孟朝霞
刘尚东
王汝传
季一木
CHEN Guoliang;YAO Haichang;CHEN Shuai;WU Mengxue;FANG Houzhi;FA Hu;MENG Zhaoxia;LIU Shangdong;WANG Ruchuan;JI Yimu(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;School of Computer and Software,Nanjing Vocational University of Industry Technolog,Nanjing 210023,China;Institute of High Performance Computing and Bigdata,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;Nanjing Center of HPC China,Nanjing 210023,China;Jiangsu HPC and Intelligent Processing Engineer Research Center,Nanjing 210023,China)
出处
《南京邮电大学学报(自然科学版)》
北大核心
2020年第5期11-26,共16页
Journal of Nanjing University of Posts and Telecommunications:Natural Science Edition
基金
国家重点研发计划专项(2017YFB0202203)
江苏省重点研发计划(BE2017166)
江苏省自然科学基金(BK20170900)
江苏省六大人才高峰项目(19KJB520046)
南京邮电大学鼎山人才培养对象项目
江苏省高等学校自然科学研究项目(19KJD520006)
江苏省研究生科研创新计划(KYCX19_0906)
江苏省现代教育技术立项课题(2019-R-67748)
江苏省教育厅工业软件工程技术研究开发中心开放基金资助项目。
关键词
国产处理器
大数据一体机
基因压缩
并行计算
domestic processor
big data machine
genome compression
parallel computing