期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
后基因组时代的基因组功能注释 被引量:33
1
作者 解涛 梁卫平 丁达夫 《生物化学与生物物理进展》 SCIE CAS CSCD 北大核心 2000年第2期166-170,共5页
基因组功能注释是后基因组时代功能基因组学研究的热点领域 .从基因组功能注释的研究内容与研究手段出发 ,重点综述了生物信息学在该领域方法学上的研究进展 ,并展望了今后的发展前景 .
关键词 基因组功能注释 后基因组时代 人类基因组计划
下载PDF
权重基因共表达网络分析在生物医学中的应用 被引量:14
2
作者 刘伟 李立 +1 位作者 叶桦 屠伟 《生物工程学报》 CAS CSCD 北大核心 2017年第11期1791-1801,共11页
高通量生物监测方法可以同时检测同一样本的上千个参数,其在生物医学中的应用越来越广泛,但如何系统地分析并从高通量数据中挖掘有用信息,仍是一项重要的课题。网络生物学的出现使人们对复杂生物系统有了更深刻的理解,组织/细胞功能执... 高通量生物监测方法可以同时检测同一样本的上千个参数,其在生物医学中的应用越来越广泛,但如何系统地分析并从高通量数据中挖掘有用信息,仍是一项重要的课题。网络生物学的出现使人们对复杂生物系统有了更深刻的理解,组织/细胞功能执行具有模块化特点。目前,相关网络(Correlation network)被越来越多地应用于生物信息学,权重基因共表达网络分析(Weighted gene co-expression network analysis,WGCNA)是描述样品基因表达相关模式的一种系统生物学工具。在此,对WGCNA在疾病分型及预后、发病机制和其他相关领域研究进展作一个较为系统的综述。首先,对WGCNA的原理、分析流程和优势缺点进行总结。其次,介绍如何用WGCNA研究疾病、正常组织、药物、进化和基因组注释。最后,结合新高通量技术展望WGCNA应用新空间。以期科研工作者能够对WGCNA的应用有所了解。 展开更多
关键词 权重基因共表达网络分析 高通量技术 疾病 正常组织 药物 进化 基因组注释
原文传递
药用美洲大蠊全基因组测序分析 被引量:12
3
作者 晋家正 李午佼 +4 位作者 牟必琴 沈咏梅 耿福能 岳碧松 范振鑫 《四川动物》 北大核心 2018年第2期121-126,共6页
以美洲大蠊Periplaneta americana为原料生产的康复新液等药品临床疗效显著,得到了广泛应用。本文以四川好医生攀西药业有限责任公司饲养的药用美洲大蠊为材料,首次采用Illumina Hi Seq 2000和Pac Bio SMRT测序平台开展了全基因组测序,... 以美洲大蠊Periplaneta americana为原料生产的康复新液等药品临床疗效显著,得到了广泛应用。本文以四川好医生攀西药业有限责任公司饲养的药用美洲大蠊为材料,首次采用Illumina Hi Seq 2000和Pac Bio SMRT测序平台开展了全基因组测序,并进行基因组组装、注释和分析。原始测序数据经过滤后得到1.4 Tb的二代测序数据和33.81 Gb的三代测序数据。组装结果表明,美洲大蠊基因组大小为3.26 Gb,这在已报道的昆虫基因组中仅次于东亚飞蝗Locusta migratoria。基因组重复序列含量为62.38%,杂合度为0.635%,表明其为复杂基因组。组装的Contig N50和scaffold N50长度分别为28.2 kb、315 kb,单拷贝基因完整性为88.1%,小片段文库测序数据平均比对率为99.8%,测序和组装质量满足后续分析要求。采用De novo预测、同源预测和基于转录本预测3种方法共注释到14 568个基因,其中92.4%的基因获得了功能注释。本研究首次完成了美洲大蠊的全基因组测序,也是大蠊属Periplaneta昆虫的第一个基因组,为美洲大蠊遗传进化分析和药用基因资源挖掘打下了重要基础。 展开更多
关键词 美洲大蠊 药用昆虫 全基因组测序 基因组装 基因注释
下载PDF
草地贪夜蛾基因组注释及分析 被引量:12
4
作者 叶昕海 杨义 +2 位作者 梅洋 肖花美 李飞 《环境昆虫学报》 CSCD 北大核心 2019年第4期706-717,共12页
草地贪夜蛾 Spodoptera frugiperda 近年来在我国迅速扩散,造成了重大的经济损失,引起社会关注。草地贪夜蛾基因组序列对深入研究其迁飞、入侵和抗药性等特性具有十分重要的作用。目前,已有5个版本的基因组序列被公开报道,但3个版本无... 草地贪夜蛾 Spodoptera frugiperda 近年来在我国迅速扩散,造成了重大的经济损失,引起社会关注。草地贪夜蛾基因组序列对深入研究其迁飞、入侵和抗药性等特性具有十分重要的作用。目前,已有5个版本的基因组序列被公开报道,但3个版本无基因组注释信息。除以 Sf 9细胞系为DNA来源的基因组版本外,其他版本的scaffold N50过小,拼接质量偏低。为此,本研究选取了scaffold N50最大的草地贪夜蛾 Sf 9细胞系基因组进行了蛋白编码基因注释。该版本的基因组重复序列占比28.1%。CEGMA评估显示该本版本基因组可覆盖93.6%的核心基因,BUSCO评估显示可覆盖90.8%的核心基因。利用OMIGA注释流程预测到25 699个蛋白质编码基因,详细的基因序列可从InsectBase网站获得(http://www.insect-genome.com/FAW/),其中具有GO注释的基因为 15 623个,具有KEGG注释的基因共有9 213个。选取了12个鳞翅目昆虫进行比较基因组学分析,发现草地贪夜蛾与斜纹夜蛾的亲缘关系最近,两者分化时间大约在1 284万年前。对12个鳞翅目昆虫蛋白质编码基因进行同源分析,在草地贪夜蛾中发现了2 490个单拷贝基因、891个鳞翅目特有基因、2 360个物种特异扩增基因和 4 180个物种特异基因。GO富集分析显示,2 360个物种特异扩增基因主要参与DNA整合、代谢相关的生物过程;4 180个物种特异基因主要参与酶活性、光感受、糖代谢等,KEGG通路富集发现草地贪夜蛾特异基因主要参与氨基酸代谢、糖代谢和Wnt信号通路。本研究结果丰富了草地贪夜蛾的基因信息,对进一步了解其生物学特性、开发新型绿色防控方法具有指导意义。 展开更多
关键词 草地贪夜蛾 基因组注释 比较基因组学 基因家族 进化
下载PDF
云斑天牛成虫触角转录组及嗅觉相关基因分析 被引量:12
5
作者 胡佳萌 徐丹萍 +3 位作者 卓志航 杨伟 杨桦 郑奕然 《应用昆虫学报》 CAS CSCD 北大核心 2019年第5期1037-1047,共11页
【目的】 建立云斑天牛Batocera horsfieldi (Hope)成虫触角转录组数据库,深入挖掘云斑天牛的基因数据信息。【方法】 采用高通量测序平台(Illumina HiSeq)对云斑天牛成虫触角进行转录组测序、序列组装及生物信息学分析。【结果】 云斑... 【目的】 建立云斑天牛Batocera horsfieldi (Hope)成虫触角转录组数据库,深入挖掘云斑天牛的基因数据信息。【方法】 采用高通量测序平台(Illumina HiSeq)对云斑天牛成虫触角进行转录组测序、序列组装及生物信息学分析。【结果】 云斑天牛成虫触角转录组共获得137 485条Transcript序列和69 214条Unigene序列;其中,Transcript序列平均长度1 142 bp,Unigene序列平均长度1 983 bp。将Unigene分别比对到NR、NT、SwissProt、KO、PFAM、GO、KOG数据库进行基因功能注释,NR注释41 636条,NT注释14 895条,KO注释19 287条,SwissProt注释33 442条,PFAM注释34 687条,GO注释35 321条,KOG注释20 582条。NR注释表明,72.0%的云斑天牛Unigene与赤拟谷盗Tribolium castaneum和中欧山松大小蠹Dendroctonus ponderosae具有相似性。基因功能注释分类表明,云斑天牛成虫触角转录组在GO数据库三大类中包含5个最主要功能,分别是细胞过程、代谢过程、单有机体过程、结合和催化活性,分别占20 912、19 086、17 202、21 477和15 823条Unigenes;云斑天牛转录组在KOG数据库26个功能目录共注释20 585条Unigenes,其中,翻译后修饰、蛋白质转换和伴侣共有1 977条,一般功能预测3 285条(最多),信号传导机制3 053条,合计8 315条占全部Unigenes 40.39%;总共19 287条Unigenes分至5个KEGG功能类别,其中细胞过程6 793条,环境信息处理6 255条,遗传信息处理3 038条,代谢3 852条,有机系统3 508条。进一步基因功能注释分析筛选得到161个嗅觉相关基因,包含96个气味结合蛋白(Odorant binding protein,OBP),34个化学感受蛋白(Chemosensory protein,CSP)和31个气味受体(Odorant receptor,OR)。【结论】 本研究获得了云斑天牛成虫触角转录组数据库,为进一步研究云斑天牛的基因功能分析及嗅觉感受机制奠定了分子基础。 展开更多
关键词 云斑天牛 触角转录组 嗅觉相关基因 基因组注释 高通量测序
原文传递
蛋白质基因组学:进展、策略及问题 被引量:11
6
作者 巩鹏涛 徐润生 方宣钧 《基因组学与应用生物学》 CSCD 北大核心 2014年第6期1169-1180,共12页
蛋白质基因组学(proteogenomics)是一种用来确定新肽的更综合的方法,不仅能在蛋白质水平上验证基因表达和基因精细模式,还能改进蛋白质序列数据库。本文首先总结了现有基因组注释方法,结合质谱技术的发展,详细介绍了基于质谱的蛋白质组... 蛋白质基因组学(proteogenomics)是一种用来确定新肽的更综合的方法,不仅能在蛋白质水平上验证基因表达和基因精细模式,还能改进蛋白质序列数据库。本文首先总结了现有基因组注释方法,结合质谱技术的发展,详细介绍了基于质谱的蛋白质组学的研究进展;其次,我们还重点呈现和探讨了蛋白质基因组学研究中的蛋白质片段化问题,及质谱数据比对库的构建和肽与蛋白质的鉴定及验证;最后,进一步探讨了基于蛋白质基因组学的基因组注释方法的优缺点。 展开更多
关键词 蛋白质基因组学 质谱 基因组注释 肽谱匹配 发现错误率
原文传递
茶谷蛾成虫触角转录组及嗅觉相关基因分析 被引量:8
7
作者 龙亚芹 罗梓文 +6 位作者 王雪松 龙丽雪 玉香甩 李金龙 曲浩 汪云刚 陈林波 《茶叶科学》 CAS CSCD 北大核心 2021年第4期553-563,共11页
为筛选茶谷蛾嗅觉相关基因,采用IlluminaHiSeq 4000高通量测序平台分别对茶谷蛾雌雄成虫触角进行转录组测序及生物信息学分析,共获得茶谷蛾触角转录组37708条unigenes。通过同源性比对,在NR数据库成功注释16027条unigenes;有11701条unig... 为筛选茶谷蛾嗅觉相关基因,采用IlluminaHiSeq 4000高通量测序平台分别对茶谷蛾雌雄成虫触角进行转录组测序及生物信息学分析,共获得茶谷蛾触角转录组37708条unigenes。通过同源性比对,在NR数据库成功注释16027条unigenes;有11701条unigenes得到GO注释,根据其功能可分为细胞组分、分子功能和生物过程三大类40亚类;有6047个unigenes得到KOG注释,按照功能分为25类;根据KEGG数据库,有12009条unigenes注释到283个通路。根据注释信息,挖掘到238个候选嗅觉相关基因,包括108个气味结合蛋白基因,55个气味/嗅觉受体基因,26个味觉受体基因、25个离子型受体基因、11个化学感受蛋白基因、4个感觉神经元膜蛋白基因、4个感官知觉基因、4个化学感受受体基因和1个气味降解酶基因。通过基因差异表达分析,筛选出12个气味结合蛋白基因、9个气味/嗅觉受体基因、4个信息素结合蛋白、3个味觉受体基因、1个化学感受蛋白基因和1个离子型受体蛋白基因。本研究获得了茶谷蛾触角转录组数据,并鉴定出候选嗅觉相关基因,为进一步研究茶谷蛾的基因功能及嗅觉感受机制奠定分子基础。 展开更多
关键词 茶谷蛾 触角转录组 高通量测序 基因注释 嗅觉相关基因
下载PDF
微生物基因组注释系统MGAP 被引量:6
8
作者 禹胄 李涛 +2 位作者 蔡涛 赵进东 罗静初 《微生物学报》 CAS CSCD 北大核心 2003年第6期805-808,共4页
利用生物信息学方法和工具开发了微生物基因组注释系统 (Microbialgenomeannota tionpackage ,MGAP) ,并用于蓝细菌PCC70 0 2的基因组注释。该系统由基因组注释系统和基于Web的用户接口程序两部分组成。基因组注释系统整合多个基因识别... 利用生物信息学方法和工具开发了微生物基因组注释系统 (Microbialgenomeannota tionpackage ,MGAP) ,并用于蓝细菌PCC70 0 2的基因组注释。该系统由基因组注释系统和基于Web的用户接口程序两部分组成。基因组注释系统整合多个基因识别、功能预测和序列分析软件 ;以及蛋白质序列数据库、蛋白质资源信息系统和直系同源蛋白质家族数据库等。用户接口程序包括基因组环状图展示、基因和开放读码框在染色体上的分布图 ,以及注释信息检索工具。该系统基于PC微机和Linux操作系统 ,用MySQL作数据库管理系统、用Apache作Web服务器程序 ,用Perl脚本语言编写应用程序接口 ,上述软件均可免费获得。 展开更多
关键词 微生物 基因组 基因组注释 生物信息学 蓝细菌 数据库
下载PDF
Genome Annotation of a Model Diatom Phaeodactylum tricornutum Using an Integrated Proteogenomic Pipeline 被引量:5
9
作者 Mingkun Yang Xiaohuang Lin +2 位作者 Xin Liu Jia Zhang Feng Ge 《Molecular Plant》 SCIE CAS CSCD 2018年第10期1292-1307,共16页
Diatoms comprise a diverse and ecologically important group of eukaryotic phytoplankton that signifi- cantly contributes to marine primary production and global carbon cycling. Phaeodactylum tricornutum is commonly us... Diatoms comprise a diverse and ecologically important group of eukaryotic phytoplankton that signifi- cantly contributes to marine primary production and global carbon cycling. Phaeodactylum tricornutum is commonly used as a model organism for studying diatom biology. Although its genome was sequenced in 2008, a high-quality genome annotation is still not available for this diatom. Here we report the develop- ment of an integrated proteogenomic pipeline and its application for improved annotation of P. tricornutum genome using mass spectrometry (MS)-based proteomics data. Our proteogenomic analysis unambigu- ously identified approximately 8300 genes and revealed 606 novel proteins, 506 revised genes, 94 splice variants, 58 single amino acid variants, and a holistic view of post-translational modifications in P. tricor- nutum. We experimentally confirmed a subset of novel events and obtained MS evidence for more than 200 micropeptides in P. tricornutum. These findings expand the genomic landscape of P. tricornutum and provide a rich resource for the study of diatom biology. The proteogenomic pipeline we developed in this study is applicable to any sequenced eukaryote and thus represents a significant contribution to the toolset for eukaryotic proteogenomic analysis. The pipeline and its source code are freely available at https://sourceforge.net/projects/gapeproteogeno mic. 展开更多
关键词 Phaeodactylum tricomutum PROTEOgenomICS mass spectrometry genome annotation
原文传递
gFACs:Gene Filtering,Analysis,and Conversion to Unify Genome Annotations Across Alignment and Gene Prediction Frameworks 被引量:3
10
作者 Madison Caballero Jill Wegrzyn 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2019年第3期305-310,共6页
Published genomes frequently contain erroneous gene models that represent issues associated with identification of open reading frames,start sites,splice sites,and related structural features.The source of these incon... Published genomes frequently contain erroneous gene models that represent issues associated with identification of open reading frames,start sites,splice sites,and related structural features.The source of these inconsistencies is often traced back to integration across text file formats designed to describe long read alignments and predicted gene structures.In addition,the majority of gene prediction frameworks do not provide robust downstream filtering to remove problematic gene annotations,nor do they represent these annotations in a format consistent with current file standards.These frameworks also lack consideration for functional attributes,such as the presence or absence of protein domains that can be used for gene model validation.To provide oversight to the increasing number of published genome annotations,we present a software package,the Gene Filtering,Analysis,and Conversion(gFACs),to filter,analyze,and convert predicted gene models and alignments.The software operates across a wide range of alignment,analysis,and gene prediction files with a flexible framework for defining gene models with reliable structural and functional attributes.gFACs supports common downstream applications,including genome browsers,and generates extensive details on the filtering process,including distributions that can be visualized to further assess the proposed gene space.gFACs is freely available and implemented in Perl with support from BioPerl libraries at https://gitlab.com/PlantGenomicsLab/gFACs. 展开更多
关键词 genome annotation BIOINFORMATICS Protein annotation GENE prediction ALIGNMENT
原文传递
RGAAT: A Reference-based Genome Assembly and Annotation Tool for New Genomes and Upgrade of Known Genomes 被引量:1
11
作者 Wanfei Liu Shuangyang Wu +6 位作者 Qiang Lin Shenghan Gao Feng Ding Xiaowei Zhang Hasan Awad Aljohi Jun Yu Songnian Hu 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2018年第5期373-381,共9页
The rapid development of high-throughput sequencing technologies has led to a dramatic decrease in the money and time required for de novo genome sequencing or genome resequencing projects, with new genome sequences c... The rapid development of high-throughput sequencing technologies has led to a dramatic decrease in the money and time required for de novo genome sequencing or genome resequencing projects, with new genome sequences constantly released every week. Among such projects, the plethora of updated genome assemblies induces the requirement of versiondependent annotation files and other compatible public dataset for downstream analysis. To handlethese tasks in an efficient manner, we developed the reference-based genome assembly and annotation tool(RGAAT), a flexible toolkit for resequencing-based consensus building and annotation update. RGAAT can detect sequence variants with comparable precision, specificity, and sensitivity to GATK and with higher precision and specificity than Freebayes and SAMtools on four DNAseq datasets tested in this study. RGAAT can also identify sequence variants based on cross-cultivar or cross-version genomic alignments. Unlike GATK and SAMtools/BCFtools, RGAAT builds the consensus sequence by taking into account the true allele frequency. Finally, RGAAT generates a coordinate conversion file between the reference and query genomes using sequence variants and supports annotation file transfer. Compared to the rapid annotation transfer tool(RATT),RGAAT displays better performance characteristics for annotation transfer between different genome assemblies, strains, and species. In addition, RGAAT can be used for genome modification,genome comparison, and coordinate conversion. RGAAT is available at https://sourceforge.net/projects/rgaat/and https://github.com/wushyer/RGAAT;2 at no cost. 展开更多
关键词 Variant identification genome assembly genome annotation genome comparison
原文传递
MakeHub:Fully Automated Generation of UCSC Genome Browser Assembly Hubs
12
作者 Katharina Jasmin Hoff 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2019年第5期546-549,共4页
Novel genomes are today often annotated by small consortia or individuals whose background is not from bioinformatics.This audience requires tools that are easy to use.Such need has been addressed by several genome an... Novel genomes are today often annotated by small consortia or individuals whose background is not from bioinformatics.This audience requires tools that are easy to use.Such need has been addressed by several genome annotation tools and pipelines.Visualizing resulting annotation is a crucial step of quality control.The UCSC Genome Browser is a powerful and popular genome visualization tool.Assembly Hubs,which can be hosted on any publicly available web server,allow browsing genomes via UCSC Genome Browser servers.The steps for creating custom Assembly Hubs are well documented and the required tools are publicly available.However,the number of steps for creating a novel Assembly Hub is large.In some cases,the format of input files needs to be adapted,which is a difficult task for scientists without programming background.Here,we describe Make Hub,a novel command line tool that generates Assembly Hubs for the UCSC Genome Browser in a fully automated fashion.The pipeline also allows extending previously created Hubs by additional tracks.Make Hub is freely available for downloading at https://github.com/Gaius-Augustus/Make Hub. 展开更多
关键词 genome annotation annotation VISUALIZATION RNA-SEQ genome BROWSER
原文传递
蛋白质基因组学:运用蛋白质组技术注释基因组 被引量:4
13
作者 张昆 王乐珩 +11 位作者 迟浩 卜德超 袁作飞 刘超 樊盛博 陈海丰 曾文锋 罗海涛 孙瑞祥 贺思敏 谢鹭 赵屹 《生物化学与生物物理进展》 SCIE CAS CSCD 北大核心 2013年第4期297-308,共12页
随着高通量DNA测序技术的飞速发展,越来越多的物种完成了基因组测序.定位编码基因、确定编码基因结构是基因组注释的基本任务,然而以往的基因组注释方法主要依赖于DNA及RNA序列信息.为了更加精确地解读完成测序的基因组,我们需要整合多... 随着高通量DNA测序技术的飞速发展,越来越多的物种完成了基因组测序.定位编码基因、确定编码基因结构是基因组注释的基本任务,然而以往的基因组注释方法主要依赖于DNA及RNA序列信息.为了更加精确地解读完成测序的基因组,我们需要整合多种类型的组学数据进行基因组注释.近年来,基于串联质谱技术的蛋白质组学已经发展成熟,实现了对蛋白质组的高覆盖,使得利用串联质谱数据进行基因组注释成为可能.串联质谱数据一方面可以对已注释的基因进行表达验证,另一方面还可以校正原注释基因,进而发现新基因,实现对基因组序列的重新注释.这正是当前进展较快的蛋白质基因组学的研究内容.利用该方法系统地注释已完成测序的基因组已成为解读基因组的一个重要补充.本文综述了蛋白质基因组学的主要研究内容和研究方法,并展望了该研究方向未来的发展. 展开更多
关键词 蛋白质基因组学 基因组注释 蛋白质组学 质谱技术
下载PDF
基于PacBio三代测序的高质量汶上芦花鸡基因组的组装 被引量:2
14
作者 薛倩 邢伟杰 +6 位作者 李国辉 周成浩 张会永 殷建玫 蒋一秀 朱云芬 韩威 《中国畜牧兽医》 CAS CSCD 北大核心 2023年第10期3869-3881,共13页
【目的】汶上芦花鸡为中国唯一的芦花羽地方鸡品种资源,芦花基因可伴性遗传,芦花羽性状可用于雏鸡的自别雌雄。试验旨在丰富家鸡基因组信息,获取汶上芦花鸡全基因组序列,为鸡伴性芦花羽分子机制研究提供材料。【方法】以汶上芦花鸡为试... 【目的】汶上芦花鸡为中国唯一的芦花羽地方鸡品种资源,芦花基因可伴性遗传,芦花羽性状可用于雏鸡的自别雌雄。试验旨在丰富家鸡基因组信息,获取汶上芦花鸡全基因组序列,为鸡伴性芦花羽分子机制研究提供材料。【方法】以汶上芦花鸡为试验动物,基于BGI MGISEQ构建小片段文库进行基因组特征评估,利用PacBio三代测序技术、Hi-C技术组装及构建汶上芦花鸡全基因组信息数据库,利用生物信息学方法对获得的基因组序列进行组装和功能注释。【结果】试验共获得BGI二代测序数据量59.70 Gb;获得PacBio三代测序数据量31.13 Gb,reads平均长度为15362 bp;获得Hi-C数据量95.37 Gb;拼接和初步组装得到基因组大小为1.12 Gb,经Hi-C辅助组装后,共有1.07 Gb的序列挂载到41条染色体上,挂载率95.62%,基因组contigs N50为9.61 Mb,scaffold N50为91.29 Mb,BUSCO评估为98.50%,基因组连续性和完整度良好;预测基因组有22.57%的重复序列,有426个tRNAs、56个rRNAs、260个miRNAs和308个snRNAs;共预测得到蛋白编码基因17338个,其中96.00%的基因在数据库中得到了功能注释;组装获得汶上芦花鸡Z染色体长度约88.23 Mb,预测并注释到蛋白编码基因742个,这些基因显著富集于氨基酸、脂肪等代谢相关通路,在汶上芦花鸡Z染色体上准确定位了TYRP 1、CDKN 2 A、SLC 45 A 2等羽色相关基因。【结论】研究获得了汶上芦花鸡高质量染色体水平基因组,丰富了家鸡基因组遗传信息,准确定位了Z染色体上一些羽色相关基因。研究结果可为从全基因组水平挖掘汶上芦花鸡优异性状调控机制奠定基础。 展开更多
关键词 汶上芦花鸡 基因组组装 PacBio三代测序技术 基因组注释 Z染色体 伴性芦花羽
下载PDF
Automated interpretation of metabolic capacity from genome and metagenome sequences
15
作者 Minoru Kanehisa 《Frontiers of Electrical and Electronic Engineering in China》 2013年第3期192-200,共9页
The KEGG pathway maps are widely used as a reference data set for inferring high-level functions of the organism or the ecosystem from its genome or metagenome sequence data. The KEGG modules, which are tighter functi... The KEGG pathway maps are widely used as a reference data set for inferring high-level functions of the organism or the ecosystem from its genome or metagenome sequence data. The KEGG modules, which are tighter functional units often corresponding to subpathways in the KEGG pathway maps, are designed for better automation of genome interpretation. Each KEGG module is represented by a simple Boolean expression of KEGG Orthology (KO) identifiers (K numbers), enabling automatic evaluation of the completeness of genes in the genome. Here we focus on metabolic functions and introduce reaction modules for improving annotation and signature modules for inferring metabolic capacity. We also describe how genome annotation is performed in KEGG using the manually created KO database and the computationaUy generated SSDB database. The resulting KEGG GENES database with KO (K number) annotation is a reference sequence database to be compared for automated annotation and interpretation of newly determined genomes. 展开更多
关键词 metabolic pathway functional module genome annotation genome interpretation KEGG database
原文传递
原核生物蛋白质基因组学研究进展 被引量:3
16
作者 张成普 徐平 朱云平 《生物工程学报》 CAS CSCD 北大核心 2014年第7期1026-1035,共10页
随着基因组测序技术的不断发展,大量微生物基因组序列可以在短时间内得以准确鉴定。为了进一步探究基因组的结构与功能,基于序列特征与同源特征的基因组注释算法广泛应用于新测序物种。然而受基因组测序质量以及算法本身准确性偏低等问... 随着基因组测序技术的不断发展,大量微生物基因组序列可以在短时间内得以准确鉴定。为了进一步探究基因组的结构与功能,基于序列特征与同源特征的基因组注释算法广泛应用于新测序物种。然而受基因组测序质量以及算法本身准确性偏低等问题的影响,现有的基因组注释存在着相当比例的假基因以及注释错误,尤其是蛋白质N端的注释错误。为了弥补基因组注释的不足,以基因芯片或RNA-seq为核心的转录组测序技术和以串联质谱为核心的蛋白质组测序技术可以高通量地对基因的转录和翻译产物进行精确测定,进而实现预测基因结构的实验验证。然而,原核生物细胞中存在的大量非编码RNA给转录组测序技术引入了污染数据,限制了其对基因组注释的应用。相对而言,以串联质谱技术为核心的蛋白质组学测序可以在短时间内鉴定到生物体内大量的蛋白质,实现注释基因的验证甚至校准。已成为基因组注释和重注释的重要依据,并因而衍生了"蛋白质基因组学"的新研究方向。文中首先介绍传统的基于序列预测和同源比对的基因组注释算法,指出其中存在的不足。在此基础上,结合转录组学与蛋白质组学的技术特点,分析蛋白质组学对于原核生物基因组注释的优势,总结现阶段大规模蛋白质基因组学研究的进展情况。最后从信息学角度指出当前蛋白质组数据进行基因组重注释存在的问题与相应的解决方案,进而探讨未来蛋白质基因组学的发展方向。 展开更多
关键词 蛋白质基因组学 原核生物 基因组注释 质谱
原文传递
铜绿假单胞菌噬菌体K4的性质及其在食品防腐方面的应用 被引量:3
17
作者 庞文静 韩庆竹 +4 位作者 尤甲甲 李东航 李佩泽 李玥莹 杨洪江 《食品工业科技》 CAS 北大核心 2022年第16期130-139,共10页
目的:为研究噬菌体在控制细菌污染方面的应用,本文对铜绿假单胞菌噬菌体K4的生物学性质及抑菌活性进行了探究。方法:包括一步生长曲线、稳定性研究、基因组测序、比较基因组学分析以及抑菌曲线等方法。结果:K4潜伏期约为15 min,释放量约... 目的:为研究噬菌体在控制细菌污染方面的应用,本文对铜绿假单胞菌噬菌体K4的生物学性质及抑菌活性进行了探究。方法:包括一步生长曲线、稳定性研究、基因组测序、比较基因组学分析以及抑菌曲线等方法。结果:K4潜伏期约为15 min,释放量约为85 PFU/infection center,具有较强的感染性;在不同感染复数(MOI)下,噬菌体K4对宿主菌均有明显的抑制效果;基因组分析显示,K4基因组长度为50358 bp,编码77个蛋白和1个tRNA-Arg;比较基因组学分析发现,噬菌体K4与Paundecimvirus属的Pseudomonas virus PA11基因组序列的一致性达95.08%,证实噬菌体K4是该属的新成员。在应用实验中,噬菌体K4能够显著抑制牛奶和午餐肉等样品中宿主菌的生长,同时噬菌体的数量也有显著增加。本研究结果显示,噬菌体K4生长速度快,具有较强的杀菌活性,基因组不携带整合酶、抗性以及毒力因子等编码基因。结论:噬菌体K4可以用于控制食品中铜绿假单胞菌的污染。 展开更多
关键词 铜绿假单胞菌 噬菌体 抑菌活性 基因组注释 应用
下载PDF
Genome Organization of the SARS-CoV
18
作者 JingXu JianfeiHu +13 位作者 JingWang YujunHan YongwuHu JieWen YanLi JiaJi JiaYe ZizhangZhang WeiWei SonggangLi JunWang JianWang JunYu HuanmingYang 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2003年第3期226-235,共10页
Annotation of the genome sequence of the SARS-CoV (severe acute respiratory syndrome-associated coronavirus) is indispensable to understand its evolution and pathogenesis. We have performed a full annotation of the SA... Annotation of the genome sequence of the SARS-CoV (severe acute respiratory syndrome-associated coronavirus) is indispensable to understand its evolution and pathogenesis. We have performed a full annotation of the SARS-CoV genome sequences by using annotation programs publicly available or developed by ourselves. Totally, 21 open reading frames (ORFs) of genes or putative uncharacterized proteins (PUPs) were predicted. Seven PUPs had not been reported previously, and two of them were predicted to contain transmembrane regions. Eight ORFs partially overlapped with or embedded into those of known genes, revealing that the SARS-CoV genome is a small and compact one with overlapped coding regions. The most striking discovery is that an ORF locates on the minus strand. We have also annotated non-coding regions and identified the transcription regulating sequences (TRS) in the intergenic regions. The analysis of TRS supports the minus strand extending transcription mechanism of coronavirus. The SNP analysis of different isolates reveals that mutations of the sequences do not affect the prediction results of ORFs. 展开更多
关键词 SARS-COV genome annotation TRANSCRIPTION ORF PUP TRS
原文传递
柑橘大实蝇低覆盖度基因组及其分析 被引量:1
19
作者 何容 王书平 +5 位作者 王涛 许佳丹 滕凯 王寅鹏 贺康 李飞 《植物保护学报》 CAS CSCD 北大核心 2021年第6期1429-1437,共9页
为探究柑橘大实蝇Bactrocera minax的全基因组信息,以海关口岸截获的柑橘大实蝇样本为材料,提取DNA后构建350 bp短片段文库,采用Illumina二代测序平台开展全基因组测序,进行基因组组装、完整性评估和注释分析。结果表明,柑橘大实蝇的基... 为探究柑橘大实蝇Bactrocera minax的全基因组信息,以海关口岸截获的柑橘大实蝇样本为材料,提取DNA后构建350 bp短片段文库,采用Illumina二代测序平台开展全基因组测序,进行基因组组装、完整性评估和注释分析。结果表明,柑橘大实蝇的基因组大小为368.14 Mb,重复序列占比为16.27%,杂合率为0.79%,属于中等杂合度基因组。基因组组装得到43124条contigs,contig N50长度为94994 bp。BUSCO评估显示,组装的基因组可完整覆盖98.80%昆虫保守的单拷贝直系同源基因,表明该组装的完整性很高,可以满足后续分析。通过EVM注释流程整合了从头预测、同源预测和基于转录组预测等不同方法的注释结果,共预测到35655个蛋白编码基因,其中24343个基因有功能注释。 展开更多
关键词 柑橘大实蝇 基因组测序 基因组组装 基因组注释
原文传递
基于PacBio Iso-Seq红棕象甲全长转录组测序分析 被引量:2
20
作者 杨红军 胡佳萌 +2 位作者 王治博 徐丹萍 卓志航 《应用昆虫学报》 CAS CSCD 北大核心 2021年第3期655-663,共9页
【目的】建立红棕象甲Rhynchophorus ferrugineus全长转录组数据库,深入挖掘红棕象甲基因数据信息。【方法】采用高通量测序平台,利用二代测序(Illumina RNA-seq)校正三代测序(PacBio Iso-Seq)的方法对红棕象甲进行全长转录组测序,并对... 【目的】建立红棕象甲Rhynchophorus ferrugineus全长转录组数据库,深入挖掘红棕象甲基因数据信息。【方法】采用高通量测序平台,利用二代测序(Illumina RNA-seq)校正三代测序(PacBio Iso-Seq)的方法对红棕象甲进行全长转录组测序,并对转录组数据进行生物信息学分析。【结果】红棕象甲全长转录组平均长度为2302 bp,N90长度为1321 bp,N50长度为2785 bp;经CD-Hit程序去冗余,获得转录本63801条,主要长度范围为0.5-6 k。基因功能注释表明,在NR、Swiss-Prot、KEGG、KOG、GO、NT和Pfam数据库中,分别有50280、40109、47197、33511、27707、27253和27707条转录本被注释;其中,12508条转录本均在7个数据库中有注释,54999条转录本至少在一个数据库有注释。此外,经鉴定或预测,获得2184个可变剪接(AS)、66230个SSR、2084个转录因子(TFs)和9618条长链非编码RNA(LncRNA)。CDS长度的主要分布范围为0-2500 nt。【结论】本研究获得了红棕象甲全长转录组数据库,为红棕象甲后续分子生物学基础研究奠定基础。 展开更多
关键词 红棕象甲 转录组 基因组注释 高通量测序
原文传递
上一页 1 2 3 下一页 到第
使用帮助 返回顶部