很多分类软件在序列分类时,只能使用完全测序的微生物基因组序列作为参考库。然而,很多微生物没有完整的基因组数据,只有部分测序的数据。本研究旨在探究这些未完全测序的数据对微生物的分类有什么样的影响。本实验从NCBI上下载了细菌...很多分类软件在序列分类时,只能使用完全测序的微生物基因组序列作为参考库。然而,很多微生物没有完整的基因组数据,只有部分测序的数据。本研究旨在探究这些未完全测序的数据对微生物的分类有什么样的影响。本实验从NCBI上下载了细菌的完全测序的基因组数据和未完全测序的基因组数据。利用本实验室自行开发的序列模拟软件Ne SSM和短序列分类软件Meta Bin G,以hc、mc两个物种比例模拟出元基因组数据作为测试数据,以参考库CG(只含有完全测序的细菌基因组序列)和PCG(同时含有部分测序的细菌基因组序列和完全测序的细菌基因组序列)作为比对库,对测试序列进行分类,并按照门、纲、目、科、属、种的水平对分类结果的准确率和运行时间进行统计。结果显示不同分类水平下,参考库中添加入未完全测序的数据均能提高对微生物分类的准确性。展开更多
文摘很多分类软件在序列分类时,只能使用完全测序的微生物基因组序列作为参考库。然而,很多微生物没有完整的基因组数据,只有部分测序的数据。本研究旨在探究这些未完全测序的数据对微生物的分类有什么样的影响。本实验从NCBI上下载了细菌的完全测序的基因组数据和未完全测序的基因组数据。利用本实验室自行开发的序列模拟软件Ne SSM和短序列分类软件Meta Bin G,以hc、mc两个物种比例模拟出元基因组数据作为测试数据,以参考库CG(只含有完全测序的细菌基因组序列)和PCG(同时含有部分测序的细菌基因组序列和完全测序的细菌基因组序列)作为比对库,对测试序列进行分类,并按照门、纲、目、科、属、种的水平对分类结果的准确率和运行时间进行统计。结果显示不同分类水平下,参考库中添加入未完全测序的数据均能提高对微生物分类的准确性。