期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于氨基酸组成分布的蛋白质同源寡聚体分类研究 被引量:9
1
作者 施建宇 潘泉 +1 位作者 张绍武 程咏梅 《生物物理学报》 CAS CSCD 北大核心 2006年第1期49-56,共8页
基于一种新的特征提取方法——氨基酸组成分布,使用支持向量机作为成员分类器,采用“一对一”的多类分类策略,从蛋白质一级序列对四类同源寡聚体进行分类研究。结果表明,在10-CV检验下,基于氨基酸组成分布,其总分类精度和精度指数分别... 基于一种新的特征提取方法——氨基酸组成分布,使用支持向量机作为成员分类器,采用“一对一”的多类分类策略,从蛋白质一级序列对四类同源寡聚体进行分类研究。结果表明,在10-CV检验下,基于氨基酸组成分布,其总分类精度和精度指数分别达到了86.22%和67.12%,比基于氨基酸组成成分的传统特征提取方法分别提高了5.74和10.03个百分点,比二肽组成成分特征提取方法分别提高了3.12和5.63个百分点,说明氨基酸组成分布对于蛋白质同源寡聚体分类是一种非常有效的特征提取方法;将氨基酸组成分布和蛋白质序列长度特征组合,其总分类精度和精度指数分别达到了86.35%和67.23%,说明蛋白质序列长度特征含有一定的空间结构信息。 展开更多
关键词 氨基酸组成分布 二维主成分分析 支持向量机 同源寡聚体
下载PDF
基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型 被引量:6
2
作者 张光亚 方柏山 《生物工程学报》 CAS CSCD 北大核心 2008年第2期302-308,共7页
文献报道采用氨基酸组成分布提取特征值能有效提高预测分类精度,本文采用该方法提取特征值,使用一种新的组合分类器——随机森林,从蛋白质一级结构对嗜热和嗜冷蛋白进行分类。通过10倍交叉验证和独立样本测试两种方法检测,结果表明:当... 文献报道采用氨基酸组成分布提取特征值能有效提高预测分类精度,本文采用该方法提取特征值,使用一种新的组合分类器——随机森林,从蛋白质一级结构对嗜热和嗜冷蛋白进行分类。通过10倍交叉验证和独立样本测试两种方法检测,结果表明:当分段数量为1时,其精度最优,分别为92.9%和90.2%,暗示使用基于氨基酸组成分布提取特征值在该算法中并不能有效提高识别精度,这与报道结果不符,而该提取方法在SVM中却能适当提高识别精度;当引入6个新变量后,其精度分别提高到93.2%和92.2%,ROC曲线下面积分别为0.9771和0.9696,优于其它组合分类器。 展开更多
关键词 随机森林 氨基酸组成分布 嗜热和嗜冷蛋白 ROC曲线
下载PDF
以序列特征值预测酶和非酶蛋白及内含肽
3
作者 葛慧华 罗靖 张光亚 《计算机与应用化学》 CAS CSCD 北大核心 2010年第4期435-438,共4页
利用生物信息学快速准确鉴别酶、非酶蛋白及内含肽能极大提高实验效率,而测序数量的指数型增长使酶、非酶蛋白及内含肽的自动分类尤显重要。本文获取了同一性小于25%的序列共计3853条,采用Z标度的伪氨基酸组成和氨基酸组成分布提取序列... 利用生物信息学快速准确鉴别酶、非酶蛋白及内含肽能极大提高实验效率,而测序数量的指数型增长使酶、非酶蛋白及内含肽的自动分类尤显重要。本文获取了同一性小于25%的序列共计3853条,采用Z标度的伪氨基酸组成和氨基酸组成分布提取序列特征值识别酶、非酶蛋白及内含肽。结果表明,该特征值提取方法经参数优化后,即当λ=5,w=0.15时,以支持向量机为分类器,其10倍交叉验证的精度可达81.3%,ROC曲线下面积为0.83;其精度高于其它方法0.5%到12.9%不等;独立样本测试的预测精度可达71.2%,ROC曲线下面积为0.782,其精度高于其它方法0.4%到6.4%不等,效果均优于其它常见的序列特征值方法。本文结果说明从序列出发判断其归属是可行的,3种不同功能的分子在序列特征上存在一定的差异,所建立的Z标度的伪氨基酸组成和氨基酸组成分布法可用于其它类似的生物信息学问题。建立了从序列出发预测酶、非酶蛋白及内含肽的新方法。 展开更多
关键词 非酶蛋白 内含肽 氨基酸组成 氨基酸组成分布
原文传递
基于不同序列特征值预测氧化还原酶辅酶类型的研究
4
作者 张光亚 葛慧华 方柏山 《计算机与应用化学》 CAS CSCD 北大核心 2008年第5期545-548,共4页
如何有效提取蛋白质序列特征值,一直是生物信息学研究的重要任务。本文研究8种序列特征值提取方法,并考察它们在不同分类器中的表现,以用于预测氧化还原酶辅酶依赖类型。其中,氨基酸组成法效果最差,平均预测精度仪及64.96%;而将两性伪... 如何有效提取蛋白质序列特征值,一直是生物信息学研究的重要任务。本文研究8种序列特征值提取方法,并考察它们在不同分类器中的表现,以用于预测氧化还原酶辅酶依赖类型。其中,氨基酸组成法效果最差,平均预测精度仪及64.96%;而将两性伪氨基酸组成和新氨基酸组成分布两种方法合并后,以支持向量机作为分类器时,其识别效果最佳,可达92.93%。此外,不同特征值的提取方法与分类器之间似乎有着一定的匹配关系,只有找到其间的最佳匹配,才能获得最佳的识别效果。 展开更多
关键词 特征值提取 氧化还原酶 辅酶 两性伪氨基酸组成 氨基酸组成分布
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部