目的探讨两种较为公认但序列不同的Wiskott-Aldrich综合征蛋白和富含脯氨酸同源物(Wiskott-Aldrich syndrome protein and SCAR homolog,WASH)的差异。方法使用免疫荧光、免疫共沉淀和激光微辐射等实验分析两种WASH在定位模式、与FAM21...目的探讨两种较为公认但序列不同的Wiskott-Aldrich综合征蛋白和富含脯氨酸同源物(Wiskott-Aldrich syndrome protein and SCAR homolog,WASH)的差异。方法使用免疫荧光、免疫共沉淀和激光微辐射等实验分析两种WASH在定位模式、与FAM21或Ku蛋白的相互作用、向DNA损伤位点募集速率和蛋白质稳定性方面的差异;比较多种生物中的WASH蛋白质序列和检测多种在生物和医学研究中常用的细胞中的WASH编码序列,分析两种人WASH序列的普遍性和保守性。结果两种WASH展现出类似的内体(endosome)定位模式。WASH468表现出与FAM21更强的相互作用,并且WASH468展现出更强的稳定性。WASH465表现出与Ku蛋白更强的相互作用,并且WASH465展现出向DNA损伤位点更强的募集。多种生物中的WASH序列与人WASH468序列的一致性明显高于WASH465,并且多种在生物和医学研究中常用的细胞中的WASH氨基酸序列均与WASH468一致。结论WASH468和WASH465的生物学特性存在差异,WASH468序列的普遍性和保守性明显高于WASH465,因此WASH468是更保守的人WASH序列。展开更多
酶功能的识别对理解生命活动的机制、推进生命科学的发展有重要作用。然而现有的酶EC编号预测方法,并未充分利用蛋白质序列信息,在识别精度上仍有所不足。针对上述问题,本研究提出一种基于层级特征和全局特征的EC编号预测网络(EC number...酶功能的识别对理解生命活动的机制、推进生命科学的发展有重要作用。然而现有的酶EC编号预测方法,并未充分利用蛋白质序列信息,在识别精度上仍有所不足。针对上述问题,本研究提出一种基于层级特征和全局特征的EC编号预测网络(EC number prediction network using hierarchical features and global features,ECPN-HFGF)。该方法首先通过残差网络提取蛋白质序列通用特征,并通过层级特征提取模块和全局特征提取模块进一步提取蛋白质序列的层级特征和全局特征,之后结合两种特征信息的预测结果,采用多任务学习框架,实现酶EC编号的精确预测。计算实验结果表明,ECPN-HFGF方法在蛋白质序列EC编号预测任务上性能最佳,宏观F1值和微观F1值分别达到95.5%和99.0%。ECPN-HFGF方法能有效结合蛋白质序列的层级特征和全局特征,快速准确预测蛋白质序列EC编号,比当前常用方法预测精确度更高,能够为酶学研究和酶工程应用的发展提供一种高效的思路和方法。展开更多
Protein sequences as special heterogeneous sequences are rare in the amino acid sequence space. The specific sequen- tial order of amino acids of a protein is essential to its 3D structure. On the whole, the correlati...Protein sequences as special heterogeneous sequences are rare in the amino acid sequence space. The specific sequen- tial order of amino acids of a protein is essential to its 3D structure. On the whole, the correlation between sequence and structure of a protein is not so strong. How well would a protein sequence contain its structural information? How does a sequence determine its native structure? Keeping the globular proteins in mind, we discuss several problems from sequence to structure.展开更多
蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(...蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(Protein Function Prediction using Sequences and Combined Graph Convolutional Networks, PFP-SCGCN).首先通过深度学习方法捕获蛋白质序列的多维特征信息,再通过多序列比对从蛋白质序列中提取进化耦合信息和氨基酸残基群落,然后利用进化耦合信息和氨基酸残基群落生成序列氨基酸之间两种不同连接程度的邻接矩阵,将这两种邻接矩阵与序列特征信息一起输入给组合图卷积网络进行信息融合,最后通过多个全连接层获得蛋白质功能类别信息.本文还通过分析PFP-SCGCN的特定网络层识别蛋白质功能位点,可帮助人们推测出新序列中的重要氨基酸.模型结果表明,PFP-SCGCN模型的功能预测准确率远高于对比方法,具有较好的鲁棒性,并且可以较准确的识别功能位点.展开更多
文摘目的探讨两种较为公认但序列不同的Wiskott-Aldrich综合征蛋白和富含脯氨酸同源物(Wiskott-Aldrich syndrome protein and SCAR homolog,WASH)的差异。方法使用免疫荧光、免疫共沉淀和激光微辐射等实验分析两种WASH在定位模式、与FAM21或Ku蛋白的相互作用、向DNA损伤位点募集速率和蛋白质稳定性方面的差异;比较多种生物中的WASH蛋白质序列和检测多种在生物和医学研究中常用的细胞中的WASH编码序列,分析两种人WASH序列的普遍性和保守性。结果两种WASH展现出类似的内体(endosome)定位模式。WASH468表现出与FAM21更强的相互作用,并且WASH468展现出更强的稳定性。WASH465表现出与Ku蛋白更强的相互作用,并且WASH465展现出向DNA损伤位点更强的募集。多种生物中的WASH序列与人WASH468序列的一致性明显高于WASH465,并且多种在生物和医学研究中常用的细胞中的WASH氨基酸序列均与WASH468一致。结论WASH468和WASH465的生物学特性存在差异,WASH468序列的普遍性和保守性明显高于WASH465,因此WASH468是更保守的人WASH序列。
文摘酶功能的识别对理解生命活动的机制、推进生命科学的发展有重要作用。然而现有的酶EC编号预测方法,并未充分利用蛋白质序列信息,在识别精度上仍有所不足。针对上述问题,本研究提出一种基于层级特征和全局特征的EC编号预测网络(EC number prediction network using hierarchical features and global features,ECPN-HFGF)。该方法首先通过残差网络提取蛋白质序列通用特征,并通过层级特征提取模块和全局特征提取模块进一步提取蛋白质序列的层级特征和全局特征,之后结合两种特征信息的预测结果,采用多任务学习框架,实现酶EC编号的精确预测。计算实验结果表明,ECPN-HFGF方法在蛋白质序列EC编号预测任务上性能最佳,宏观F1值和微观F1值分别达到95.5%和99.0%。ECPN-HFGF方法能有效结合蛋白质序列的层级特征和全局特征,快速准确预测蛋白质序列EC编号,比当前常用方法预测精确度更高,能够为酶学研究和酶工程应用的发展提供一种高效的思路和方法。
基金supported by the National Natural Science Foundation of China (Grant Nos. 11175224 and 11121403)
文摘Protein sequences as special heterogeneous sequences are rare in the amino acid sequence space. The specific sequen- tial order of amino acids of a protein is essential to its 3D structure. On the whole, the correlation between sequence and structure of a protein is not so strong. How well would a protein sequence contain its structural information? How does a sequence determine its native structure? Keeping the globular proteins in mind, we discuss several problems from sequence to structure.
文摘蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(Protein Function Prediction using Sequences and Combined Graph Convolutional Networks, PFP-SCGCN).首先通过深度学习方法捕获蛋白质序列的多维特征信息,再通过多序列比对从蛋白质序列中提取进化耦合信息和氨基酸残基群落,然后利用进化耦合信息和氨基酸残基群落生成序列氨基酸之间两种不同连接程度的邻接矩阵,将这两种邻接矩阵与序列特征信息一起输入给组合图卷积网络进行信息融合,最后通过多个全连接层获得蛋白质功能类别信息.本文还通过分析PFP-SCGCN的特定网络层识别蛋白质功能位点,可帮助人们推测出新序列中的重要氨基酸.模型结果表明,PFP-SCGCN模型的功能预测准确率远高于对比方法,具有较好的鲁棒性,并且可以较准确的识别功能位点.