期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
疾病相关的蛋白质与配体DNA分子结合区域的分析与预测
1
作者 冯永娥 孙鹏哲 《内蒙古农业大学学报(自然科学版)》 CAS 北大核心 2024年第1期57-62,共6页
很多细胞的生命活动涉及到特定的DNA分子与蛋白质相互作用,而且这些相互作用与人类很多疾病的产生密切有关。为了了解蛋白质与DNA分子结合的分子机制,确定蛋白质序列中哪些残基与DNA分子结合是非常重要的。但是目前,精确识别蛋白与DNA... 很多细胞的生命活动涉及到特定的DNA分子与蛋白质相互作用,而且这些相互作用与人类很多疾病的产生密切有关。为了了解蛋白质与DNA分子结合的分子机制,确定蛋白质序列中哪些残基与DNA分子结合是非常重要的。但是目前,精确识别蛋白与DNA分子结合残基还很困难。在这项研究中,我们将使用机器学习算法来预测疾病相关蛋白与DNA分子的结合区域,这为下一步精确识别结合位点奠定了基础。预测模型中使用的数据集来自于Uniprot和PDB数据库,我们提取位置特异性打分矩阵(PSSM)、氨基酸的理化指数为特征,利用随机森林算法、5折交叉检验结果得到:在使用103种理化指数作为特征时,预测总精度最高达到94%,精确率、召回率以及马氏相关系数分别为88%、75%和0.78。可见该模型对于疾病相关的蛋白与DNA分子的结合区域是有较好的识别能力。 展开更多
关键词 疾病相关的蛋白质 位置特异性打分矩阵 蛋白质与配体DNA分子结合 机器学习算法
原文传递
基于氨基酸理化特征识别疾病相关的蛋白质与金属离子配体的结合位点
2
作者 邹向辉 冯永娥 《内蒙古农业大学学报(自然科学版)》 CAS 北大核心 2024年第2期78-85,共8页
蛋白质与金属离子配体的结合在维持蛋白质结构稳定和代谢控制等方面起重要作用。为了帮助研究者理解蛋白质与金属离子相互作用的分子机制,确定蛋白质与哪种金属离子配体的结合是非常必要的。目前大部分的研究只针对金属离子结合位点与... 蛋白质与金属离子配体的结合在维持蛋白质结构稳定和代谢控制等方面起重要作用。为了帮助研究者理解蛋白质与金属离子相互作用的分子机制,确定蛋白质与哪种金属离子配体的结合是非常必要的。目前大部分的研究只针对金属离子结合位点与非结合位点的预测研究,本文基于氨基酸理化特征结合机器学习算法构建模型,针对疾病相关的蛋白质与3种金属离子配体(Ca^(2+)、Mg^(2+)、Zn^(2+))的结合位点进行三分类的识别。首先,基于国际公共数据库资源,构建了疾病相关的蛋白质与3种金属离子配体的结合位点数据库。然后,在滑动窗口下,提取5种特征(PSSM,PAAC,PDC,HAAC,HDC),再结合2种机器学习算法对3种金属离子配体的结合位点进行识别。结果发现:在单特征预测中,使用位置特异性矩阵(PSSM)的预测结果最好,预测总精度(OA)达到72.6%。最后,做了特征融合,结果发现:其他特征在联合了位置特异性矩阵(PSSM)后,结果相较于其单特征,预测总精度均有较大提高。可见该模型对于疾病相关蛋白与金属离子配体的结合位点有较好的识别能力。 展开更多
关键词 金属离子配体 位置特异性打分矩阵 亲疏水氨基酸组分 机器学习算法
原文传递
An Improved Approach for Rapidly Identifying Different Types of Gram-Negative Bacterial Secreted Proteins 被引量:2
3
作者 Lezheng Yu Fengjuan Liu +1 位作者 Lixiao Du Yizhou Li 《Natural Science》 2018年第5期168-177,共10页
Protein secretion plays an important role in bacterial lifestyles. In Gram-negative bacteria, a wide range of proteins are secreted to modulate the interactions of bacteria with their environments and other bacteria v... Protein secretion plays an important role in bacterial lifestyles. In Gram-negative bacteria, a wide range of proteins are secreted to modulate the interactions of bacteria with their environments and other bacteria via various secretion systems. These proteins are essential for the virulence of bacteria, so it is crucial to study them for the pathogenesis of diseases and the development of drugs. Using amino acid composition (AAC), position-specific scoring matrix (PSSM) and N-terminal signal peptides, two different substitution models are firstly constructed to transform protein sequences into numerical vectors. Then, based on support vector machine (SVM) and the “one to one”?algorithm, a hybrid multi-classifier named SecretP v.2.2 is proposed to rapidly and accurately?distinguish different types of Gram-negative?bacterial secreted proteins. When performed on the same test set for a comparison with other methods, SecretP v.2.2 gets the highest total sensitivity of 93.60%. A public independent dataset is used to further test the power of SecretP v.2.2 for predicting NCSPs, it also yields satisfactory results. 展开更多
关键词 GRAM-NEGATIVE Bacteria SECRETED Protein position-specific scoring matrix Signal Peptide Support Vector Machine
下载PDF
固有无序蛋白与结合配体作用位点的分析与预测 被引量:1
4
作者 冯永娥 孙鹏哲 张强 《内蒙古大学学报(自然科学版)》 CAS 北大核心 2023年第4期442-448,共7页
固有无序蛋白(简称IDPs)在生理条件下不具有稳定的二级或三级结构,但是在生物体内通过与结合配体相互作用来发挥重要的生物学功能,故研究固有无序蛋白与配体的相互作用,对理解这些蛋白的功能具有重要的生物学意义。本文基于IDPsBind数据... 固有无序蛋白(简称IDPs)在生理条件下不具有稳定的二级或三级结构,但是在生物体内通过与结合配体相互作用来发挥重要的生物学功能,故研究固有无序蛋白与配体的相互作用,对理解这些蛋白的功能具有重要的生物学意义。本文基于IDPsBind数据库,获得固有无序蛋白与5类配体分子(DNA,RNA,金属离子,肽,小分子)结合的结合位点,然后对这些结合位点处残基出现在5类结合位点的倾向性进行分析,结果发现:5类配体分子的结合位点处氨基酸的分布是不一样的。然后,利用滑动窗口中心残基的结合配体类型,建立5类结合配体的结合位点数据集,并提取四种特征参数:位置特异性矩阵(PSSM),20种氨基酸组分(AAC),以及残基的疏水性(HP)和溶剂可及表面积(SASA)特征,结合机器学习算法对5类结合位点进行分类识别,在5折交叉检验结果中预测准确率(Acc)最高达到87%,当特征融合后,预测准确率(Acc)达到88.3%。该研究结果对固有无序蛋白与结合配体相互作用的分析提供了很好的参考。 展开更多
关键词 固有无序蛋白 结合位点 位置特异性打分矩阵 支持向量机
下载PDF
利用位点特异性打分矩阵对大肠杆菌启动子的预测 被引量:2
5
作者 闫妍 万平 《生物信息学》 2015年第2期125-130,共6页
启动子是基因转录起始的一个关键性元件。本研究利用数据库中提供的大肠杆菌启动子数据,基于位点特异性打分矩阵(Position-specific scoring matrix,PSSM)算法建立了大肠杆菌启动子预测方法,并采用ROC曲线对预测结果进行评估。结果显示... 启动子是基因转录起始的一个关键性元件。本研究利用数据库中提供的大肠杆菌启动子数据,基于位点特异性打分矩阵(Position-specific scoring matrix,PSSM)算法建立了大肠杆菌启动子预测方法,并采用ROC曲线对预测结果进行评估。结果显示,本方法对大肠杆菌sigma24、sigma28、sigma32、sigma38、sigma54和sigma70启动子预测的准确度分别达到86%,96%,93%,96%,97%和74%。由于原核生物启动子序列的保守性,可将该方法推广至其他原核生物的启动子预测。 展开更多
关键词 大肠杆菌 启动子 位点特异性打分矩阵(PSSM) 预测
下载PDF
基于位点特异性打分矩阵的卷积神经网络预测SARS-CoV-2核衣壳蛋白的蛋白质二级结构 被引量:1
6
作者 钟琦 黄志鑫 陈晓舟 《云南民族大学学报(自然科学版)》 CAS 2021年第1期52-57,共6页
新型冠状病毒(SARS-CoV-2)有4种关键的结构蛋白,而核衣壳蛋白就是其中的1种.本实验从公开数据库NCBI上选取的SARS-CoV-2核衣壳蛋白质序列数据,分析SARS-CoV-2核衣壳蛋白与SARS-CoV核衣壳蛋白的序列相似性,对SARS-CoV-2核衣壳蛋白的理化... 新型冠状病毒(SARS-CoV-2)有4种关键的结构蛋白,而核衣壳蛋白就是其中的1种.本实验从公开数据库NCBI上选取的SARS-CoV-2核衣壳蛋白质序列数据,分析SARS-CoV-2核衣壳蛋白与SARS-CoV核衣壳蛋白的序列相似性,对SARS-CoV-2核衣壳蛋白的理化性质和疏水性进行分析;在此基础上提出基于位点特异性打分矩阵的卷积神经网络,预测SARS-CoV-2核衣壳蛋白的8类蛋白质二级结构.研究结果表明,核衣壳蛋白的二级结构主要为无规卷曲,此结果可为抗病毒药物的研发与新型冠状病毒肺炎的诊断提供参考. 展开更多
关键词 新型冠状病毒 核衣壳蛋白 理化性质 位点特异性打分矩阵 卷积神经网络
下载PDF
预测和鉴定蛋白质翻译后修饰的生物信息方法 被引量:1
7
作者 李虹 谢鹭 《现代生物医学进展》 CAS 2008年第9期1729-1735,共7页
蛋白质翻译后修饰对蛋白质成熟、结构和功能多样性有决定性的作用。但蛋白质翻译后修饰的多样性、普遍性、动态性,使传统的生物化学方法在全局水平上理解翻译后修饰非常有限,对它们的研究、特别是大规模的研究长期发展缓慢。现在,在实... 蛋白质翻译后修饰对蛋白质成熟、结构和功能多样性有决定性的作用。但蛋白质翻译后修饰的多样性、普遍性、动态性,使传统的生物化学方法在全局水平上理解翻译后修饰非常有限,对它们的研究、特别是大规模的研究长期发展缓慢。现在,在实验研究基础上,借助多方面的生物信息学方法,可以快速高通量的预测和鉴定蛋白质翻译后修饰。一方面,可以从序列角度出发,基于酶识别底物的特异性,用位点权重矩阵、支持向量机等算法,从底物蛋白质序列提取修饰相关的保守序列,并用于预测翻译后修饰位点。这种方法相对成熟,能够取得较理想的预测准确性,但不能反映不同时间不同细胞的翻译后修饰状态。另一方面,可从质谱数据分析出发,有望捕获细胞内翻译后修饰的动态特性。质谱分析的高灵敏度、高准确度和高通量的能力已使建立在质谱基础上的蛋白质组学成为研究翻译后修饰的重要工具,生物信息学方法和质谱蛋白质组学的结合则更可以加速研究翻译后修饰的进程。本文从序列和质谱分析两个角度总结评价了各种翻译后修饰相关生物信息学方法的研究近况,重点讨论利用质谱数据鉴定翻译后修饰的新思路。 展开更多
关键词 蛋白质翻译后修饰 位点权重矩阵 质谱 生物信息 蛋白质组学
原文传递
基于序列的蛋白质-GDP结合位点预测
8
作者 徐淑坦 王俊豪 陈明 《中国医学物理学杂志》 CSCD 2022年第11期1425-1430,共6页
蛋白质-GDP(Guanosine Diphosphate)结合位点的预测对蛋白质功能注释与新药发现有非常重要作用。为了提高预测蛋白质-GDP结合位点的准确度,提出一种基于序列的蛋白质-GDP结合位点预测方法,使用位置特异性迭代算法进行多序列对比得到位... 蛋白质-GDP(Guanosine Diphosphate)结合位点的预测对蛋白质功能注释与新药发现有非常重要作用。为了提高预测蛋白质-GDP结合位点的准确度,提出一种基于序列的蛋白质-GDP结合位点预测方法,使用位置特异性迭代算法进行多序列对比得到位置特异性得分矩阵,通过镜像残基可变滑动窗口方法选取蛋白质序列中每个残基的特征向量,利用CNMW(Clustering NearMiss-2 Weighted)下采样解决数据集正负样本的不平衡问题,最后使用支持向量机进行预测。实验结果显示与传统方法相比,本文方法在马修斯相关系数上有显著提升,表明本文方法的有效性和可行性。 展开更多
关键词 蛋白质-GDP结合位点 位置特异性得分矩阵 下采样 滑动窗口 支持向量机
下载PDF
基于三类特征融合的O-糖基化位点预测 被引量:1
9
作者 向妍 陈渊 +1 位作者 谭泗桥 袁哲明 《生物化学与生物物理进展》 SCIE CAS CSCD 北大核心 2016年第7期691-698,共8页
糖基化是蛋白质翻译后的主要修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题.以迄今最大的人O-糖基化位点Steentoft数据集为基础,本文首次提出了基于位置的卡方差表特征χ^2pos,融合伪氨基酸序列进化信... 糖基化是蛋白质翻译后的主要修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题.以迄今最大的人O-糖基化位点Steentoft数据集为基础,本文首次提出了基于位置的卡方差表特征χ^2pos,融合伪氨基酸序列进化信息Pse PSSM以及无方向的k间隔氨基酸对组分Undirected-CKSAAP表征序列,构建5个正负样本均衡的支持向量机分类器,经加权投票,独立测试准确率、Matthew相关系数及ROC曲线下面积,分别达到了89.62%、0.79、0.96,明显优于文献报道结果.χ^2pos、Pse PSSM与Undirected-CKSAAP三种特征的融合在蛋白质糖基化、磷酸化等位点预测中有广泛应用前景. 展开更多
关键词 O-糖基化位点预测 卡方差表特征 伪氨基酸序列进化信息 无方向的k间隔氨基酸对组分 加权投票
下载PDF
蛋白质中RNA-结合残基预测的随机森林模型 被引量:10
10
作者 马昕 郭静 孙啸 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第1期50-54,共5页
构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的... 构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的氨基酸理化特征.在设计模型时,考虑到样本数据量大的问题,选用了快速的随机森林算法.该预测模型总体预测准确率达到87.02%,特异性达到95.62%,敏感性达51.16%,Matthew相关系数为0.533 6.此外,还构建了RNA结合残基的预测平台. 展开更多
关键词 随机森林 位置特异性矩阵 嵌套式交叉验证 RNA-结合残基
下载PDF
基于加权PSSM直方图和随机森林集成的蛋白质交互作用位点预测 被引量:7
11
作者 魏志森 杨静宇 於东军 《南京理工大学学报》 EI CAS CSCD 北大核心 2015年第4期379-385,共7页
为了提高蛋白质相互作用位点预测的精度,该文基于蛋白质位置特异性得分矩阵(Position specific scoring matrix,PSSM),提出了一种新的加权得分矩阵直方图特征表示方法;针对训练数据的极端不平衡,结合下采样和分类器集成方法,训练随机森... 为了提高蛋白质相互作用位点预测的精度,该文基于蛋白质位置特异性得分矩阵(Position specific scoring matrix,PSSM),提出了一种新的加权得分矩阵直方图特征表示方法;针对训练数据的极端不平衡,结合下采样和分类器集成方法,训练随机森林集成分类器。相对于传统的特征,该文所提新特征具有更低的维数,同时拥有更好的鉴别性。分类器集成则缓解了下采样带来的信息丢失,并提高了分类精度。实验结果验证了所述方法是有效的,在标准数据集上的结果优于其他最新的蛋白质相互作用位点预测方法。 展开更多
关键词 蛋白质作用 位置特异性得分矩阵 加权得分矩阵直方图 随机森林 分类器集成
下载PDF
基于SVM-RFE算法的凋亡蛋白亚细胞定位预测 被引量:4
12
作者 刘太岗 王春华 《计算机工程与应用》 CSCD 北大核心 2017年第10期155-159,共5页
获取凋亡蛋白亚细胞定位的信息对揭示细胞程序性死亡的机制和注解蛋白质功能都具有非常重要的意义。鉴于实验方法确定亚细胞定位不仅费时费力而且代价过高,开发快速有效的计算方法预测亚细胞定位已成为生物信息学领域的重要研究内容之... 获取凋亡蛋白亚细胞定位的信息对揭示细胞程序性死亡的机制和注解蛋白质功能都具有非常重要的意义。鉴于实验方法确定亚细胞定位不仅费时费力而且代价过高,开发快速有效的计算方法预测亚细胞定位已成为生物信息学领域的重要研究内容之一。首先基于位置特异性得分矩阵提取氨基酸组分、二肽组分和自协方差变量等特征构建蛋白质序列的特征表示模型,然后采用递归特征消除法进行特征选择,最后选用支持向量机分类器在两个常用数据集上进行夹克刀检验。实验结果表明,该方法优于大多数已报道的预测方法,从而证明了其有效性。 展开更多
关键词 位置特异性得分矩阵 自协方差变换 支持向量机 递归特征消除 夹克刀检验
下载PDF
基于分类器集成的跨膜蛋白两亲螺旋区域位置预测 被引量:4
13
作者 郜法启 於东军 沈红斌 《南京理工大学学报》 EI CAS CSCD 北大核心 2016年第4期431-437,共7页
为提高跨膜蛋白两亲螺旋区域(Amphipathic helices,AHs)预测的精度,基于蛋白质位置特异性得分矩阵、二级结构以及疏水矩,提出了一种新的衡量两亲性的螺旋周期性(Helix periodicity,HP)特征;利用Mem Brain预测器滤除跨膜区域片段并使用... 为提高跨膜蛋白两亲螺旋区域(Amphipathic helices,AHs)预测的精度,基于蛋白质位置特异性得分矩阵、二级结构以及疏水矩,提出了一种新的衡量两亲性的螺旋周期性(Helix periodicity,HP)特征;利用Mem Brain预测器滤除跨膜区域片段并使用下采样的方法,降低了AHs的搜索空间;在此基础上训练基于支持向量机(Support vector machine,SVM)的集成分类器用于AHs预测。为了客观评价AHs的预测性能,首次构建了领域内较为完备可用的标准数据集。在此数据集上的实验结果表明所提方法优于其他AHs预测方法。 展开更多
关键词 跨膜蛋白 两亲螺旋区域 位置特异性得分矩阵 疏水矩 分类器集成
下载PDF
基于支持向量机的癌细胞经典分泌蛋白与非经典分泌蛋白识别研究 被引量:4
14
作者 余乐正 柳凤娟 +2 位作者 李东海 郭延芝 李益洲 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第1期152-156,共5页
基于支持向量机算法,本文提出了一种能快速准确区分癌细胞经典分泌蛋白与非经典分泌蛋白的方法.通过严格的特征筛选,氨基酸组成、位置特异性得分矩阵和信号肽组成了最优特征集.测试集检测结果表明,本方法对癌细胞经典分泌蛋白与非经典... 基于支持向量机算法,本文提出了一种能快速准确区分癌细胞经典分泌蛋白与非经典分泌蛋白的方法.通过严格的特征筛选,氨基酸组成、位置特异性得分矩阵和信号肽组成了最优特征集.测试集检测结果表明,本方法对癌细胞经典分泌蛋白与非经典分泌蛋白具有较强的区分能力,可为寻找到不同种类癌症间通用的生物标志物提供理论参考. 展开更多
关键词 支持向量机 癌症 非经典分泌蛋白 位置特异性得分矩阵 信号肽
下载PDF
Using position specific scoring matrix and auto covariance to predict protein subnuclear localization 被引量:2
15
作者 Rong-Quan Xiao Yan-Zhi Guo +4 位作者 Yu-Hong Zeng Hai-Feng Tan Hai-Feng Tan Xue-Mei Pu Meng-Long Li 《Journal of Biomedical Science and Engineering》 2009年第1期51-56,共6页
The knowledge of subnuclear localization in eukaryotic cells is indispensable for under-standing the biological function of nucleus, genome regulation and drug discovery. In this study, a new feature representation wa... The knowledge of subnuclear localization in eukaryotic cells is indispensable for under-standing the biological function of nucleus, genome regulation and drug discovery. In this study, a new feature representation was pro-posed by combining position specific scoring matrix (PSSM) and auto covariance (AC). The AC variables describe the neighboring effect between two amino acids, so that they incorpo-rate the sequence-order information;PSSM de-scribes the information of biological evolution of proteins. Based on this new descriptor, a support vector machine (SVM) classifier was built to predict subnuclear localization. To evaluate the power of our predictor, the benchmark dataset that contains 714 proteins localized in nine subnuclear compartments was utilized. The total jackknife cross validation ac-curacy of our method is 76.5%, that is higher than those of the Nuc-PLoc (67.4%), the OET- KNN (55.6%), AAC based SVM (48.9%) and ProtLoc (36.6%). The prediction software used in this article and the details of the SVM parameters are freely available at http://chemlab.scu.edu.cn/ predict_SubNL/index.htm and the dataset used in our study is from Shen and Chou’s work by downloading at http://chou.med.harvard.edu/ bioinf/Nuc-PLoc/Data.htm. 展开更多
关键词 position specific scoring matrix AUTO COVARIANCE Support Vector Machine Protein SUBNUCLEAR Localization Prediction
下载PDF
基于多视角特征融合与随机森林的蛋白质结晶预测 被引量:2
16
作者 李强 郑宇杰 《现代电子技术》 北大核心 2015年第8期50-53,共4页
X射线晶体结构分析是测定蛋白质结构的重要方法之一,国际蛋白质数据库(PDB)中已知晶体结构的蛋白质80%~90%均是使用该方法得到的。然而,并不是所有的蛋白质都能良好结晶,使用晶体结构分析方法对不能结晶的蛋白质进行结构测定将浪费... X射线晶体结构分析是测定蛋白质结构的重要方法之一,国际蛋白质数据库(PDB)中已知晶体结构的蛋白质80%~90%均是使用该方法得到的。然而,并不是所有的蛋白质都能良好结晶,使用晶体结构分析方法对不能结晶的蛋白质进行结构测定将浪费大量的资源。因此,研发准确高效的算法来对蛋白质能否结晶进行预测就具有重要意义。在此提出了一种组合蛋白质物理化学特性、序列信息与进化信息的蛋白质结晶预测方法。该方法从不同视角抽取分别抽取蛋白质的物理化学特征、伪氨基酸组成特征(Pse AAC)和伪位置特异性得分矩阵特征(Pse PSSM),使用随机森林对组合的特征进行蛋白质结晶预测。在标准数据集上的独立测试验证的结果表明,这里所述的蛋白质结晶预测方法具有良好的性能。 展开更多
关键词 蛋白质结晶 伪氨基酸组成 位置特异性得分矩阵 随机森林
下载PDF
基于随机下采样和SVR的蛋白质-ATP绑定位点预测 被引量:2
17
作者 余健浩 孙廷凯 《现代电子技术》 北大核心 2015年第4期19-24,共6页
将蛋白质序列的ATP绑定位点与非绑定位点进行分类是个不平衡的二分类问题,其中绑定位点是样本数目稀少的正类样本,非绑定位点是样本数目众多的负类样本。根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题... 将蛋白质序列的ATP绑定位点与非绑定位点进行分类是个不平衡的二分类问题,其中绑定位点是样本数目稀少的正类样本,非绑定位点是样本数目众多的负类样本。根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题本身的特点,在此提出一种基于随机下采样和支持向量回归的蛋白质-ATP绑定位点预测方法。首先,使用滑动窗口抽取蛋白质序列中每个残基的特征,得到一批不平衡的两类样本;其次,应用随机下采样策略,消除正负样本存在的显著不平衡;最后,使用支持向量回归建立预测模型,并选取合适的阈值进行蛋白质-ATP绑定位点的预测。在标准数据集上的实验结果以及与几种最新报道的预测方法的对比结果,验证了本文所述方法的有效性。 展开更多
关键词 蛋白质-ATP绑定位点 位置特异性得分矩阵 滑动窗口 支持向量回归模型 随机下采样
下载PDF
序列蛋白质-GDP绑定位点预测 被引量:2
18
作者 石大宏 何雪 《计算机工程与应用》 CSCD 北大核心 2016年第13期55-59,75,共6页
正确地识别蛋白质-二磷酸鸟苷(Guanosine Diphosphate,GDP)绑定位点对于蛋白质功能分析和药物设计有非常重要的意义。蛋白质-GDP绑定位点预测是一个典型的不平衡学习问题。直接应用传统的机器学习方法是不合适的,而且会使预测结果偏向... 正确地识别蛋白质-二磷酸鸟苷(Guanosine Diphosphate,GDP)绑定位点对于蛋白质功能分析和药物设计有非常重要的意义。蛋白质-GDP绑定位点预测是一个典型的不平衡学习问题。直接应用传统的机器学习方法是不合适的,而且会使预测结果偏向大多数类。为了解决这个问题,在基于稀疏表示的位置特异性得分矩阵特征基础上,提出了加权下采样方法来使得样本平衡,采用支持向量机算法来预测。实验结果表明提出的方法能获得更高的预测性能。 展开更多
关键词 蛋白质-GDP绑定预测 位置特异性得分矩阵 稀疏表示 加权下采样 支持向量机
下载PDF
基于SVM的革兰氏阴性菌分泌系统蛋白识别方法 被引量:2
19
作者 余乐正 赵柳青 +2 位作者 陈曼 罗杰斯 柳凤娟 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第2期443-447,共5页
本文提出了一种基于SVM快速识别革兰氏阴性菌分泌系统蛋白的方法.该方法以氨基酸组成和位置特异性得分矩阵为最优特征集,充分考虑了蛋白质的序列信息及进化信息.实验结果表明,本文提出的方法对革兰氏阴性菌分泌系统蛋白具有较好的预测性... 本文提出了一种基于SVM快速识别革兰氏阴性菌分泌系统蛋白的方法.该方法以氨基酸组成和位置特异性得分矩阵为最优特征集,充分考虑了蛋白质的序列信息及进化信息.实验结果表明,本文提出的方法对革兰氏阴性菌分泌系统蛋白具有较好的预测性能,可作为细菌分泌系统研究的有益补充. 展开更多
关键词 革兰氏阴性细菌 分泌系统蛋白 SVM 位置特异性得分矩阵
下载PDF
Using the improved position specific scoring matrix and ensemble learning method to predict drug-binding residues from protein sequences
20
作者 Juan Li Yongqing Zhang +5 位作者 Wenli Qin Yanzhi Guo Lezheng Yu Xuemei Pu Menglong Li Jing Sun 《Natural Science》 2012年第5期304-312,共9页
Identification of the drug-binding residues on the surface of proteins is a vital step in drug discovery and it is important for understanding protein function. Most previous researches are based on the structural inf... Identification of the drug-binding residues on the surface of proteins is a vital step in drug discovery and it is important for understanding protein function. Most previous researches are based on the structural information of proteins, but the structures of most proteins are not available. So in this article, a sequence-based method was proposed by combining the support vector machine (SVM)-based ensemble learning and the improved position specific scoring matrix (PSSM). In order to take the local environment information of a drug-binding site into account, an improved PSSM profile scaled by the sliding window and smoothing window was used to improve the prediction result. In addition, a new SVM-based ensemble learning method was developed to deal with the imbalanced data classification problem that commonly exists in the binding site predictions. When performed on the dataset of 985 drug-binding residues, the method achieved a very promising prediction result with the area under the curve (AUC) of 0.9264. Furthermore, an independent dataset of 349 drug- binding residues was used to evaluate the pre- diction model and the prediction accuracy is 84.68%. These results suggest that our method is effective for predicting the drug-binding sites in proteins. The code and all datasets used in this article are freely available at http://cic.scu.edu.cn/bioinformatics/Ensem_DBS.zip. 展开更多
关键词 DRUG-BINDING SITE Prediction position specific scoring matrix ENSEMBLE Learning Support Vector Machine
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部