一种有效的蛋白质序列聚类分析方法被引量：15

Efficient Cluster Analysis Method for Protein Sequences

下载PDF

导出

摘要提出了一种有效的基于仿射传播聚类算法和后处理方法的蛋白质序列聚类方法.在聚类分析蛋白质序列时,为了优化仿射传播聚类算法的聚类结果,采用后处理的方式来提高聚类结果的质量.为了度量蛋白质序列之间的相似度,给出了一种改进的无比对计算方法.在6个蛋白质序列数据集上进行对比实验,实验结果表明,所给出的方法能够有效地分析蛋白质序列. This paper proposes an efficient clustering method for protein sequences, using Affinity propagation algorithm （AP） and post-processing. In order to optimize the clustering result, post-processing is used to improve the clustering result of AP. To measure the similarity between two protein sequences, an improved alignment-free similarity measure is presented. This method is evaluated and compared with other algorithms on six protein sequences data sets. Experimental results demonstrate the effective performance of the proposed method.

作者唐东明朱清新杨凡陈科

机构地区电子科技大学计算机科学与工程学院

出处《软件学报》 EI CSCD 北大核心 2011年第8期1827-1837,共11页 Journal of Software

基金国家自然科学基金(60671033)

关键词模式识别聚类分析序列分析蛋白质序列 pattern recognition cluster analysis sequence analysis protein sequence

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86
2王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246. 被引量：144

二级参考文献47

1[1]Fasulo, D. An analysis of recent work on clustering algorithms. Technical Report, Department of Computer Science and Engineering, University of Washington, 1999. http://www.cs.washington.edu. 被引量：1
2[2]Baraldi, A., Blonda, P. A survey of fuzzy clustering algorithms for pattern recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 1999,29:786～801. 被引量：1
3[3]Keim, D.A., Hinneburg, A. Clustering techniques for large data sets - from the past to the future. Tutorial Notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining. San Diego, CA, ACM, 1999. 141～181. 被引量：1
4[4]McQueen, J. Some methods for classification and Analysis of Multivariate Observations. In: LeCam, L., Neyman, J., eds. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967. 281～297. 被引量：1
5[5]Zhang, T., Ramakrishnan, R., Livny, M. BIRCH: an efficient data clustering method for very large databases. In: Jagadish, H.V., Mumick, I.S., eds. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data. Quebec: ACM Press, 1996. 103～114. 被引量：1
6[6]Guha, S., Rastogi, R., Shim, K. CURE: an efficient clustering algorithm for large databases. In: Haas, L.M., Tiwary, A., eds. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 73～84. 被引量：1
7[7]Beyer, K.S., Goldstein, J., Ramakrishnan, R., et al. When is 'nearest neighbor' meaningful? In: Beeri, C., Buneman, P., eds. Proceedings of the 7th International Conference on Data Theory, ICDT'99. LNCS1540, Jerusalem, Israel: Springer, 1999. 217～235. 被引量：1
8[8]Ester, M., Kriegel, H.-P., Sander, J., et al. A density-based algorithm for discovering clusters in large spatial databases with noises. In: Simoudis, E., Han, J., Fayyad, U.M., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD'96). AAAI Press, 1996. 226～231. 被引量：1
9[9]Ester, M., Kriegel, H.-P., Sander, J., et al. Incremental clustering for mining in a data warehousing environment. In: Gupta, A., Shmueli, O., Widom, J., eds. Proceedings of the 24th International Conference on Very Large Data Bases. New York: Morgan Kaufmann, 1998. 323～333. 被引量：1
10[10]Sander, J., Ester, M., Kriegel, H.-P., et al. Density-Based clustering in spatial databases: the algorithm GDBSCAN and its applications. Data Mining and Knowledge Discovery, 1998,2(2):169～194. 被引量：1

共引文献228

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3李华,贾雪.基于FM度量的自适应K-Means聚类的工业生产运行基准挖掘[J].长春大学学报,2022,32(4):22-27.
4Qi Zhang,Jianshe Cao,Yanfeng Sui.Development of a research platform for BEPCⅡ accelerator fault diagnosis[J].Radiation Detection Technology and Methods,2020,4(3):269-276.
5郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
6常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
7王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
8张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
9杨涛,李龙澍.一种基于粗糙集聚类的数据约简算法[J].系统仿真学报,2004,16(10):2195-2197. 被引量：5
10张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1

同被引文献83

1王红瑞,钱龙霞,许新宜,王岩.基于模糊概率的水资源短缺风险评价模型及其应用[J].水利学报,2009,39(7):813-821. 被引量：52
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3陆薛妹,胡轶,方建安.基于分段极值DTW距离的时间序列相似性度量[J].微计算机信息,2007,23(27):204-206. 被引量：5
4王备,王继成.图像分割中模糊聚类数目的确定[J].计算机技术与发展,2007,17(10):162-164. 被引量：7
5沈洁,赵雷,杨季文,李榕.一种基于划分的层次聚类算法[J].计算机工程与应用,2007,43(31):175-177. 被引量：13
6Frey B J, Dueck D. Clustering by Passing Messages between Data Points [J]. Science, 2007, 315:972-976. 被引量：1
7Yang C, Bruzzone L, Guan R C, et al. Incremental and Decremental Affinity Propagation for Semi supervised Clustering in Multispectral Images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(3) : 1666 -1679. 被引量：1
8Xu B, Hu R, Guo P. Combining Affinity Propagation with Supervised Dictionary Learning for Image Classification [J]. Neural Computing and Applications, 2(513, 22(7/8): 1301-1308. 被引量：1
9Saracli S. Performance of Rand's Cstatistics in Clustering Analysis: An Application to Clustering the Regions of Turkey [J]. Journal of Inequalities and Applications, 2013(1) : 1-9. 被引量：1
10Fujiwara Y, Irie G, Kitahara T. Fast Algorithm for Affinity Propagation [C]//Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. Menlo Park, California: AAAI Press, 2011: 2238 2243. 被引量：1

引证文献15

1王丽敏,姬强,韩旭明,黄娜.基于奇异值分解的自适应近邻传播聚类算法[J].吉林大学学报（理学版）,2014,52(4):753-757. 被引量：4
2倪志伟,荆婷婷,倪丽萍.一种近邻传播的层次优化算法[J].计算机科学,2015,42(3):195-200. 被引量：4
3赵自阳,李王成,王霞,刘学智,崔婷婷,程载恒,王帅,陶明华.基于蚁群算法的我国水资源短缺风险聚类分析[J].节水灌溉,2017(7):70-76. 被引量：7
4万静,张超,何云斌,李松.可变网格优化的K-means聚类方法[J].小型微型计算机系统,2018,39(1):95-99. 被引量：10
5孙启航,杨鹤标.基于编辑距离的序列聚类算法的优化[J].计算机技术与发展,2018,28(3):109-113. 被引量：1
6程铃钫,陈黎飞.符号序列的概率向量聚类方法[J].计算机应用研究,2018,35(6):1676-1680.
7李琳丹,许雅玺,张榆薪,刘坤.基于聚类算法的飞行航迹分析[J].现代计算机,2018,24(19):3-7. 被引量：1
8丁玉连,雷秀娟,代才.模拟鸽子优化过程的蛋白质复合物识别算法[J].计算机科学与探索,2017,11(8):1279-1287. 被引量：2
9张琳,张进.基于PPIN的社交网络推荐系统[J].东南大学学报（自然科学版）,2017,47(3):478-482. 被引量：2
10张榆薪,王欣.基于近邻传播算法的航迹聚类分析[J].软件导刊,2018,17(4):89-90. 被引量：2

二级引证文献35

1胡健,朱海湾,毛伊敏.基于蚁群聚类的动态加权PPI网络复合物挖掘[J].计算机应用研究,2020,37(2):390-397. 被引量：2
2赵红玲,陈俊旭,吕燕,李子晨.玉溪市水资源短缺风险时空分异及预测研究[J].节水灌溉,2019(1):57-60. 被引量：1
3夏春梦,倪志伟,倪丽萍,张霖.基于密度调整和流形距离的近邻传播算法[J].计算机科学,2017,44(10):187-192. 被引量：4
4郑志娴,吴为民,李慧敏.基于CURE聚类优化的数据挖掘算法研究[J].哈尔滨商业大学学报（自然科学版）,2017,33(6):723-727. 被引量：3
5孙彤.基于改进蚁群算法的变压器内部放电故障检测技术研究[J].电子制作,2018,26(9):99-100.
6李琳丹,许雅玺,张榆薪,刘坤.基于聚类算法的飞行航迹分析[J].现代计算机,2018,24(19):3-7. 被引量：1
7刘小锋,冯志敏,陈跃华,张刚,李宏伟.基于AP聚类RBF神经网络的改进算法及试验[J].传感技术学报,2018,31(3):408-414. 被引量：2
8姜建华,吴迪,郝德浩,王丽敏,张永刚,李克勤.基于CDbw和人工蜂群优化的密度峰值聚类算法[J].吉林大学学报（理学版）,2018,56(6):1469-1475. 被引量：3
9曾新,杨健,张鑫,陶安玲.基于K-means算法的优秀班集体评选方法[J].大理大学学报,2018,3(12):24-29. 被引量：1
10邹臣嵩,杨宇.基于密度和最优聚类数的入侵检测方法[J].西南师范大学学报（自然科学版）,2018,43(12):91-99. 被引量：3

1赵小强,谢亚萍.基于局部线性嵌入的半监督仿射传播聚类算法[J].兰州理工大学学报,2015,41(1):96-100. 被引量：3
2赵丹丹,谢春利,王培昌.一类混杂系统的模型辨识[J].大连民族学院学报,2013,15(5):547-550.
3雷琪,余慧萍,吴敏.主动半监督仿射传播聚类算法[J].模式识别与人工智能,2015,28(11):961-968. 被引量：2
4李雅芹,杨慧中.基于仿射传播聚类和高斯过程的多模型建模方法[J].计算机与应用化学,2010,27(1):51-54. 被引量：15
5郝美玉,田学民,王平.基于自适应仿射传播聚类算法的多模型建模方法[J].青岛科技大学学报（自然科学版）,2012,33(5):515-519. 被引量：1
6于吉红,白晓明,吕俊伟.改进相似度的仿射传播聚类算法[J].小型微型计算机系统,2013,34(3):602-605. 被引量：3
7孙茂伟,杨慧中.基于改进仿射传播聚类的多模型软测量建模及应用[J].南京理工大学学报,2016,40(2):204-211. 被引量：6
8熊伟丽,张乾,徐保国.改进仿射传播聚类的LS-SVM多模型建模方法[J].计算机与应用化学,2014,31(7):802-806. 被引量：1
9赵启升,李存华.仿射传播聚类算法和稀疏贝叶斯的网络流量预测模型[J].计算机应用研究,2015,32(11):3371-3374. 被引量：3
10宋坤,李丽娟,赵英凯.基于PCA的仿射传播聚类算法[J].计算机工程与应用,2011,47(34):212-214. 被引量：3

软件学报

2011年第8期

浏览历史

内容加载中请稍等...

一种有效的蛋白质序列聚类分析方法被引量：15

参考文献2

二级参考文献47

共引文献228

同被引文献83

引证文献15

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

一种有效的蛋白质序列聚类分析方法 被引量：15

参考文献2

二级参考文献47

共引文献228

同被引文献83

引证文献15

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

一种有效的蛋白质序列聚类分析方法被引量：15