基于聚类的快速支持向量机训练算法被引量：1

Fast training support vector machine based on clustering

下载PDF

导出

摘要支持向量机(support vectormachine,SVM)具有良好的泛化性能而被广泛应用于机器学习及模式识别领域。然而,当训练集较大时,训练SVM需要极大的时间及空间开销。另一方面,SVM训练所得的判定函数取决于支持向量,使用支持向量集取代训练样本集进行学习,可以在不影响结果分类器分类精度的同时缩短训练时间。采用混合方法来削减训练数据集,实现潜在支持向量的选择,从而降低SVM训练所需的时间及空间复杂度。实验结果表明,该算法在极大提高SVM训练速度的同时,基本维持了原始分类器的泛化性能。 SVM is a well-known method used for pattern recognition and machine learning. However, training a SVM is very costly in terms of time and memory consumption when the data set is large. In contrast, the SVM decision function is fully determined by a small subset of the training data, called support vectors. Therefore, removing any training samples that are not relevant to support vectors might have no effect on building the proper decision function. This paper proposed a hybrid method to remove from the training set the data that was irrelevant to the final decision function, and thus the number of vectors for SVM training became small and the training time could be decreased greatly. Experimental results show that a significant a- mount of training time can be reduced by the method without compromising the generalization capability of SVM.

作者曾志强高济谢彦麒

机构地区厦门理工学院计算机科学与技术系浙江大学计算机科学与技术系

出处《计算机应用研究》 CSCD 北大核心 2009年第4期1253-1256,共4页 Application Research of Computers

基金国家“973”计划重点基础研究发展资助项目(2003CB317000) 厦门理工学院引进人才项目(YKJ08003R)

关键词二次规划无监督聚类权值距离阈值潜在支持向量 quadratic programming（QP） unsupervised clustering weight distance threshold potential support vector

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1VAPNIK V. The nature of statistical learning theory [ M ]. New York : Springer-Verlag, 1995. 被引量：1
2BALCAZAR J L, DAI Y, WATANABE O. Provably fast training algorithms for support vector machines[ C]//Proc of the 1st IEEE International Conference on Data Mining ( ICDM'OI ). [ S. l. ] : IEEE Computer Society, 2001 : 43-50. 被引量：1
3AGARWAL D K. Shrinkage estimator generalizations of proximal support vector machines[ C]//Proc of the 8th ACM SIGKDD International Conference of Knowledge Discovery and Data Mining (SIGKDD'02). Edmonton, Canada: [ s. n. ], 2002: 173-182. 被引量：1
4VALENTINI G, DIETTERICH T G. Low bias bagged support vector machines [ C ]//Proc of the 20th International Conference on Machine Learning ( ICML'03 ). Washington DC : [ s. n. ] , 2003 : 752- 759. 被引量：1
5SHIH L, RENNIE J D M, CHANG Y H, et al. Text bundling:statistics-based data reduction [ C ]//Proc of the 20th International Conference on Machine Learning ( ICML'03 ). Washington DC : [ s. n. ], 2003, 377- 387. 被引量：1
6DANIAEL B, CAO D. Training support vector machines using adaptive clustering[ C]//Proc of SIAM International Conference on Data Mining (SIAM' 04) . Lake Buena Vista, FL:[s. n. ], 2004: 126- 136. 被引量：1
7李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
8YU H, YANG Jiong, HAN Jia-wei. Classifying large data sets using SVM with hierarchical clusters[ C ]//Proc of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'02) . New York: ACM Press,2002: 306-315. 被引量：1
9CHANG C C, LIN C J. LIBSVM: a library for support vector machines [ EB/OL]. http ://www. csie. ntu. edu. tw/cjlin/libsvm. 被引量：1
10MURPHY P M, AHA D W. UCI repository of machine learning databases [ EB/OL]. (1994). http://www. ics. uci. edu/- mleam/ML- Repository. html. 被引量：1

二级参考文献1

1李晓黎,史忠植.用数据采掘方法获取汉语词性标注规则[J].计算机研究与发展,2000,37(12):1409-1414. 被引量：10

共引文献107

1王世卫,李爱国.报税欺诈检测研究[J].仪器仪表学报,2005,26(z1):900-901.
2童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
3郑松峰,徐维朴,刘维湘,郑南宁.基于无监督聚类的约简支撑向量机[J].计算机工程与应用,2004,40(14):74-76. 被引量：1
4贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
5江宝林,申展,张川,葛家翔,胡运发.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32. 被引量：9
6张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
7包骏杰,马燕.一种基于互联网智能元搜索引擎的研究[J].计算机科学,2004,31(6):103-105. 被引量：1
8黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
9王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2
10梁春燕,郭力,夏诏杰,杨章远.网络搜索引擎的性能优化策略和相关技术[J].计算机工程与应用,2004,40(36):179-182. 被引量：5

同被引文献6

1张国云,章兢.一种新的分裂层次聚类SVM多值分类器[J].控制与决策,2005,20(8):931-934. 被引量：9
2史朝辉,王晓丹,赵士敏,杨建勋.改进的SVM决策树分类算法[J].空军工程大学学报（自然科学版）,2006,7(2):32-35. 被引量：10
3张新峰,沈兰荪.加权SVM在中医舌象分类与识别中的应用研究[J].中国生物医学工程学报,2006,25(2):230-233. 被引量：17
4BENNETT K P, BLUE J A. A support vector machine approach to decision trees [ C] // Proceedings of 1998 International Joint Conference on Neural Networks. Anchorage Alaska: IEEE Press, 1998: 2396 - 2401. 被引量：1
5VapnikVN.统计学习理论的本质[M].北京：清华大学出版社,2000.. 被引量：171
6周轼,陈兵.基于聚类和距离比较的约简加权SVM入侵检测方法[J].数据采集与处理,2009,24(2):232-237. 被引量：1

引证文献1

1胡康达,符红光,孔祥振.分级聚类支持向量机在中医舌像分类中的应用[J].计算机应用,2010,30(12):272-273. 被引量：3

二级引证文献3

1陈越,蒋霆辉,茹魏哲,茅爱武,刘艳.Objective Tongue Inspection on 142 Liver Cancer Patients with Damp-Heat Syndrome[J].Chinese Journal of Integrative Medicine,2014,20(8):585-590. 被引量：4
2阚红星,张璐瑶,董昌武.一种2型糖尿病中医证型的舌图像识别方法[J].中国生物医学工程学报,2016,35(6):658-664. 被引量：30
3王东军,孙璇,田之魁,关媛媛,田春颖,朱青青,周宗慧,周密,王泓午.肺癌的舌象研究现状[J].时珍国医国药,2021,32(7):1718-1719. 被引量：4

1马宗方,程咏梅,潘泉,王慧琴,杨娜娟.基于快速支持向量机的图像型火灾探测算法[J].计算机应用研究,2010,27(10):3985-3987. 被引量：15
2朱方,顾军华,杨欣伟,杨瑞霞.一种新的支持向量机大规模训练样本集缩减策略[J].计算机应用,2009,29(10):2736-2740. 被引量：11
3赵耀红,王快妮,钟萍,王来生.快速支持向量机增量学习算法[J].计算机工程与设计,2010,31(1):161-163. 被引量：8
4白勇峰,任小康.基于粗糙集与SVM的图像检索相关反馈算法[J].佳木斯大学学报（自然科学版）,2010,28(2):187-189.
5奉国和.边界K邻近大样本支持向量机分类[J].计算机工程与应用,2009,45(23):15-17. 被引量：2
6田新梅,吴秀清,刘莉.大样本情况下的一种新的SVM迭代算法[J].计算机工程,2007,33(8):205-207. 被引量：4
7花小朋,皋军,田明,刘其明.改进的SVDD增量学习算法[J].计算机工程,2009,35(22):210-211. 被引量：6
8刘叶青,罗艾花,谷明涛.有新样本加入的支持向量机的学习策略[J].河南科技大学学报（自然科学版）,2007,28(5):70-72.
9张永,周振龙,侯莉莉,张世宏.使用增量SVM进行文本分类[J].兰州理工大学学报,2007,33(1):100-103. 被引量：6
10刘建,万坚,黄渊凌.一种基于有效向量集的SVDD增量学习算法[J].电信技术研究,2013(2):15-20. 被引量：1

计算机应用研究

2009年第4期

浏览历史

内容加载中请稍等...

基于聚类的快速支持向量机训练算法被引量：1

参考文献10

二级参考文献1

共引文献107

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于聚类的快速支持向量机训练算法 被引量：1

参考文献10

二级参考文献1

共引文献107

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于聚类的快速支持向量机训练算法被引量：1