基于最佳样本标记的主动支持向量机学习策略被引量：3

An Active Learning Strategy of SVM Via Optimal Selection of Labeled Data

下载PDF

导出

摘要支持向量机通过随机选择标记的训练样本进行有监督学习,随着信息容量的增加和数据收集能力的提高,这需要耗费大量的标记工作量,给实际应用带来不少困难。本文提出了基于最佳样本标记的主动支持向量机学习策略:首先利用无监督聚类选择一个小规模的样本集进行标记,然后训练该标记样本集得到一个初始SVM分类器,然后利用该分类器主动选择最感兴趣的无标记样本进行标记,逐渐增加标记样本的数量,并在此基础上更新分类器,反复进行直到得到最佳性能的分类器。实验结果表明在基本不影响分类精度的情况下,主动学习选择的标记样本数量大大低于随机选择的标记样本数量,这大大降低了标记的工作量,而且训练速度同样有所提高。 Support Vector machine is an effective supervised learning classifier by random selecting labeled samples, however it need label large-scale samples in actual large data application by manual works. This paper describes a active learning strategy for SVM. The learning strategy is motivated by the statistical query model and unsupervised clustering method. First the initial classifier with a small training set selected by unsupervised clustering operation, then prune the large training set with the initial classifier to query the informative unlabeled samples and add them into labeled set. New labeled set is used to update the classifier again and again until gain the expectation classifier performance. The experimental results show that the active SVM learning strategy provides the same accurate classification performance as the passive SVM classifier obtained by training large labeled set directly while minimizing the labeling effort.

作者胡正平

机构地区燕山大学通信电子工程系哈尔滨工业大学信息工程系图像信息处理研究所

出处《信号处理》 CSCD 北大核心 2008年第1期105-107,共3页 Journal of Signal Processing

关键词主动学习核函数支持向量机被动学习无监督聚类 active learning kernel function support vector machine passive learning unsupervised clustering

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] Q949.288.4 [自动化与计算机技术—控制科学与工程]

引文网络
相关文献

参考文献1

1宫秀军,孙建平,史忠植.主动贝叶斯网络分类器[J].计算机研究与发展,2002,39(5):574-579. 被引量：37

二级参考文献1

1史忠植.知识发现[M].北京:清华大学出版社,2000.. 被引量：7

共引文献36

1王利民,李雄飞,张海龙.基于广义信息论的贝叶斯分类器动态建模[J].吉林大学学报（工学版）,2009,39(3):776-780. 被引量：5
2李笛,胡学钢,胡春玲.主动贝叶斯分类方法研究[J].计算机研究与发展,2007,44(z2):47-51. 被引量：1
3李仪,蔡自兴.基于贝叶斯分类器的移动机器人避障[J].控制工程,2004,11(4):332-334. 被引量：4
4刘丽珍,宋瀚涛,陆玉昌.无标记训练样本的Web文本分类方法[J].计算机科学,2006,33(3):200-201. 被引量：2
5谷峰,吴扬扬.文本分类关键技术[J].福建电脑,2006,22(9):5-6. 被引量：2
6赵悦,穆志纯.基于委员会投票选择方法的主动学习的研究[J].太原理工大学学报,2006,37(4):469-472. 被引量：7
7黄光球,孙周军,刘兆明.基于贝叶斯置信网的日志服务系统容侵方法研究[J].微电子学与计算机,2006,23(12):53-57. 被引量：1
8赵悦,穆志纯.基于QBC的主动学习研究及其应用[J].计算机工程,2006,32(24):23-25. 被引量：5
9赵悦,穆志纯,李霞丽,潘秀琴.一种基于EM和分类损失的半监督主动DBN学习算法[J].小型微型计算机系统,2007,28(4):656-660. 被引量：2
10赵悦,穆志纯,董洁,付冬梅,何伟.基于QBC主动学习方法建立电信客户信用风险等级评估模型[J].北京科技大学学报,2007,29(4):442-446. 被引量：2

同被引文献43

1徐杰,施鹏飞.图像检索中基于标记与未标记样本的主动学习算法[J].上海交通大学学报,2004,38(12):2068-2072. 被引量：7
2李东晖,杜树新,吴铁军.基于壳向量的线性支持向量机快速增量学习算法[J].浙江大学学报（工学版）,2006,40(2):202-206. 被引量：16
3张翔,肖小玲,徐光祐.基于最大熵估计的支持向量机概率建模[J].控制与决策,2006,21(7):767-770. 被引量：12
4赵悦,穆志纯,董洁,付冬梅,何伟.基于QBC主动学习方法建立电信客户信用风险等级评估模型[J].北京科技大学学报,2007,29(4):442-446. 被引量：2
5Vapnik V. The nature of statistical learning theory[M]. New York: Springer Press, 1995. 被引量：1
6Cohn D A, Ghahramani Z, Jordan M I. Active learning with statistical models[J]. J of Artificial Intelligence Research, 1996, 4: 129-145. 被引量：1
7Roy N, McCallum A K. Toward optimal active learning through sampling estimation of error reduction[C]. Proc of 18th Int Conf on Machine Learning. San Francisco: Morgan Kaufmann, 2001: 441-448. 被引量：1
8Lewis D D, Gale W. A sequential algorithm for training text classifiers [C]. Proc of 17th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. Dublin: Springer-Verlag, 1994: 3-12. 被引量：1
9Seung H S, Opper M, Sompolinsky H. Query by committee[C]. Proc of 15th Annual ACM Workshop on Computational Learning Theory. Pittsburgh: Morgan Kaufmann, 1992: 287-294. 被引量：1
10Freund Y, Seung H S, Samir E, et al. Selective sampling using the query by committee algorithm[J]. Machine Learning, 1997, 28(2/3): 133-168. 被引量：1

引证文献3

1徐海龙,王晓丹,廖勇,权文.一种基于主动学习的SVM增量训练算法[J].控制与决策,2010,25(2):282-286. 被引量：3
2徐海龙,别晓峰,冯卉,吴天爱.一种基于QBC的SVM主动学习算法[J].系统工程与电子技术,2015,37(12):2865-2871. 被引量：8
3徐海龙,龙光正,别晓峰,吴天爱,郭蓬松.结合Tri-training半监督学习和凸壳向量的SVM主动学习算法[J].模式识别与人工智能,2016,29(1):39-46. 被引量：6

二级引证文献17

1刘振宇,李钦富,杨硕,邓应强,刘芬,赖新明,白雪珂.一种基于主动学习和多种监督学习的情感分析模型[J].中国电子科学研究院学报,2020,15(2):171-176. 被引量：2
2徐海龙,别晓峰,冯卉,吴天爱.一种基于QBC的SVM主动学习算法[J].系统工程与电子技术,2015,37(12):2865-2871. 被引量：8
3徐海龙,龙光正,别晓峰,吴天爱,郭蓬松.结合Tri-training半监督学习和凸壳向量的SVM主动学习算法[J].模式识别与人工智能,2016,29(1):39-46. 被引量：6
4方一鸣,胡春洋,刘乐,张兴明.基于主动学习GA-SVM分类器的连铸漏钢预报[J].中国机械工程,2016,27(12):1609-1614. 被引量：8
5朱东阳,沈静逸,黄炜平,梁军.基于主动学习和加权支持向量机的工业故障识别[J].浙江大学学报（工学版）,2017,51(4):697-705. 被引量：3
6杜红乐,张燕.基于Tri-training直推式支持向量机算法[J].河南科学,2017,35(7):1032-1036.
7杜红乐,张燕.代价敏感的直推式支持向量机算法[J].河南科学,2017,35(8):1227-1231.
8陈涛,张华飞,衣传宝,孙成勋,高阳,徐华雷.改进的Adaboost方法及其在水电站设备故障检测中的应用[J].水力发电,2018,44(3):62-65. 被引量：3
9林志鸿.基于改进Tri-Training算法的大数据保险业客户分类研究[J].韶关学院学报,2018,39(3):24-27.
10陈深进,薛洋,欧勇辉.基于无监督学习的实时公交动态调度的研究[J].重庆邮电大学学报（自然科学版）,2019,31(2):191-199. 被引量：5

1张林.遥感图像分类的主动支持向量机的研究与实现[J].信息与电脑（理论版）,2009(12):33-33. 被引量：3
2徐冉冉,李文斌,李朝锋.支持向量机在遥感图像分类中的应用研究综述[J].电脑知识与技术,2012,8(6X):4495-4497. 被引量：2
3冯筠,姜军,叶豪盛,王惠亚.基于主动支持向量机的乳腺癌微钙化簇检测[J].计算机科学,2010,37(2):237-241.
4宋丹,石勇,邓宸伟.基于局部线性重构的主动支持向量机分类器构建方法[J].系统工程,2016,34(10):135-141. 被引量：1
5高洪波,廖明潮.一种改进的DV-HOP算法在WSN中的定位研究[J].科技通报,2014,30(9):162-166. 被引量：4
6樊继伟,李朝锋,吴小俊.改进的概率选择主动支持向量机算法[J].计算机工程与应用,2010,46(35):188-191. 被引量：5
7姚远,张林剑,乔文豹.RGB-D图像中手部样本标记与手势识别[J].计算机辅助设计与图形学学报,2013,25(12):1810-1817. 被引量：14
8张凯,王东安,李超,贾冰.基于协同采样主动学习的恶意代码检测[J].高技术通讯,2016,26(5):458-463. 被引量：1
9冯冲,陈肇雄,黄河燕,关真珍.基于Multigram语言模型的主动学习中文分词[J].中文信息学报,2006,20(1):50-58. 被引量：6
10赵艳秋,封志宏.基于XML的Web搜索推荐系统中用户兴趣模型的建立研究[J].网络安全技术与应用,2009(3):65-66. 被引量：2

信号处理

2008年第1期

浏览历史

内容加载中请稍等...

基于最佳样本标记的主动支持向量机学习策略被引量：3

参考文献1

二级参考文献1

共引文献36

同被引文献43

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于最佳样本标记的主动支持向量机学习策略 被引量：3

参考文献1

二级参考文献1

共引文献36

同被引文献43

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于最佳样本标记的主动支持向量机学习策略被引量：3