基于多源的跨领域数据分类快速新算法被引量：9

A New Cross-multidomain Classification Algorithm and Its Fast Version for Large Datasets

下载PDF

导出

摘要研究跨领域学习与分类是为了将对多源域的有监督学习结果有效地迁移至目标域,实现对目标域的无标记分类.当前的跨领域学习一般侧重于对单一源域到目标域的学习,且样本规模普遍较小,此类方法领域自适应性较差,面对大样本数据更显得无能为力,从而直接影响跨域学习的分类精度与效率.为了尽可能多地利用相关领域的有用数据,本文提出了一种多源跨领域分类算法(Multiple sources cross-domain classification,MSCC),该算法依据被众多实验证明有效的"罗杰斯特回归模型"与"一致性方法"构建多个源域分类器并综合指导目标域的数据分类.为了充分高效利用大样本的源域数据,满足大样本的快速运算,在MSCC的基础上,本文结合最新的CDdual(Dual coordinate descent method)算法,提出了算法MSCC的快速算法MSCC-CDdual,并进行了相关的理论分析.人工数据集、文本数据集与图像数据集的实验运行结果表明,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性.本文的主要贡献体现在三个方面:1)针对多源跨领域分类提出了一种新的"一致性方法",该方法有利于将MSCC算法发展为MSCC-CDdual快速算法;2)提出了MSCC-CDdual快速算法,该算法既适用于样本较少的数据集又适用于大样本数据集;3)MSCC-CDdual算法在高维数据集上相比其他算法展现了其独特的优势. Cross-domain learning and classification involved in this paper attempts to effectively transfer the classification results obtained from supervised multisource domains to an unsupervised target domain. Generally speaking, although current cross-domain learning methods have obtained great successes for cross-single-domain learning problems, they will encounter overwhelming troubles in the sense of classification accuracy and running speed when carrying out them on large cross-multisource datasets. In this paper, based on the logistic regression model and the proposed consensus measure, a multi-source cross-domain classification （MSCC） algorithm is proposed to realize effective cross-domain classification for the target domain. In order to enable the MSCC to work well for large datasets, based on the algorithm CDdual （Dual coordinate descent method） as the recent advance about large-scale logistic regression, an MSCC^s fast version MSCC-CDdual for large datasets is derived and theoretically analysed. The experimental results on artificial data, text data and image data indicate that the proposed algorithm MSCC-CDdual has a fast speed, high classification accuracy and good domain adaption for large cross-multisource datasets. The contributions of the work here contain three aspects： 1） A novel consensus measure is proposed, which is suitable for boosting multi-classifiers and convenient for us to develop MSCC＇s fast version for large datasets; 2） The proposed algorithm MSCC-CDdual is demonstrated to be suitable for cross-multisource learning for both small and large datasets; 3） MSCC-CDdual exhibits its additional advantage, i.e., the applicability for high dimensional datasets from another ＂large＂ perspective.

作者顾鑫王士同许敏

机构地区江南大学数字媒体学院江苏北方湖光光电有限责任公司无锡职业技术学院

出处《自动化学报》 EI CSCD 北大核心 2014年第3期531-547,共17页 Acta Automatica Sinica

基金国家自然科学基金(60903100 60975027)资助~~

关键词跨领域多源罗杰斯特回归后验概率分类 Cross-domain, multi-source, logistic regression, posterior probability, classification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1邓卫兵.A LIMITED MEMORY QUASI-NEWTON METHOD FOR LARGE SCALE PROBLEM[J].Numerical Mathematics A Journal of Chinese Universities(English Series),1996,5(1):71-79. 被引量：3

共引文献2

1顾鑫,王士同.大样本多源域与小目标域的跨领域快速分类学习[J].计算机研究与发展,2014,51(3):519-535. 被引量：6
2顾鑫,曹丹华,吴裕斌,栾永昕,王伟成.基于逻辑回归的多任务域快速分类学习算法[J].计算机工程与应用,2017,53(15):47-56. 被引量：3

同被引文献96

1毛罕平,吴雪梅,李萍萍.基于计算机视觉的番茄缺素神经网络识别[J].农业工程学报,2005,21(8):106-109. 被引量：24
2刘树文,王庆伟,何东健,李华,武苏里.基于模糊神经网络的葡萄病害诊断系统研究[J].农业工程学报,2006,22(9):144-147. 被引量：29
3Evgeniou T, Micchelli C A, Pontil M. Learning multiple tasks with kernel methods. Journal of Machine Learning Research, 2005, 6(4): 615-637. 被引量：1
4Duan L X, Tsang I W, Xu D. Domains transfer multiple kernel learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 465-479. 被引量：1
5Tu W T, Sun S L. A subject transfer framework for egg classification. Neurocomputing, 2012, 82: 109-116. 被引量：1
6Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359. 被引量：1
7Ando R K, Zhang T. A framework for learning predictive structures from multiple tasks and unlabeled data. Journal Machine Learning Research, 2005, 6: 1817-1853. 被引量：1
8Zheng V W, Pan J L, Yang Q, Pan J F. Transferring multi-device localization models using latent multi-task learning. In: Proceedings of the 23th International Conference on Artificial Intelligence. Chicago, USA: ACM, 2008. 1427-1432. 被引量：1
9Pan S J, Kwok J T, Yang Q. Transfer learning via dimensionality reduction. In: Proceedings of the 23th International Conference on Artificial Intelligence. Chicago, USA: ACM 2008. 677-682. 被引量：1
10Si S, Tao D C, Geng B. Bregman divergence-based regularization for transfer subspace learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(7): 929-942. 被引量：1

引证文献9

1董爱美,王士同.共享隐空间迁移SVM[J].自动化学报,2014,40(10):2276-2287. 被引量：3
2明勇,王华军.模糊隶属度融合多层前馈神经网络的CBIR方法[J].计算机测量与控制,2015,23(3):903-906. 被引量：2
3刘承良.云计算环境下冗余数据分类技术仿真[J].计算机与网络,2015,41(20):68-71.
4黄成泉,王士同,蒋亦樟,董爱美.v-软间隔罗杰斯特回归分类机[J].电子与信息学报,2016,38(4):985-992.
5舒醒,于慧敏,郑伟伟,谢奕,胡浩基,唐慧明.基于边际Fisher准则和迁移学习的小样本集分类器设计算法[J].自动化学报,2016,42(9):1313-1321. 被引量：12
6赵传君,王素格,李德玉.基于集成深度迁移学习的多源跨领域情感分类[J].山西大学学报（自然科学版）,2018,41(4):709-717. 被引量：4
7杜永萍,贺萌,赵晓铮.基于Wasserstein距离分层注意力模型的跨域情感分类[J].模式识别与人工智能,2019,32(5):446-454. 被引量：1
8高荣华,李奇峰,孙想,顾静秋,彭程.多结构参数集成学习的设施黄瓜病害智能诊断[J].农业工程学报,2020,36(16):158-165. 被引量：4
9张雪松,庄严,闫飞,王伟.基于迁移学习的类别级物体识别与检测研究与进展[J].自动化学报,2019,45(7):1224-1243. 被引量：59

二级引证文献85

1钟映春,祝玉杰,李芳,朱爽,戚剑.周围神经MicroCT图像中神经束轮廓获取[J].中国图象图形学报,2020,25(2):354-365. 被引量：4
2杨青,薛辉.基于领域自适应的故障诊断研究与进展[J].沈阳理工大学学报,2020(4):82-86. 被引量：2
3康烨,邱金凯,佟尚谕,许秀英.基于深度学习的红豆外观品质识别[J].内蒙古农业大学学报（自然科学版）,2022,43(4):82-87. 被引量：1
4朱团钦.我国风险资本市场发育的制约因素与对策分析[J].金融理论与实践,2000(3):22-24.
5舒醒,于慧敏,郑伟伟,谢奕,胡浩基,唐慧明.基于边际Fisher准则和迁移学习的小样本集分类器设计算法[J].自动化学报,2016,42(9):1313-1321. 被引量：12
6姜海燕,刘昊天,舒欣,徐彦,伍艳莲,郭小清.基于最大均值差异的多标记迁移学习算法[J].信息与控制,2016,45(4):463-470. 被引量：11
7许夙晖,慕晓冬,柴栋,罗畅.基于极限学习机参数迁移的域适应算法[J].自动化学报,2018,44(2):311-317. 被引量：18
8崔鹏,赵莎莎.基于稀疏编码和背景差分的迁移学习行人检测算法[J].光电子．激光,2018,29(9):1012-1020. 被引量：2
9付荣荣,侯培国,李曼迪.基于Fisher准则的单次运动想象脑电信号意图识别研究[J].生物医学工程学杂志,2018,35(5):774-778. 被引量：4
10杨志淳,沈煜,杨帆,蔡伟,梁来明.考虑多元因素态势演变的配电变压器迁移学习故障诊断模型[J].电工技术学报,2019,34(7):1505-1515. 被引量：31

1陈倬.基于逻辑回归的多任务域快速分类学习算法[J].数字技术与应用,2016,34(11):123-123. 被引量：2
2黄成泉,王士同,蒋亦樟,董爱美.v-软间隔罗杰斯特回归分类机[J].电子与信息学报,2016,38(4):985-992.
3深入解析Red Hat Enter prise Linux5管理[J].电脑编程技巧与维护,2008(10):95-95.
4珠宝连锁商罗杰斯商行推出新网站[J].中国黄金珠宝,2014,0(36):4-4.
5丁硕,常晓恒,巫庆辉,杨友林.基于SOFM神经网络的变压器故障诊断研究[J].河南科学,2014,32(6):1037-1041. 被引量：1
6李恒杰,王建军.Ontology与Agent在图像检索中的应用[J].甘肃联合大学学报（自然科学版）,2007,21(3):62-65. 被引量：2
7Oscar Diaz,Norman Paton,Peter Gray,冯铃.OODB中的规则管理:一种一致性方法[J].计算机科学,1993,20(1):39-44.
8刘文辉.分布式系统一致性方法[J].喀什师范学院学报,2003,24(3):79-83.
9声音[J].中国经济周刊,2008(25):11-11.
10徐旭,胡学钢,张玉红.一种快速的基于特征选择的跨领域情感分类方法[J].合肥工业大学学报（自然科学版）,2015,38(11):1488-1492.

自动化学报

2014年第3期

浏览历史

内容加载中请稍等...

基于多源的跨领域数据分类快速新算法被引量：9

参考文献1

共引文献2

同被引文献96

引证文献9

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于多源的跨领域数据分类快速新算法 被引量：9

参考文献1

共引文献2

同被引文献96

引证文献9

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于多源的跨领域数据分类快速新算法被引量：9