一种半监督集成跨项目软件缺陷预测方法被引量：17

Semi-Supervised Ensemble Learning Approach for Cross-Project Defect Prediction

下载PDF

导出

摘要软件缺陷预测方法可以在项目的开发初期,通过预先识别出所有可能含有缺陷的软件模块来优化测试资源的分配.早期的缺陷预测研究大多集中于同项目缺陷预测,但同项目缺陷预测需要充足的历史数据,而在实际应用中,可能需要预测项目的历史数据较为稀缺,或这个项目是一个全新项目.因此,跨项目缺陷预测问题成为当前软件缺陷预测领域内的一个研究热点,其研究挑战在于源项目与目标项目数据集间存在的分布差异性以及数据集内存在的类不平衡问题.受到基于搜索的软件工程思想的启发,提出了一种基于搜索的半监督集成跨项目软件缺陷预测方法 S^3EL.该方法首先通过调整训练集中各类数据的分布比例,构建出多个朴素贝叶斯基分类器;随后,利用具有全局搜索能力的遗传算法,基于少量已标记目标实例对上述基分类器进行集成,并构建出最终的缺陷预测模型.在Promise数据集及AEEEM数据集上与多个经典的跨项目缺陷预测方法(Burak过滤法、Peters过滤法、TCA+、CODEP及HYDRA)进行了对比.以F1值作为评测指标,结果表明:在大部分情况下,S^3EL方法可以取得最好的预测性能. Software defect prediction can help developers to optimize the distribution of test resources by predicting whether or not a software module is defect-prone. Most defect prediction researches focus on within-project defect prediction which needs sufficient training data from the same project. However, in real software development, a project which needs defect prediction is always new or without any historical data. Therefore cross-project defect prediction becomes a hot topic which uses training data from several projects and performs prediction on another one. The main research challenges in cross-project defect prediction are the variety of distribution from source project to target project and class imbalance problem among datasets. Inspired by search based software engineering, this paper proposes a search based semi-supervised ensemble learning approach S3EL. By adjusting the ratio of distribution in training dataset,several Naive Bayes classifiers are built as the base learners, then a small amount of labeled target instances and genetic algorithm are used to combine these base classifiers as a final prediction model. S3EL is compared with other up-to-date classical cross-project defect prediction approaches （such as Burak filter, Peters filter, TCA＋, CODEP and HYDRA） on AEEEM and Promise dataset. Final results show that S3EL has the best prediction performance in most cases under the FI measure.

作者何吉元孟昭鹏陈翔王赞樊向宇

机构地区天津大学软件学院软件工程系南通大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2017年第6期1455-1473,共19页 Journal of Software

基金国家自然科学基金(61202030 61373012 61202006 71502125)~~

关键词跨项目软件缺陷预测半监督学习集成学习遗传算法朴素贝叶斯 cross-project defect prediction semi-supervised learning, ensemble learning genetic algorithm Naive Bayes

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1Duksan Ryu Jong-In Jang Jongmoon Baik.A Hybrid Instance Selection Using Nearest-Neighbor for Cross-Project Defect Prediction[J].Journal of Computer Science & Technology,2015,30(5):969-980. 被引量：10
2庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：471
3陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：124

二级参考文献240

1Ben-David S,Blitzer J,Crammer K,Pereira F.Analysis of representations for domain adaptation.In:Platt JC,Koller D,Singer Y,Roweis ST,eds.Proc.of the Advances in Neural Information Processing Systems 19.Cambridge:MIT Press,2007.137-144. 被引量：1
2Blitzer J,McDonald R,Pereira F.Domain adaptation with structural correspondence learning.In:Jurafsky D,Gaussier E,eds.Proc.of the Int’l Conf.on Empirical Methods in Natural Language Processing.Stroudsburg PA:ACL,2006.120-128. 被引量：1
3Dai WY,Xue GR,Yang Q,Yu Y.Co-Clustering based classification for out-of-domain documents.In:Proc.of the 13th ACM Int’l Conf.on Knowledge Discovery and Data Mining.New York:ACM Press,2007.210-219.[doi:10.1145/1281192.1281218]. 被引量：1
4Dai WY,Xue GR,Yang Q,Yu Y.Transferring naive Bayes classifiers for text classification.In:Proc.of the 22nd Conf.on Artificial Intelligence.AAAI Press,2007.540-545. 被引量：1
5Liao XJ,Xue Y,Carin L.Logistic regression with an auxiliary data source.In:Proc.of the 22nd lnt*I Conf.on Machine Learning.San Francisco:Morgan Kaufmann Publishers,2005.505-512.[doi:10.1145/1102351.1102415]. 被引量：1
6Xing DK,Dai WY,Xue GR,Yu Y.Bridged refinement for transfer learning.In:Proc.of the Ilth European Conf.on Practice of Knowledge Discovery in Databases.Berlin:Springer-Verlag,2007.324-335.[doi:10.1007/978-3-540-74976-9_31]. 被引量：1
7Mahmud MMH.On universal transfer learning.In:Proc.of the 18th Int’l Conf.on Algorithmic Learning Theory.Sendai,2007.135-149.[doi:10,1007/978-3-540-75225-7_14]. 被引量：1
8Samarth S,Sylvian R.Cross domain knowledge transfer using structured representations.In:Proc.of the 21st Conf.on Artificial Intelligence.AAAI Press,2006.506-511. 被引量：1
9Bel N,Koster CHA,Villegas M.Cross-Lingual text categorization.In:Proc.of the European Conf.on Digital Libraries.Berlin:Springer-Verlag,2003.126-139.[doi:10.1007/978-3-540-45175-4_13]. 被引量：1
10Zhai CX,Velivelli A,Yu B.A cross-collection mixture model for comparative text mining.In:Proc.of the 10th ACM SIGKDD Int’l Conf.on Knowledge Discovery and Data Mining.New York:ACM,2004.743-748.[doi:10.1145/1014052.1014150]. 被引量：1

共引文献595

1康文杰,田苗,林岚,孙珅,吴水才.深度卷积生成对抗网络对神经影像通用数据特征的学习[J].智慧健康,2020(31):1-4. 被引量：2
2张政,严哲,顾汉明.基于残差网络与迁移学习的断层自动识别[J].石油地球物理勘探,2020(5):950-956. 被引量：25
3郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
4陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
5吴锐帆,代海洋,杨坦,江颖,蔡志杰.直肠癌淋巴结转移的智能诊断研究[J].数学建模及其应用,2019,8(4):30-37. 被引量：2
6刘世晶,刘阳春,钱程,郑浩君,周捷,张成林.基于CycleGAN和注意力增强迁移学习的小样本鱼类识别[J].农业机械学报,2023,54(S01):296-302. 被引量：5
7张璐,黄琳,李备备,陈鑫,段青玲.基于多尺度融合与无锚点YOLO v3的鱼群计数方法[J].农业机械学报,2021,52(S01):237-244. 被引量：16
8张红洋,田瑞盟.基于SOLO分类理论的科学思维学业质量评价[J].湖南中学物理,2021(2):1-4. 被引量：1
9贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
10林峰,郭鹏,刘旭斌.基于叶片表面污垢预处理与CNN的风电机组叶片表面损伤识别[J].动力工程学报,2020(12):975-981. 被引量：6

同被引文献83

1李娜,王志杰,丁克勤.粮食储备库分布式粮堆湿度监控系统软件开发[J].中国粮油学报,2019,34(S02):1-6. 被引量：3
2张力元,王军.古籍数据库分面分类体系设计研究[J].图书馆建设,2021(3):56-61. 被引量：17
3陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
4王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
5李兵,马于涛,刘婧,丁琦伟.软件系统的复杂网络研究进展[J].力学进展,2008,38(6):805-814. 被引量：28
6张春红,谢卫.基于SVM-KNN算法的特色数据库分类体系初探[J].情报科学,2009,27(11):1688-1691. 被引量：1
7李辉,赵海,徐久强,李博,李鹏,王家亮.基于k-核的大规模软件宏观拓扑结构层次性研究[J].电子学报,2010,38(11):2635-2643. 被引量：9
8张文,刘刚,朱一凡.信息系统体系结构复杂性度量方法研究[J].计算机应用研究,2011,28(11):4081-4085. 被引量：5
9何亮,宋擒豹,沈钧毅.基于Boosting的集成k-NN软件缺陷预测方法[J].模式识别与人工智能,2012,25(5):792-802. 被引量：7
10吴方君.软件缺陷预测经验共享:一种迁移学习方法[J].小型微型计算机系统,2014,35(11):2416-2421. 被引量：5

引证文献17

1陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
2李怀强,周扬.关于软件架构生命周期准确性预测仿真[J].计算机仿真,2018,35(6):308-312.
3霍小卫,刘江坡.可重构嵌入式软件缺陷优化预测仿真研究[J].计算机仿真,2018,35(8):443-447.
4张肖,王黎明.一种半监督集成学习软件缺陷预测方法[J].小型微型计算机系统,2018,39(10):2138-2145. 被引量：7
5刘树毅,翟晔,刘东升.融合多策略特征筛选的跨项目软件缺陷预测[J].计算机工程与应用,2019,55(8):53-58. 被引量：7
6倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：15
7赖永凯,陈向宇,刘海.基于贝叶斯Logistic回归的软件缺陷预测研究[J].计算机工程与应用,2019,55(11):204-208. 被引量：6
8李叶飞,官国飞,葛崇慧,陈翔,倪超,钱柱中.FSDNP:针对软件缺陷数预测的特征选择方法[J].计算机工程与应用,2019,55(14):61-68. 被引量：9
9吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：13
10周建含,李英梅,李文昊.一种改进的半监督集成软件缺陷预测方法[J].小型微型计算机系统,2021,42(10):2196-2202. 被引量：5

二级引证文献70

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63. 被引量：1
2杨慕升,石志华.深入剖析C++Builder中的文件拷贝方法[J].电脑编程技巧与维护,2000(5):32-33.
3刘文杰,江贺.基于特征选择的软件缺陷报告严重性评估[J].计算机工程,2019,45(8):80-85. 被引量：5
4白首华,胡天彤.微型嵌入式软件静态缺陷预测系统优化设计[J].现代电子技术,2020,43(10):97-99. 被引量：4
5朱应钊.异构迁移学习研究综述[J].电信科学,2020,36(3):100-110. 被引量：7
6曾路,汪浩.基于机器学习的虚拟仪器软件缺陷预测模型研究[J].自动化与仪器仪表,2020(5):59-62. 被引量：7
7张晓峰.软件缺陷预测研究综述[J].信息通信,2020(4):125-127.
8张明亮.基于源文件可疑度的静态软件缺陷检测方法研究[J].黑龙江工业学院学报（综合版）,2020,20(6):55-59. 被引量：1
9陈子兆,矫文成,孙慧贤,李月武.基于改进深度置信网络的故障诊断方法[J].探测与控制学报,2020,42(4):98-105. 被引量：6
10李佩,张红.基于机器学习的计算机软件缺陷预测模型研究[J].信息通信,2020(10):48-49. 被引量：2

1李勇,黄志球,王勇,房丙午.数据驱动的软件缺陷预测研究综述[J].电子学报,2017,45(4):982-988. 被引量：18
2张静.运用WCF技术实现项目工程的自动更新[J].电脑知识与技术（过刊）,2013,19(2X):1050-1051.
3白斌.“不能只卖服装,不卖飞机”——程序员的梦之路[J].电脑爱好者,2009(13):47-47.
4张更路,毛霖荣,魏小帅,刘江.Oracle开发初期的几个棘手问题的解决方法[J].华北煤炭医学院学报,2001,3(5):654-655.
5陈岩.打开Office未来之门[J].开放系统世界,2002(12):20-25.
6陈汉军.基于PC平台的虚拟现实开发软件3DWebMaster[J].计算机系统应用,1999,8(5):70-71.
7王玮,王丽,李达.测试管理工具在军用软件测试中的应用[J].计算机安全,2014(3):23-27. 被引量：3
8陆正发,徐玲,张小洪,陈林,杨梦宁.基于概率的无监督缺陷预测方法[J].计算机工程与科学,2017,39(5):904-911. 被引量：2
9卿卿.快找图片好方法[J].科技展望（幻想大王）,2008(2):27-27.
10陈宇.如何处理Oracle数据库中的坏块问题[J].石家庄铁路职业技术学院学报,2006,5(2):79-82.

软件学报

2017年第6期

浏览历史

内容加载中请稍等...

一种半监督集成跨项目软件缺陷预测方法被引量：17

参考文献3

二级参考文献240

共引文献595

同被引文献83

引证文献17

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种半监督集成跨项目软件缺陷预测方法 被引量：17

参考文献3

二级参考文献240

共引文献595

同被引文献83

引证文献17

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种半监督集成跨项目软件缺陷预测方法被引量：17