一种半监督集成学习软件缺陷预测方法被引量：7

Semi-supervised Ensemble Learning Approach for Software Defect Prediction

下载PDF

导出

摘要针对软件缺陷预测中标记样本难以获取以及分类不平衡的问题,提出一种基于半监督集成学习方法的软件缺陷预测模型(Tri_Adaboost).一方面利用欠采样方法以及半监督学习对标记样本进行扩充,随机选取一部分无标记样本进行预标注,缓解标记样本不足的问题;另一方面,利用SMOTE方法对扩充后的标记样本进行采样,然后使用AdaBoost集成方法对标记样本集进行预测.本文在NASA MDP数据集及基于开源项目下生成的空指针引用缺陷数据集上,验证模型的有效性,较于四种基本的机器学习分类方法,Tri_Adaboost算法在F-measure和AUC上均能取得较高的值. Aiming at the problem that the large number of labeled samples in the software defect prediction are difficult to obtain and the existence of class imbalanced in the software system, a semi-supervised ensemble learning method is proposed. On the one hand, under-sampling method and semi＊supervised learning are used to extend the labeled samples, some unlabeled samples are randomly selected for pre-labeled to alleviate the insufficient of labeled samples; On the other hand, the SMOTE method is used to sample the extended labeled samples, and then the AdaBoost ensemble method is used to predict the labeled sample set. The paper verifies the validity of the model based on the NASA MDP data set and the null pointer defect dataset generated under the open source project, compared with the four basic machine learning classification methods, Tri_Adaboost algorithm can achieve higher values on F-measure and AUC.

作者张肖王黎明 ZHANG Xiao;WANG Li-ming(School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China)

机构地区郑州大学信息工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2018年第10期2138-2145,共8页 Journal of Chinese Computer Systems

关键词软件缺陷预测分类不平衡半监督学习 ADABOOST software defect prediction class imbalance semi-supervised learning AdaBoost

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1于巧,姜淑娟,张艳梅,王兴亚,高鹏飞,钱俊彦.分类不平衡对软件缺陷预测模型性能的影响研究[J].计算机学报,2018,41(4):809-824. 被引量：29
2何吉元,孟昭鹏,陈翔,王赞,樊向宇.一种半监督集成跨项目软件缺陷预测方法[J].软件学报,2017,28(6):1455-1473. 被引量：17
3王铁建,吴飞,荆晓远.基于半监督集成学习的软件缺陷预测[J].模式识别与人工智能,2017,30(7):646-652. 被引量：8
4陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：124
5何亮,宋擒豹,沈钧毅.基于Boosting的集成k-NN软件缺陷预测方法[J].模式识别与人工智能,2012,25(5):792-802. 被引量：7

二级参考文献151

1闫明松,周志华.代价敏感分类算法的实验比较[J].模式识别与人工智能,2005,18(5):628-635. 被引量：14
2Nikora A, Munson J. Developing Fault Predictors for Evolving Soft- ware Systems//Proc of the 9th International Software Metrics Sym- posium. Sydney, Australia, 2003:338-350. 被引量：1
3Nagappan N, Ball T. Static Analysis Tools as Early Indicators of Prerelease Defect Density// Proc of the 27th International Confer- ence on Software Engineering. St. Louis, USA, 2005:580-586. 被引量：1
4Menzies T, Greenwald J, Frank A. Data Mining Static Code Attrib- utes to Learn Defect Predictors. IEEE Trans on Software Engineer- ing, 2007, 33(1): 2-13. 被引量：1
5Lessmann S, Baesens B, Mues C, et al. Benchmarking Classifica- tion Models for Software Defect Prediction: A Proposed Framework and Novel Findings. IEEE Trans on Software Engineering, 2008, 34 (4) : 485-496. 被引量：1
6Khoshgoftaar T M, Seliya N. Analogy-Based Practical Classification Rules for Software Quality Estimation. Empirical Software Engineer-ing, 2003, 8(4) : 325-350. 被引量：1
7Emam K E, Benlarbi S, Goel N, et al. Comparing Case-Based Rea- soning Classifiers for Predicting High Risk Software Components. Journal of Systems and Software, 2001,55 (3) : 301-320. 被引量：1
8Turhan B, Bener A. Analysis of Naive Bayes' Assumptions on Soft- ware Fault Data: An Empirical Study. Data and Knowledge Engi- neering, 2009, 68(2) : 278-290. 被引量：1
9Khoshgoftaar T M, Allen E B, Hudepohl J P, et al. Application of Neural Networks to Software Quality Modeling of a Very Large Tele- communications System. IEEE Trans on Neural Networks, 1997, $ (4) : 902-909. 被引量：1
10Zheng Jun. Cost-Sensitive Boosting Neural Networks for Software Defect Prediction. Expert Systems with Applications, 2010, 37 (6) : 4537-4543. 被引量：1

共引文献163

1周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：7
2李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
3郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
4陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
5贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
6邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：42
7郑继栋.训练扎实指导有序──第十册《基础训练6》第五六七题教学设计[J].小学语文教学,2000(6):57-57.
8呙明辉.组态软件测试下电力系统程序缺陷检测仿真[J].计算机仿真,2018,35(12):325-328. 被引量：2
9王曙燕,黄炜青,孙家泽.基于改进GM(1,1)模型预测软件缺陷率[J].西安邮电大学学报,2015,20(6):69-73. 被引量：1
10张飞.改进PSO-ISVM算法的软件缺陷预测[J].计算机工程与应用,2016,52(11):17-21. 被引量：2

同被引文献53

1杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31
2黄百乔,张虹,陆民燕,李震.基于Object-FMA的软件代码审查方法[J].北京航空航天大学学报,2010,36(12):1473-1479. 被引量：1
3黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48. 被引量：11
4路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
5刘云龙.基于Token的结构化匹配同源性代码检测技术研究[J].计算机应用研究,2014,31(6):1841-1845. 被引量：6
6周诚,张涛,马媛媛,李伟伟.一种高效检测源代码安全漏洞的代码审查方法[J].现代电子技术,2015,38(5):83-86. 被引量：4
7戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936. 被引量：10
8Duksan Ryu Jong-In Jang Jongmoon Baik.A Hybrid Instance Selection Using Nearest-Neighbor for Cross-Project Defect Prediction[J].Journal of Computer Science & Technology,2015,30(5):969-980. 被引量：10
9陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：124
10陆鹏程,邱建林,卞彩峰,陈璐璐,陈翔.面向软件缺陷预测的聚类欠采样集成方法[J].计算机工程与设计,2016,37(7):1805-1810. 被引量：3

引证文献7

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63. 被引量：1
2刘文杰,江贺.基于特征选择的软件缺陷报告严重性评估[J].计算机工程,2019,45(8):80-85. 被引量：5
3白首华,胡天彤.微型嵌入式软件静态缺陷预测系统优化设计[J].现代电子技术,2020,43(10):97-99. 被引量：4
4曾路,汪浩.基于机器学习的虚拟仪器软件缺陷预测模型研究[J].自动化与仪器仪表,2020(5):59-62. 被引量：7
5亢振兴,赵逢禹,刘亚.Stack Overflow的缺陷代码特征分析与相似缺陷检测[J].小型微型计算机系统,2021,42(3):661-665. 被引量：2
6李斌,张燕.基于半监督集成学习的自适应入侵检测研究[J].电气自动化,2021,43(4):101-104.
7周建含,李英梅,李文昊.一种改进的半监督集成软件缺陷预测方法[J].小型微型计算机系统,2021,42(10):2196-2202. 被引量：5

二级引证文献24

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63. 被引量：1
2黄丹丹,费玉婷.嵌入式软件静态测试方法研究[J].科学与信息化,2020(28):31-31.
3徐琛玥.机器学习背景下手势识别技术探究[J].软件,2020,41(10):132-134. 被引量：1
4曲豫宾,陈翔,李龙.可缓解类重叠问题的跨版本软件缺陷预测方法[J].吉林大学学报（理学版）,2021,59(2):372-378. 被引量：3
5吴瑞霞,张志旺,王琰,周莉,岳峻,卢泰然.基于模糊多目标线性规划的软件缺陷预测方法研究[J].鲁东大学学报（自然科学版）,2021,37(2):131-138. 被引量：1
6史新国,翟勃,王卫龙.基于大数据智能的煤矿水害预测数据建模研究[J].自动化与仪器仪表,2021(10):37-40. 被引量：2
7黄晓伟,范贵生,虞慧群,杨星光.基于重子节点抽象语法树的软件缺陷预测[J].计算机工程,2021,47(12):230-235. 被引量：7
8张博云,海诗婧,魏佳庆.基于连续协同机器学习算法的嵌入式软件可靠性预测模型研究[J].单片机与嵌入式系统应用,2022,22(1):39-42. 被引量：1
9陈丽琼,王璨,宋士龙.一种即时软件缺陷预测模型及其可解释性研究[J].小型微型计算机系统,2022,43(4):865-871. 被引量：1
10李阿红.基于混合神经网络的Android软件缺陷精准预测研究[J].自动化与仪器仪表,2022(8):33-36. 被引量：1

1单中南,翁小清,马超红.时间序列半监督分类综述[J].河北省科学院学报,2018,35(2):49-54. 被引量：3
2杨绍红,李俊,姚拓中.基于优化图的半监督学习的行人检测[J].计算机科学与应用,2018,8(7):1125-1133.
3李竺珊.对银行软件测试风险防控的思考[J].金融科技时代,2018,26(10):86-88.
4孙杰平.使用SVM预测软件程序变更的风险[J].金融电子化,2018(9):73-74.
5王曙燕,权雅菲,孙家泽.空指针引用缺陷分类假阳性识别方法[J].计算机应用,2017,37(10):2968-2972.
6陈娟,朱福喜.结合半监督与主动学习的时间序列PU问题分类[J].计算机工程与应用,2018,54(11):116-121.
7侯勇,张自军,郭有强.一种新颖的多实例集成学习算法[J].蚌埠学院学报,2018,7(5):42-49.
8曼胡默尔同意收购Tri—Dim滤清器公司[J].通用机械,2018,0(9):12-12.
9谢冰,段哲民,郑宾,殷云华.基于迁移学习SAE的无人机目标识别算法研究[J].红外与激光工程,2018,47(6):214-220. 被引量：7
10吕志军.影响枣果开裂的因素及防治措施[J].农业科学,2018,8(6):652-656.

小型微型计算机系统

2018年第10期

浏览历史

内容加载中请稍等...

一种半监督集成学习软件缺陷预测方法被引量：7

参考文献5

二级参考文献151

共引文献163

同被引文献53

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

一种半监督集成学习软件缺陷预测方法 被引量：7

参考文献5

二级参考文献151

共引文献163

同被引文献53

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

一种半监督集成学习软件缺陷预测方法被引量：7