一种即时软件缺陷预测模型及其可解释性研究被引量：1

Just-in-time Software Defect Prediction Model and Its Interpretability Research

下载PDF

导出

摘要即时软件缺陷预测是保障软件安全与质量相统一的必要途径,在软件工程领域受到越来越多的关注.然而,现有数据集存在特征冗余和特征相关性低的情况,极大影响了即时软件缺陷预测模型的分类性能和稳定性.此外,分析缺陷数据特征对模型的影响尤为重要,但如今对软件缺陷预测模型进行解释性研究较少.针对这些问题,文章基于6个开源项目的227417个代码级变更的大规模实证研究,创新性地选择了SHAP+SMOTEENN+XGBoost(SHAP-SEBoost)构建即时软件缺陷预测模型.首先通过SHAP(SHapley Additive exPlanation)模型可解释器分析初始数据集特征,并根据分析结果对数据集进行相应的特征选择与组合.然后,利用SMOTEENN对类不平衡的缺陷数据进行正负样本均衡化,使用集成学习算法XGBoost对实验数据进行预测建模.最后,使用SHAP对本文模型进行可解释性分析.实验结果表明SHAP-SEBoost有效地提高了分类性能,与基线模型以及近年优秀模型相比AUC平均提高11.6%,F1平均提升33.5%. Just-in-time software defect prediction is a necessary way to ensure software safety and quality,which has been paid more and more attention in the field of software engineering.However,existing data sets are characterized by redundancy and low feature correlation,which greatly affects the classification performance and stability of real-time software defect prediction models.In addition,analyzing the influence of defect data characteristics on the model is particularly important,but there are few explanatory studies on software defect prediction models nowadays.To address these problems,this paper innovatively selected SHAP+SMOTEENN+XGBoost(SHAP-SEBoost)to build a real-time software defect prediction model based on a large-scale empirical study of 227,417 code-level changes in six open source projects.First,the SHapley Additive exPlanation model can be used to analyze the characteristics of the initial data set,and then select and combine corresponding characteristics of the data set according to the analysis results.Then,the positive and negative sample equalization of the class unbalanced defect data was carried out using SMOTEENN,and the integrated learning algorithm XGBoost was used to model the prediction of the experimental data.Finally,SHAP is used to analyze the interpretability of the model in this paper.Experimental results showed that SHAP-SEBoost effectively improved classification performance,with an average increase of 11.6%in AUC and 33.5%in F1 compared with baseline and recent excellent models.

作者陈丽琼王璨宋士龙 CHEN Li-qiong;WANG Can;SONG Shi-long(Department of Computer Science and Information Engineering,Shanghai Institute of Technology,Shanghai 201418,China)

机构地区上海应用技术大学计算机科学与信息工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2022年第4期865-871,共7页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61702334)资助。

关键词即时软件缺陷预测模型可解释性特征工程集成学习 just-in-time software defect prediction model interpretability feature engineering ensemble learning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：124
2陈良臣,高曙,刘宝旭,陶明峰.网络流量异常检测中的维数约简研究[J].计算机工程,2020,46(2):11-20. 被引量：17
3刘文杰,江贺.基于特征选择的软件缺陷报告严重性评估[J].计算机工程,2019,45(8):80-85. 被引量：5
4胡梦园,黄鸿云,丁佐华.用于软件缺陷预测的集成模型[J].计算机科学,2019,46(11):176-180. 被引量：5
5王旭,陈永乐,王庆生,陈俊杰.结合特征选择与集成学习的密码体制识别方案[J].计算机工程,2021,47(1):139-145. 被引量：9

二级参考文献151

1王青,伍书剑,李明树.软件缺陷预测技术.软件学报,2008,19(7):1565—1580.http://www.jos.org.cn/1000—9825/19/1565.htm. 被引量：1
2Hall T, Beecham S, Bowes D, Gray D, Counsell S. A systematic literature review on fault prediction performance in software engineering. IEEE Trans. on Software Engineering, 2012,38(6): 1276-1304. [doi: 10.1109/TSE.2011.103 ]. 被引量：1
3Radjenovic D, Hericko M, Torkar R, Zivkovic A. Software fault prediction metrics: A systematic literature review. Information and Software Technology, 2013,55(8): 1397-1418. [doi: 10.1016/j.infsof.2013.02.009]. 被引量：1
4Akiyama E. An example of software system debugging. In: Proc. of the Int'1 Federation of Information Proc. Societies Congress. New York: Springer Science and Business Media, 1971. 353-359. 被引量：1
5Halstead MH. Elements of Software Science (Operating and Programming Systems Series). New York: Elsevier Science Inc., 1977. 被引量：1
6McCabe TJ. A complexity measure. IEEE Trans. on Software Engineering, 1976,2(4):308-320. [doi: 10.1109/TSE.1976.233837]. 被引量：1
7Chidamber SR, Kemerer CF. A metrics suite for object oriented design. IEEE Trans. on Software Engineering, 1994,20(6): 476-493. [doi: 10.1109/32.295895]. 被引量：1
8Basili VR, Briand LC, Melo WL. A validation of object-oriented design metrics as quality indicators. IEEE Trans. on Software Engineering, 1996,22(10):751-761. [doi: 10.1109/32.544352]. 被引量：1
9Subramanyam R, Krishnan MS. Empirical analysis of CK metrics for object-oriented design complexity: Implications for software defects. IEEE Trans. on Software Engineering, 2003,29(4):297-310. [doi: 10.1109/TS E.2003.1191795]. 被引量：1
10Zhou YM, Xu BW, Leung H. On the ability of complexity metrics to predict fault-prone classes in object-oriented systems. Journal of Systems and Software, 2010,83(4):660-674. [doi: 10.1016/j.jss.2009.11.704]. 被引量：1

共引文献153

1池亚平,岳梓岩,赵伦.密码算法识别技术研究进展与展望[J].北京电子科技学院学报,2022,30(4):1-14.
2郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
3陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
4王徐来,向广利,李蓓蕾,李祯鹏,张涛.基于组合随机性特征的哈希函数识别方案[J].武汉大学学报（理学版）,2023,69(2):215-222. 被引量：2
5贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
6郑继栋.训练扎实指导有序──第十册《基础训练6》第五六七题教学设计[J].小学语文教学,2000(6):57-57.
7呙明辉.组态软件测试下电力系统程序缺陷检测仿真[J].计算机仿真,2018,35(12):325-328. 被引量：2
8陈翔.地方高等院校计算机专业本科生的科研能力培养方法研究[J].计算机教育,2016(6):17-21. 被引量：2
9刘望舒,陈翔,顾庆,刘树龙,陈道蓄.软件缺陷预测中基于聚类分析的特征选择方法[J].中国科学：信息科学,2016,46(9):1298-1320. 被引量：25
10王星,何鹏,陈丹,曾诚.跨项目缺陷预测中训练数据选择方法[J].计算机应用,2016,36(11):3165-3169. 被引量：3

同被引文献16

1曾艳,李桂花,庄刘.完全随机设计两样本的Wilcoxon检验与K-S检验功效比较[J].中国卫生统计,2011,28(4):372-374. 被引量：10
2陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：124
3吴飞,廖彬兵,韩亚洪.深度学习的可解释性[J].航空兵器,2019,26(1):39-46. 被引量：37
4何华灿.重新找回人工智能的可解释性[J].智能系统学报,2019,14(3):393-412. 被引量：34
5宫丽娜,姜淑娟,姜丽.软件缺陷预测技术研究进展[J].软件学报,2019,30(10):3090-3114. 被引量：47
6成科扬,王宁,师文喜,詹永照.深度学习可解释性研究进展[J].计算机研究与发展,2020,57(6):1208-1217. 被引量：68
7孔祥维,唐鑫泽,王子明.人工智能决策可解释性的研究综述[J].系统工程理论与实践,2021,41(2):524-536. 被引量：54
8张开颜,张伟男,刘挺.基于深度学习的多方对话研究综述[J].中国科学：信息科学,2021,51(8):1217-1232. 被引量：3
9张炳,文峥,魏筱瑜,任家东.InterDroid:面向概念漂移的可解释性Android恶意软件检测方法[J].计算机研究与发展,2021,58(11):2456-2474. 被引量：9
10王玉联,鲁鸣鸣.可解释的基于图嵌入的Android恶意软件自动检测[J].计算机工程与应用,2021,57(23):122-128. 被引量：4

引证文献1

1李汇来,杨斌,于秀丽,唐晓梅.软件缺陷预测模型可解释性对比[J].计算机科学,2023,50(5):21-30. 被引量：4

二级引证文献4

1胡凯茜,李欣,裴炳森.面向目标用户的深度学习模型可视化综述[J].计算机系统应用,2023,32(11):36-47.
2王佳,张云龙,鞠炜刚,周志鹏,米传民.一种通用的服务器类环境资源节能降耗平台[J].计算机与现代化,2024(5):61-68.
3秦阳阳,张思鹏,郑越,韩阳,陈丽芳.基于贝叶斯网络集成的软件缺陷预测[J].华北理工大学学报（自然科学版）,2024,46(3):96-103.
4王佳,张云龙,鞠炜刚,米传民,孙杭妍,李玉维.基于多模态引擎的环境资源零代码平台设计[J].计算机技术与发展,2024,34(10):197-203.

1冯德成,吴刚.混凝土结构基本性能的可解释机器学习建模方法[J].建筑结构学报,2022,43(4):228-238. 被引量：28
2颜慧.基于机器学习的软件缺陷倾向性预测研究[J].电脑知识与技术,2022,18(7):67-70. 被引量：2
3赵一学.建筑工程中的深基坑支护施工技术[J].建筑与预算,2022(3):52-54. 被引量：2
4范运龙,邵佳康,吴远斌,宋超,沈铭,朱思明,何潇一,李梁钢,任瞳,姜胜利.基于机器学习的心脏手术后急性肾损伤预测[J].解放军医学院学报,2022,43(2):168-174.
5薄莉莉,朱轩锐,孙小兵.基于模板的软件缺陷修复推荐方法[J].小型微型计算机系统,2022,43(5):1096-1101. 被引量：1
6刘卓一.“随文命题”下的高考小说阅读指津[J].语文月刊,2022(2):55-57.
7郭静远,赵辉,屈静,张丽丽,郭安平.狗尾草U6启动子的克隆及功能鉴定[J].热带作物学报,2021,42(11):3156-3164. 被引量：1
8综编.《纺织可持续未来材料白皮书》向行业征集论文[J].纺织服装周刊,2022(14):6-6.
9Tao Xing.STEALING THE SHOW[J].Beijing Review,2022,65(10):16-17.
10任喻泽.轨道交通机电工程施工中的安全与质量管控策略思考[J].数字化用户,2020(23):153-155.

小型微型计算机系统

2022年第4期

浏览历史

内容加载中请稍等...

一种即时软件缺陷预测模型及其可解释性研究被引量：1

参考文献5

二级参考文献151

共引文献153

同被引文献16

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种即时软件缺陷预测模型及其可解释性研究 被引量：1

参考文献5

二级参考文献151

共引文献153

同被引文献16

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种即时软件缺陷预测模型及其可解释性研究被引量：1