基于最大信息系数的软件缺陷数目预测特征选择方法被引量：2

Feature selection method for software defect number prediction based on maximum information coefficient

下载PDF

导出

摘要针对传统特征选择方法仅考虑变量间的线性关系而忽略非线性相关性,导致软件缺陷数目预测模型的性能较低的问题,提出了一种基于最大信息系数的特征选择方法。该方法考虑特征与特征以及特征与缺陷数目间的线性及非线性关系,将特征的冗余性分析和相关性分析分离为两个阶段。在冗余特征分析阶段,基于特征间的相关度,采用凝聚层次聚类算法将冗余特征分到同一簇中;在相关性分析阶段,依据特征与软件缺陷数目之间的相关度,对每个特征簇中的特征进行排序,然后从簇中选择排名靠前的特征组成特征子集。实验结果表明,该方法能够选择有效的特征子集,提高软件缺陷数目预测模型的预测性能。 The traditional feature selection method only considers the linear correlation between variables and ignores the nonlinear correlation,so it is difficult to select effective feature subsets to build the effective model to predict the number of faults in software modules.Considering the linear and nonlinear relationship,a feature selection method based on maximum information coefficient(MIC)was proposed.The proposed method separated the redundancy analysis and correlation analysis into two phases.In the previous phase,the cluster algorithm,which was based on the correlation between features,was used to divide the redundant features into the same cluster.In the later phase,the features in each cluster were sorted in descending order according to the correlation between features and the number of software defects,and then the top features were selected to form the feature subset.The experimental results show that the proposed method can improve the prediction performance of software defect number prediction model by effectively removing redundant and irrelevant features.

作者刘国庆王兴起魏丹方景龙邵艳利 LIU Guoqing;WANG Xingqi;WEI Dan;FANG Jinglong;SHAO Yanli(School of Computer Science and Technology,Hangzhou Dianzi University,Hangzhou 310018,China)

机构地区杭州电子科技大学计算机学院

出处《电信科学》 2021年第5期133-147,共15页 Telecommunications Science

基金浙江省自然科学基金资助项目(No.LY20F020015,No.LY21F020015) 国家自然科学基金资助项目(No.61702517,No.61972121,No.61702146) 国防基础科研计划资助项目(No.JCKY2019415C001)。

关键词软件缺陷数目预测特征选择最大信息系数 software defect number prediction feature selection maximum information coefficient

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1宫丽娜,姜淑娟,姜丽.软件缺陷预测技术研究进展[J].软件学报,2019,30(10):3090-3114. 被引量：47
2刘望舒,陈翔,顾庆,刘树龙,陈道蓄.软件缺陷预测中基于聚类分析的特征选择方法[J].中国科学：信息科学,2016,46(9):1298-1320. 被引量：25
3刘洺辛,陈晶,王麒媛.基于改进特征选择方法的文本情感分类研究[J].电信科学,2018,34(10):85-95. 被引量：2
4李叶飞,官国飞,葛崇慧,陈翔,倪超,钱柱中.FSDNP:针对软件缺陷数预测的特征选择方法[J].计算机工程与应用,2019,55(14):61-68. 被引量：9
5马子逸,马传香,刘瑞奇,余啸.面向软件缺陷个数预测的混合式特征选择方法[J].计算机应用研究,2018,35(2):487-492. 被引量：2

二级参考文献73

1Wang Q, Wu S J, Li M S. Software defect prediction. J Softw, 2008, 19:1565-1580. 被引量：1
2Hall T, Beecham S, Bowes D, et al. A systematic literature review on fault prediction performance in software engineering. IEEE Trans Softw Eng, 2012, 38:1276-1304. 被引量：1
3Yu S S, Zhou S G, Guan J H. Software engineering data mining: a survey. J Front Comput Sci Tech, 2012, 6:1-31. 被引量：1
4Chen X, Gu Q, Liu W S, et al. Survey of static software defect prediction. J Softw, 2016, 1:1-25. 被引量：1
5Ghotra B, McIntosh S, Hassan A E. Revisiting the impact of classification techniques on the performance of defect prediction models. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 789 -800. 被引量：1
6Peters F, Menzies T, Layman L. LACE2: better privacy-preserving data sharing for cross project defect prediction. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 801-811. 被引量：1
7Tantithamthavorn C, McIntosh S, Hassan A E, et al. The impact of mislabelling on the performance and interpretation of defect prediction models. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 812-823. 被引量：1
8Jing X Y, Wu F, Dong X W, et M. Heterogeneous cross-company defect prediction by unified metric representation and CCA-based transfer learning. In: Proceedings of the International Symposium on Foundations of Software Engineering, Bergamo, 2015. 496-507. 被引量：1
9Nam J, Kim S. Heterogeneous defect prediction. In: Proceedings of the International Symposium on Foundations of Software Engineering, Bergamo, 2015. 508-519. 被引量：1
10Kim M, Nam J, Yeon J, et al. REMI: defect prediction for efficient API testing. In: Proceedings of the International Symposium on Foundations of Software Engineering, Bergamo, 2015. 990-993. 被引量：1

共引文献75

1贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
2王馨煜,崔艺凝,段盈盈.基于ExtraTree的软件缺陷预测方法研究[J].智能计算机与应用,2022,12(3):139-141.
3王莉萍,陈翔,王秋萍,赵英全.基于Box-Cox转换的集成跨项目软件缺陷预测方法[J].计算机应用研究,2017,34(7):2023-2026. 被引量：3
4马子逸,马传香,刘瑞奇,余啸.面向软件缺陷个数预测的混合式特征选择方法[J].计算机应用研究,2018,35(2):487-492. 被引量：2
5姜丽,姜淑娟,于巧.软件缺陷预测中基于排序集成的特征选择方法[J].小型微型计算机系统,2018,39(7):1410-1414. 被引量：4
6李丽媛,江国华.一种面向软件缺陷预测的特征聚类选择方法[J].计算技术与自动化,2018,37(2):126-131. 被引量：3
7陈翔,王秋萍.基于代码修改的多目标有监督缺陷预测建模方法[J].计算机科学,2018,45(6):161-165. 被引量：1
8陈翔,沈宇翔,孟少卿,崔展齐,鞠小林,王赞.基于多目标优化的软件缺陷预测特征选择方法[J].计算机科学与探索,2018,12(9):1420-1433. 被引量：8
9倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：14
10李叶飞,官国飞,葛崇慧,陈翔,倪超,钱柱中.FSDNP:针对软件缺陷数预测的特征选择方法[J].计算机工程与应用,2019,55(14):61-68. 被引量：9

同被引文献23

1陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
2张文,李自强,杜宇航,杨叶.方法级别的细粒度软件缺陷定位方法[J].软件学报,2019,30(2):195-210. 被引量：10
3崔军,刘亚娜,郭新峰,王瑞波,李济洪.基于最大信息系数的软件缺陷预测模型[J].应用概率统计,2019,35(1):86-108. 被引量：4
4杨杰,范贵生,虞慧群.一种多源异构软件缺陷预测方法[J].小型微型计算机系统,2019,40(4):851-855. 被引量：8
5刘文杰,江贺.基于特征选择的软件缺陷报告严重性评估[J].计算机工程,2019,45(8):80-85. 被引量：5
6邱宝鑫,周维,陈听海.基于条件分类可执行切片谱的软件缺陷定位[J].计算机工程与应用,2019,55(19):253-262. 被引量：2
7李雷,陈朝晖,董晓刚,李轶.基于聚类分析的软件多故障定位技术[J].空间控制技术与应用,2019,45(5):55-62. 被引量：6
8邱少健,蔡子仪,陆璐.基于卷积神经网络的代价敏感软件缺陷预测模型[J].计算机科学,2019,46(11):156-160. 被引量：8
9刘烨,黄金筱,马于涛.基于混合神经网络和注意力机制的软件缺陷自动分派方法[J].计算机研究与发展,2020,57(3):461-473. 被引量：14
10王兴亚,姜淑娟,高鹏飞,陆凯,薄莉莉,鞠小林,张艳梅.基于模糊C均值聚类的软件多缺陷定位方法[J].计算机学报,2020,43(2):206-232. 被引量：8

引证文献2

1侯正波.基于BP神经网络的计算机软件缺陷预测方法[J].信息与电脑,2022,34(13):86-88.
2王强,周金宇,金超武.基于风险轨迹的开源软件安全性缺陷定位方法[J].计算机仿真,2023,40(7):397-401.

1严雪颖,秦川,鞠平,曹路,李建华.负荷功率模型的最优特征选择研究[J].电力工程技术,2021,40(3):84-91. 被引量：9
2李杉,许新征.基于双角度并行剪枝的VGG16优化方法[J].计算机科学,2021,48(6):227-233. 被引量：2
3董爱妹.基于VISUM仿真的收费公路交通量的研究[J].交通世界,2021(13):3-4.
4霍晓萍,林红英.资本成本估算模型质量评价指标体系构建及应用[J].财会月刊,2021(9):56-62. 被引量：2
5王院霞,姚锂凤,郑巧平,陈旭.9株分离自住院患者的CA-MRSA基因型菌株的分子特征及耐药性研究[J].诊断学理论与实践,2021,20(1):66-70. 被引量：1

电信科学

2021年第5期

浏览历史

内容加载中请稍等...

基于最大信息系数的软件缺陷数目预测特征选择方法被引量：2

参考文献5

二级参考文献73

共引文献75

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于最大信息系数的软件缺陷数目预测特征选择方法 被引量：2

参考文献5

二级参考文献73

共引文献75

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于最大信息系数的软件缺陷数目预测特征选择方法被引量：2