一种融合D_BBAS方法的重复缺陷报告检测

Duplicate bug report detection combining D_BBAS method

下载PDF

导出

摘要为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利用这两个分布式的表示集计算出缺陷报告对的相似度,从而得到两个新的相似度特征;这两个新特征将与基于结构化信息生成的传统特征结合后参与重复缺陷报告的检测。在著名开源项目Eclipse、NetBeans和Open Office的缺陷报告库上验证了D_BBAS方法的有效性,其中包含超过50万个缺陷报告。实验结果表明,相比于代表性方法,该方法的F1值平均提升了1.7%,证明了D_BBAS方法的有效性。 In order to obtain the features of unstructured information of bug reports more effectively,this paper proposed a D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)method,which trained a feature extraction model based on a large-scale bug report library to generate a bug summary text representation set and a bug description text representation set that could reflect deep semantic information.Then,it used these two distributed representation sets to compute the similarity of bug report pairs,thus obtaining the two new similarity features.It combined two new features with the traditional features generated by structured information to participate in the detection of duplicate bug reports.This paper verified the effectiveness of the D_BBAS method on the bug report repositories of well-known open-source projects Eclipse,NetBeans and Open Office,which contained more than 500000 bug reports.The experimental results show that compared with the representative methods,the D_BBAS method improves the F_(1) value by 1.7%on average,which proves the effectiveness of the method.

作者曾方谢琪崔梦天 Zeng Fang;Xie Qi;Cui Mengtian(Southwest Minzu University,Chengdu 610041,China)

机构地区西南民族大学

出处《计算机应用研究》 CSCD 北大核心 2022年第12期3736-3742,共7页 Application Research of Computers

基金科技部高端外国专家引进计划资助项目(G2021186002L) 四川省科技计划资助项目(2022JDGD0011) 西南民族大学中央高校基本科研业务费专项资金资助项目(2021NYYXS44)。

关键词重复缺陷报告 BERT模型 Doc2vec模型 BiLSTM-attention神经网络 duplicated bug report BERT Doc2vec BiLSTM-attention neural network

分类号 TP311.53 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1曾杰,贲可荣,张献,徐永士.融合文本分布式表示的重复缺陷报告检测[J].计算机工程与科学,2021,43(4):670-680. 被引量：2
2董美含..基于缺陷报告和源代码的相似缺陷识别方法[D].哈尔滨工业大学,2018:
3范道远,孙吉红,王炜,涂吉屏,何欣.融合文本与分类信息的重复缺陷报告检测方法[J].计算机科学,2019,46(12):192-200. 被引量：9
4陈俊洁,胡文翔,郝丹,熊英飞,张洪宇,张路.一种静态的编译器重复缺陷报告识别方法[J].中国科学：信息科学,2019,49(10):1283-1298. 被引量：2

二级参考文献6

1李宁,李战怀,张利军.一种新的基于N-gram模型的重复软件缺陷报告检测方法[J].西北工业大学学报,2010,28(2):298-303. 被引量：2
2黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48. 被引量：11
3任永功,杨荣杰,尹明飞.基于特征权重与词间相关性的文本特征选择算法[J].计算机应用与软件,2012,29(9):33-36. 被引量：3
4樊田田,许蕾,陈林.基于多目标优化算法NSGA-II推荐相似缺陷报告[J].计算机学报,2019,42(10):2175-2189. 被引量：13
5陈俊洁,胡文翔,郝丹,熊英飞,张洪宇,张路.一种静态的编译器重复缺陷报告识别方法[J].中国科学：信息科学,2019,49(10):1283-1298. 被引量：2
6范道远,孙吉红,王炜,涂吉屏,何欣.融合文本与分类信息的重复缺陷报告检测方法[J].计算机科学,2019,46(12):192-200. 被引量：9

共引文献9

1尹春林,杨政.电科院MIS系统分析与改进[J].电力设备管理,2021(4):59-61.
2曾杰,贲可荣,张献,徐永士.融合文本分布式表示的重复缺陷报告检测[J].计算机工程与科学,2021,43(4):670-680. 被引量：2
3王帅,孙喜民,高亚斌,孙博.基于神经协同过滤的个性化商品推荐方法[J].信息技术,2021,45(6):143-147. 被引量：3
4张骞月,赵瑞莲,王微微.语义扩展连续查询的重复错误报告预测[J].计算机系统应用,2022,31(2):31-39.
5李玉琦,李龙.基于模式识别算法的网页重复信息抽取仿真[J].计算机仿真,2022,39(3):439-443. 被引量：2
6周文杰,谢琪,崔梦天.强化文本关联语义和多特征提取的重复缺陷报告检测模型[J].重庆大学学报,2023,46(7):53-62.
7白雯.基于决策树的英文翻译软件缺陷检测方法[J].自动化技术与应用,2023,42(12):108-111.
8汪绍荣,黄卫春,宗波.基于流形学习降维的缺陷动态特征分类算法[J].计算机仿真,2023,40(11):475-479.
9王大睿,张超群,郝小芳,完颜兵,李晓翔.一种基于景区评论的静态热词提取模型[J].信息技术,2024,48(6):15-21.

1贾君霞,王会真,任凯,康文.基于句向量和卷积神经网络的文本聚类研究[J].计算机工程与应用,2022,58(16):123-128. 被引量：4
2郑炜,王晓龙,陈翔,夏鑫,廖慧玲,刘程远,孙瑞阳.重复软件缺陷报告检测方法综述[J].软件学报,2022,33(6):2288-2311. 被引量：2
3龙伟,李远志.双LVIS支架套叠辅助弹簧圈栓塞对BBA患者疗效与围术期并发症的影响[J].中南医学科学杂志,2022,50(6):857-860.
4追问蔚来李斌:怎么省出1台BBA[J].中国经济周刊,2022(23):12-12.

计算机应用研究

2022年第12期

浏览历史

内容加载中请稍等...

一种融合D_BBAS方法的重复缺陷报告检测

参考文献4

二级参考文献6

共引文献9

相关作者

相关机构

相关主题

浏览历史