融合文本与分类信息的重复缺陷报告检测方法被引量：9

Detection Method of Duplicate Defect Reports Fusing Text and Categorization Information

下载PDF

导出

摘要软件缺陷是软件出现错误、故障的根源。软件缺陷是需求分析不合理、编程语言不严谨、开发人员缺少经验等因素导致的。软件缺陷不可避免,提交缺陷报告是发现缺陷并改进缺陷的重要途径。缺陷报告是描述缺陷的载体,对缺陷报告的修复是完善软件的必要手段。维护人员和用户因同一缺陷重复提交报告,导致缺陷报告库中存在大量冗余的报告,手动分诊已无法适应越来越复杂的软件系统。重复缺陷报告检测能过滤缺陷报告库中冗余的重复报告,并将人力与时间投入到新的缺陷报告上。当前研究方法的预测准确率始终不高,其难点在于寻找一个合适且全面的方法来衡量缺陷报告之间的相似性。借鉴集成方法的思想,提出了一种基于文本信息、分类信息相融合的重复缺陷报告检测方法——BSO(combination of BM25F、LSI and One-Hot)。在数据预处理的基础上,文中将重复缺陷报告分割为文本信息域与分类信息域。在文本信息域上使用BM25F与LSI算法,得到两个方法的相似性打分,运用相似性融合方法将两个方法的相似性打分进行整合;在分类信息域上使用One-Hot算法得到相似性打分。运用相似性融合方法,融合文本信息域与分类信息域的相似性打分,为每个缺陷报告对应一个重复缺陷报告推荐列表,并计算重复缺陷报告检测的准确率。利用Python语言,在公开的数据集OpenOffice上与基线方法以及较新水平方法REP、DBTM进行对比。实验结果表明,与DBTM相比,本文方法的准确率平均提高了4.7%;与REP方法相比,本文方法的准确率平均提高了6.3%;与基线方法相比,本文方法的准确率提升较高。实验结果充分证明了BSO方法的有效性。 Software defect is the root of software errors and failures.Software defect is caused by unreasonable requirement analysis,imprecise programming language and lack of experience of developers.Software defects are inevitable,and submitting defect reports is an important way to find and improve defects.Defect report is the carrier of describing defects,and the repair of defect report is the necessary means to improve software.Maintenance personnel and users submit reports for the same defect repeatedly,resulting in a large number of redundant reports in the defect report library.Manual triage is unable to adapt to more and more complex software systems.The detection of duplicate defect reports can filter redundant duplicate reports from defect report libraries and invests human and time in new defect reports.The prediction accuracy rate of current research methods is not high,and the difficulty is to find a suitable and comprehensive method to measure the similarity between defect reports.Based on the idea of the integration method and the python language,a new method named BSO(combination of BM25F,LSI and One-Hot)for detecting duplicate defect report was proposed by using text information and categorization information.On the basis of data preprocessing,duplicate defect report is divided into text information domain and categorization information domain.BM25F and LSI algorithms are used to get similarity scores in text information domain,and One-Hot algorithm is used to get similarity scores in categorization information domain.The similarity fusion method is used to synthesize the similarity score between text information domain and categorization information domain,and a recommendation list for each defect report corresponds to a duplicate defect report.The accuracy of the duplicate defect report detection is calculated.Compared with the baseline method and the state-of the art methods including REP and DBTM on OpenOffice.The experimental results show that the accuracy of the proposed method is 4.7%higher than th

作者范道远孙吉红王炜涂吉屏何欣 FAN Dao-yuan;SUN Ji-hong;WANG Wei;TU Ji-ping;HE Xin(College of Software,Yunnan University,Kunming 650500,China;Academy of Sciences in Yunnan Province,Kunming 650091,China;Key Laboratory for Software Engineering of Yunnan Province,Kunming 650500,China)

机构地区云南大学软件学院云南省科学技术院云南省软件工程重点实验室

出处《计算机科学》 CSCD 北大核心 2019年第12期192-200,共9页 Computer Science

关键词重复缺陷报告信息检索方法主题模型 One-Hot 相似性融合 Duplicate defect report Information retrieval method Topic model One-Hot Similarity fusion

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48. 被引量：11
2任永功,杨荣杰,尹明飞.基于特征权重与词间相关性的文本特征选择算法[J].计算机应用与软件,2012,29(9):33-36. 被引量：3

二级参考文献16

1张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报（自然科学版）,2004,43(5):893-898. 被引量：44
2Cubranic D, Murphy G C. Automatic Bug Triage Using Text Categorization[C]//Proc. of the 16th International Conference on Software Engineering and Knowledge Engineering. Edinburgh, UK: [s. n.], 2004. 被引量：1
3Anvik J, Hiew L, Murphy G C. Who Should Fix This Bug?[C]// Proc. of the 28th International Conf. on Software Engineering. Shanghai, China: [s. n.], 2006. 被引量：1
4Ahsan S N, Ferzund J, Wotawa E Automatic Software Bug Triage System(BTS) Based on Latent Semantic Indexing and Support Vector Machine[C]//Proc. of the 4th International Conference on Software Engineering Advances. Porto, Portugal: [s. n.], 2009. 被引量：1
5Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. 被引量：1
6Giffiths T L, Steyvers M. Finding Scientific Topics[J]. Proc. of National Academy of Science, 2004, 101(SI): 5228-5235. 被引量：1
7Liu Y, Zheng Y F. A novel feature selection method for support vector machines [ J ]. Pattern Recognition,2006,39 : 1333 - 1345. 被引量：1
8Sikonja R M, Kononenko I. Theoretical and empirical analys is of Re- liefF and RReliefF[ J]. Machine Learning,2003,53( 1 -2) :23 -69. 被引量：1
9Kononenko I. Estimation: Analysis and extensions of relief [ C ]//Pro- ceedings of the 1994 European Conference on Machine Learning[ S. 1. J. ACM Press, 1997:273 - 324. 被引量：1
10Kenji K, Rendell L A, Rendell A. A practical approach to feature selec- tion machine learning[ C ]//Proceedings of ICML' 92. Aberdeen, Scot- land, UK[ s. n. ] , 1992:249 - 256. 被引量：1

共引文献12

1白宁.基于特征选择融合的垃圾邮件过滤方法[J].计算机应用与软件,2014,31(4):31-34. 被引量：2
2李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12
3龚静,胡平霞,胡灿.用于文本分类的特征项权重算法改进[J].计算机技术与发展,2014,24(9):128-132. 被引量：9
4李湘东,曹环,黄莉.基于分布偏斜训练集的特征选择方法研究[J].情报理论与实践,2015,38(4):139-144. 被引量：2
5李湘东,巴志超,黄莉.一种基于加权LDA模型和多粒度的文本特征选择方法[J].现代图书情报技术,2015(5):42-49. 被引量：18
6黄伟,林劼,江育娥,江秉华.改进的软件错误报告自动分类算法[J].计算机工程,2015,41(6):183-187.
7黄伟,林劼,江育娥.云环境下软件错误报告自动分类算法改进[J].计算机应用,2016,36(5):1212-1215.
8刘海洋,马于涛.一种针对软件缺陷自动分派的开发者推荐方法[J].小型微型计算机系统,2017,38(12):2747-2753. 被引量：3
9马波,张颖,于雷.往复压缩机相空间LDA模型在异常检测中的应用[J].机械设计与制造,2018(5):12-15. 被引量：3
10刘文杰,江贺.基于特征选择的软件缺陷报告严重性评估[J].计算机工程,2019,45(8):80-85. 被引量：5

同被引文献60

1李宁,李战怀,张利军.一种新的基于N-gram模型的重复软件缺陷报告检测方法[J].西北工业大学学报,2010,28(2):298-303. 被引量：2
2何云,王炜,李彤,张秀洋,韩俊明.面向行为主题的软件特征定位方法[J].计算机科学与探索,2014,8(12):1452-1462. 被引量：7
3郝晓玲,茅嘉惠,于秀艳.微博热词抽取及话题发现研究[J].情报杂志,2015,34(6):109-113. 被引量：10
4韩俊明,王炜,李彤,何云.演化软件的特征定位方法[J].计算机科学与探索,2016,10(9):1201-1210. 被引量：7
5尹春林,王炜,李彤,何云.基于RNN进行面向主题的特征定位方法[J].计算机应用与软件,2017,34(6):12-17. 被引量：2
6尹春林,王炜,李彤,蒋巍.一种软件特征定位研究结果的评估方法[J].计算机技术与发展,2017,27(7):47-50. 被引量：1
7段青玲,张璐,刘怡然,王沙沙.基于农业网络信息分类的热词自动提取方法[J].农业机械学报,2018,49(7):160-167. 被引量：8
8上官明霞,朱珊珊,陈晓亮,王晶华,郭光.基于融合自然语言处理的语义分析方法研究[J].计算机与网络,2018,44(20):65-67. 被引量：4
9郭丽,刘磊.基于多层感知器的流量分类方法研究[J].电子测量与仪器学报,2019,0(7):56-64. 被引量：6
10陈婧汶,陈建国,王成彬,朱月琴.基于条件随机场的地质矿产文本分词研究[J].中国矿业,2018,27(9):69-74. 被引量：8

引证文献9

1尹春林,杨政.电科院MIS系统分析与改进[J].电力设备管理,2021(4):59-61.
2曾杰,贲可荣,张献,徐永士.融合文本分布式表示的重复缺陷报告检测[J].计算机工程与科学,2021,43(4):670-680. 被引量：2
3王帅,孙喜民,高亚斌,孙博.基于神经协同过滤的个性化商品推荐方法[J].信息技术,2021,45(6):143-147. 被引量：3
4张骞月,赵瑞莲,王微微.语义扩展连续查询的重复错误报告预测[J].计算机系统应用,2022,31(2):31-39.
5李玉琦,李龙.基于模式识别算法的网页重复信息抽取仿真[J].计算机仿真,2022,39(3):439-443. 被引量：2
6曾方,谢琪,崔梦天.一种融合D_BBAS方法的重复缺陷报告检测[J].计算机应用研究,2022,39(12):3736-3742.
7周文杰,谢琪,崔梦天.强化文本关联语义和多特征提取的重复缺陷报告检测模型[J].重庆大学学报,2023,46(7):53-62.
8白雯.基于决策树的英文翻译软件缺陷检测方法[J].自动化技术与应用,2023,42(12):108-111.
9王大睿,张超群,郝小芳,完颜兵,李晓翔.一种基于景区评论的静态热词提取模型[J].信息技术,2024,48(6):15-21.

二级引证文献7

1曾方,谢琪,崔梦天.一种融合D_BBAS方法的重复缺陷报告检测[J].计算机应用研究,2022,39(12):3736-3742.
2郑素萍.基于用户画像的数字化阅读推广平台设计[J].中国科技资源导刊,2023,55(1):45-51. 被引量：1
3区卓越,覃姜维,赵峰,孙晓翠.Nutch在中医药信息融合中的应用研究[J].现代计算机,2023,29(3):9-15.
4高康月.基于改进K-均值算法的图书馆图书个性化推荐技术研究[J].现代科学仪器,2023,40(5):186-191.
5李加军.基于Spark平台的电子商务个性化信息推荐方法[J].信息技术,2023,47(10):66-71.
6汪绍荣,黄卫春,宗波.基于流形学习降维的缺陷动态特征分类算法[J].计算机仿真,2023,40(11):475-479.
7马捷,孙文晶,郝志远.全价值链数据创新:内涵、路径与实现模式[J].图书情报工作,2024,68(1):39-49.

1葛云生,孔杰.分布式全文检索技术的研究及应用[J].计算机工程与设计,2018,39(9):2997-3001. 被引量：3
2颜培实.左西孟旦、重组人脑利钠肽对老年失代偿性心力衰竭的治疗效果及血流动力学的影响[J].中国心血管病研究,2017,15(9):845-848. 被引量：19
3马盈三,谷金河.几种PVC稳定剂在热氧老化方面的作用及协同效应[J].轻工学报,1988,30(2):14-25.
4乔湘.快速取出螃蟹腿肉两法[J].农村新技术,2019,0(9):60-60.
5周鹏.现代图书馆管理与服务的人本化探讨[J].区域治理,2018,0(13):58-58.
6潘刚.初中数学课堂效率提升探析[J].读天下（综合）,2019(3):0134-0134.
7何保荣.大数据下监控网络混合入侵信息检索仿真[J].沈阳工业大学学报,2019,41(6):654-658. 被引量：18
8胡志伟,杨华,黄济民,谢倩倩.基于注意力残差机制的细粒度番茄病害识别[J].华南农业大学学报,2019,40(6):124-132. 被引量：22
9卢园华,张鹰庆,梁桂荣,陈雪华,郑晓连,刘全芳.静配中心降低配液排药差错率品管圈活动实践[J].海峡药学,2019,31(10):284-287. 被引量：3
10徐帆,曾苏.药品属性分类知识库的构建及其在我院药事管理数据分析中的应用[J].中国药房,2019,30(20):2737-2741. 被引量：28

计算机科学

2019年第12期

浏览历史

内容加载中请稍等...

融合文本与分类信息的重复缺陷报告检测方法被引量：9

参考文献2

二级参考文献16

共引文献12

同被引文献60

引证文献9

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

融合文本与分类信息的重复缺陷报告检测方法 被引量：9

参考文献2

二级参考文献16

共引文献12

同被引文献60

引证文献9

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

融合文本与分类信息的重复缺陷报告检测方法被引量：9