期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
融合文本与分类信息的重复缺陷报告检测方法 被引量:9
1
作者 范道远 孙吉红 +2 位作者 王炜 涂吉屏 何欣 《计算机科学》 CSCD 北大核心 2019年第12期192-200,共9页
软件缺陷是软件出现错误、故障的根源。软件缺陷是需求分析不合理、编程语言不严谨、开发人员缺少经验等因素导致的。软件缺陷不可避免,提交缺陷报告是发现缺陷并改进缺陷的重要途径。缺陷报告是描述缺陷的载体,对缺陷报告的修复是完善... 软件缺陷是软件出现错误、故障的根源。软件缺陷是需求分析不合理、编程语言不严谨、开发人员缺少经验等因素导致的。软件缺陷不可避免,提交缺陷报告是发现缺陷并改进缺陷的重要途径。缺陷报告是描述缺陷的载体,对缺陷报告的修复是完善软件的必要手段。维护人员和用户因同一缺陷重复提交报告,导致缺陷报告库中存在大量冗余的报告,手动分诊已无法适应越来越复杂的软件系统。重复缺陷报告检测能过滤缺陷报告库中冗余的重复报告,并将人力与时间投入到新的缺陷报告上。当前研究方法的预测准确率始终不高,其难点在于寻找一个合适且全面的方法来衡量缺陷报告之间的相似性。借鉴集成方法的思想,提出了一种基于文本信息、分类信息相融合的重复缺陷报告检测方法——BSO(combination of BM25F、LSI and One-Hot)。在数据预处理的基础上,文中将重复缺陷报告分割为文本信息域与分类信息域。在文本信息域上使用BM25F与LSI算法,得到两个方法的相似性打分,运用相似性融合方法将两个方法的相似性打分进行整合;在分类信息域上使用One-Hot算法得到相似性打分。运用相似性融合方法,融合文本信息域与分类信息域的相似性打分,为每个缺陷报告对应一个重复缺陷报告推荐列表,并计算重复缺陷报告检测的准确率。利用Python语言,在公开的数据集OpenOffice上与基线方法以及较新水平方法REP、DBTM进行对比。实验结果表明,与DBTM相比,本文方法的准确率平均提高了4.7%;与REP方法相比,本文方法的准确率平均提高了6.3%;与基线方法相比,本文方法的准确率提升较高。实验结果充分证明了BSO方法的有效性。 展开更多
关键词 重复缺陷报告 信息检索方法 主题模型 One-Hot 相似性融合
下载PDF
一种静态的编译器重复缺陷报告识别方法 被引量:2
2
作者 陈俊洁 胡文翔 +3 位作者 郝丹 熊英飞 张洪宇 张路 《中国科学:信息科学》 CSCD 北大核心 2019年第10期1283-1298,共16页
编译器缺陷报告在编译器质量保证中具有重要作用,而重复缺陷报告往往带来不必要的人力、时间等资源浪费.为了识别编译器重复缺陷报告,本文提出了一种静态的重复缺陷报告识别方法IdenDup.该方法可以有效解决两个场景下的重复缺陷报告问题... 编译器缺陷报告在编译器质量保证中具有重要作用,而重复缺陷报告往往带来不必要的人力、时间等资源浪费.为了识别编译器重复缺陷报告,本文提出了一种静态的重复缺陷报告识别方法IdenDup.该方法可以有效解决两个场景下的重复缺陷报告问题,即模糊测试(fuzz testing)所产生的缺陷报告和缺陷管理系统中不同来源的缺陷报告.具体来说,IdenDup利用缺陷报告中静态文本和程序特征来识别重复缺陷报告,其中程序特征包括程序词法、语法,以及本文首次提出的数据流特征.特别地,程序数据流特征指的是程序中变量使用路径(变量使用方式及使用方式的顺序)特征.之后,我们使用C语言的两个主流编译器GCC和LLVM作为实验对象,对IdenDup的效果进行了实验探究.实验结果表明,IdenDup可以有效地识别上述两个场景下的重复缺陷报告,并且超过已有方法. 展开更多
关键词 编译器调试 编译器缺陷报告 重复缺陷报告 数据流分析 静态方法
原文传递
融合文本分布式表示的重复缺陷报告检测 被引量:2
3
作者 曾杰 贲可荣 +1 位作者 张献 徐永士 《计算机工程与科学》 CSCD 北大核心 2021年第4期670-680,共11页
重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并... 重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并抽取缺陷报告的分布式表示,将不同长度的缺陷报告编码为统一长度的稠密向量。接着,通过比较这些向量来计算不同缺陷报告的相似程度,将其作为一种新特征与重复缺陷报告检测过程常用的其它特征进行融合,并利用机器学习算法训练二元分类模型。在公开的Bugzilla重复缺陷报告数据集上的实验结果表明,相比于代表性方法D_TS,本文方法的F1值平均提升了2%,说明了新特征的有效性。 展开更多
关键词 重复缺陷报告 文本分布式表示 Doc2Vec模型 机器学习算法
下载PDF
一种新的基于N-gram模型的重复软件缺陷报告检测方法 被引量:2
4
作者 李宁 李战怀 张利军 《西北工业大学学报》 EI CAS CSCD 北大核心 2010年第2期298-303,共6页
软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模... 软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模型的重复缺陷报告检测方法,文中第2小节中详细介绍了该方法的细节。通过在小数据集上的实验,明确了在使用该方法检测重复缺陷报告时,参数N取3/4/5,利用全句法仅针对缺陷报告的概要信息进行相似度计算将取得较好的效果。最终使用一个含有4 503条Firefox缺陷报告的数据集对该方法进行了验证。实验证明N-gram模型法与向量空间模型法相比,重复缺陷的查全率(Recall Rate)提高了25%~55%。 展开更多
关键词 自然语言处理系统 重复缺陷报告 N-gram方法 文本相似度
下载PDF
一种融合D_BBAS方法的重复缺陷报告检测
5
作者 曾方 谢琪 崔梦天 《计算机应用研究》 CSCD 北大核心 2022年第12期3736-3742,共7页
为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利... 为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利用这两个分布式的表示集计算出缺陷报告对的相似度,从而得到两个新的相似度特征;这两个新特征将与基于结构化信息生成的传统特征结合后参与重复缺陷报告的检测。在著名开源项目Eclipse、NetBeans和Open Office的缺陷报告库上验证了D_BBAS方法的有效性,其中包含超过50万个缺陷报告。实验结果表明,相比于代表性方法,该方法的F1值平均提升了1.7%,证明了D_BBAS方法的有效性。 展开更多
关键词 重复缺陷报告 BERT模型 Doc2vec模型 BiLSTM-attention神经网络
下载PDF
基于LDA-BERT重复缺陷报告检测模型研究 被引量:1
6
作者 崔梦天 杨善矿 袁启航 《西南民族大学学报(自然科学版)》 CAS 2023年第4期414-423,共10页
为解决当前软件缺陷报告库中经常存在着大量重复缺陷报告被提交的问题,提出了一种基于LDA-BERT的重复缺陷报告检测模型模型.首先,将潜在狄利克雷分配模型(LDA,Latent Dirichlet Allocation)模型输出向量同BERT(Bidirectional Encoder Re... 为解决当前软件缺陷报告库中经常存在着大量重复缺陷报告被提交的问题,提出了一种基于LDA-BERT的重复缺陷报告检测模型模型.首先,将潜在狄利克雷分配模型(LDA,Latent Dirichlet Allocation)模型输出向量同BERT(Bidirectional Encoder Representations from Transformers)模型输出向量连接成新的模型向量,目的是融合主题模型LDA对于主题识别的优势和BERT模型识别上下文语义优势;然后,为了保证在检测的精度的同时,缩短检测时间,提出了二级特征向量再检测方法,通过二次抽取特征向量,以达到检测的精度与时间上的平衡的问题;最后,将大型开源项目缺陷报告库作为实验数据集,对所提出的模型方法与同类模型进行实验比对,实验结果表明本模型的召回率、精度在实验数据集的TOP-2000等指标上分别达到61.35%、47.34%.与同类模型相比该模型提高的百分比分别是4.3%和5.2%.实验结果表明,与已有的方法相比,提出的模型对于重复缺陷报告检测是有效果的. 展开更多
关键词 LDA模型 BERT模型 重复缺陷报告检测
下载PDF
强化文本关联语义和多特征提取的重复缺陷报告检测模型
7
作者 周文杰 谢琪 崔梦天 《重庆大学学报》 CAS CSCD 北大核心 2023年第7期53-62,共10页
针对重复缺陷报告检测研究中存在语义长距离依赖以及缺陷报告特征的单一性问题,提出一种强化文本关联语义和多特征提取的重复缺陷报告检测模型。引入自注意力机制捕获缺陷报告文本序列内部的语义关联性,从而动态计算上下文语义向量进行... 针对重复缺陷报告检测研究中存在语义长距离依赖以及缺陷报告特征的单一性问题,提出一种强化文本关联语义和多特征提取的重复缺陷报告检测模型。引入自注意力机制捕获缺陷报告文本序列内部的语义关联性,从而动态计算上下文语义向量进行语义分析,解决长距离依赖问题;利用隐含狄利克雷分布算法捕获缺陷报告文本的主题特征,同时针对缺陷报告的类别信息,构建一种特征提取网络计算类别差异特征;最后基于3类特征向量进行综合检测。实验结果表明,该模型实现了更优的检测性能。 展开更多
关键词 重复缺陷报告检测 长距离依赖 自注意力机制 语义分析 多特征提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部