摘要
针对缺陷报告相关性分析的研究主要采用计算其文本信息相似度的方法使其查全率和查准率并不理想,提出了一种将结构化信息相似度与文本信息相似度计算相结合的方法,即同时提取出缺陷报告中的文本信息(包括主题和详细描述)以及结构化信息(包括补丁、异常堆栈和代码片段),从缺陷外部表现和内部特征两个角度共同衡量缺陷报告间的相关性。通过对Eclipse系统中的1000个缺陷报告进行实验,结果显示,增加结构化信息相似度计算,可以有效地将缺陷报告间相关性分析的查准率和查全率均提高到90%左右。
The approaches to the relevance analysis of bug reports were studed based on natural language processing technology, but the precision and recall were hard to improve. The paper proposed the new approach based on both of structure information (including patches, exception stack and code fragments). With these information, the relevance of bug reports detected by using the similarity analysis of the structure and text information. It used 1 000 bug reports form Eclipse to test, and the experimental result shows that it can effectively improve precision rate and recall rate to about 90% by adding similarity analysis of the structure information.
出处
《计算机应用研究》
CSCD
北大核心
2010年第6期2134-2139,共6页
Application Research of Computers
基金
国家自然科学基金资助项目(90718018)
国家"863"计划资助项目(2007AA010302)
关键词
相关缺陷报告
结构化信息
相似度
related bug reports
structure information
similarity