噪音过滤和深度学习相结合的安全缺陷报告识别被引量：2

Security Bug Report Detection Via Noise Filtering and Deep Learning

下载PDF

导出

摘要随着软件规模和复杂性的增加,不可避免会出现各种各样的软件缺陷,其中安全相关的软件缺陷容易被攻击者利用而可能造成重大的经济与生命财产损失.在软件开发维护过程中一般会采用缺陷报告追踪系统以缺陷报告的形式及时地记录和追踪软件所产生的缺陷.自动识别安全缺陷报告可以快速将缺陷报告仓库中和安全相关的缺陷报告识别出来,帮助修复人员及时发现安全缺陷并优先修复.目前常见的安全缺陷报告自动识别方法主要是基于文本挖掘和机器学习相结合的技术,但是由于安全相关缺陷具有特征复杂以及在实际项目中数量较少的特点,使得传统的基于机器学习的识别模型难以提取和安全相关的深层次语义特征,并且模型训练过程受数据集噪音的影响较大,从而导致模型的泛化性能提升出现瓶颈.为了解决该问题,本文提出了一种噪音过滤和深度学习相结合的安全缺陷报告识别框架,该框架首先使用词嵌入技术获取语料库中所有单词的分布式向量表示,然后采用本文提出的基于生成模型的噪音过滤方法FSDON(Filtering Semantically Deviating Outlier NSBRs)过滤与安全缺陷报告语义相似并且可能是噪音的非安全缺陷报告,最后使用不同的深度神经网络(LSTM、GRU、TextCNN和Multi-scale DCNN)构建安全缺陷报告识别模型,完成安全缺陷报告自动识别任务.本文方法在5个不同规模的数据集上进行了实验评估,实验结果表明,相比于目前最先进的基于文本挖掘和机器学习相结合的方法,本文方法在g-measure指标上平均提升8.26%,并且在不同规模的数据集上的性能均优于现有最先进的方法. With the increase of the scale and complexity of software,it is inevitable that there will be various software bugs.The security-related software bugs are easy to be exploited by malicious users to launch attacks and cause great damage.In software development and maintenance process,the bug report tracking systems such as Bugzilla are usually used to record and track the bugs in the form of bug reports.The identification of the security bug report automatically quickly identifies the security related bug reports in the bug report tracking systems,which could help the developers to work on fast fixing bugs.Recently,many existing methods for security bug report detection have been gaining much attention to tackle such problems by combining text mining and machine learning.However,owing to the small sample size and complex characteristics of security-related bug reports,it is difficult for most previous work based on machine learning methods to capture deep semantic information from textual fields of bug reports.In addition,previous approaches focus on filtering the noise bug reports from datasets using text mining models without considering the semantic information,which leads to a bottleneck for further improving the prediction performance of the trained model.In order to address the aforementioned problems,in this paper,we develop a novel framework to predict unknown security bug reports by combining semantic-based noise filtering with deep learning techniques.More concretely,it firstly leverages the word embedding technique to get the dense and low-dimensional vector representation of all words in corpus.Secondly,it leverages the proposed Filtering Semantically Deviating Outlier NSBRs(FSDON)method to filter the non-security bug reports(NSBRs)that have higher similarity with security bug reports(SBRs).Finally,it builds predictive models for SBRs detection based on different deep learning networks(LSTM,GRU,TextCNN and Multi-scale DCNN).This method is evaluated on 5 different datasets,and the experimental results s

作者蒋远牟辰光苏小红王甜甜 JIANG Yuan;MU Chen-Guang;SU Xiao-Hong;WANG Tian-Tian(Faculty of Computing,Harbin Institute of Technology,Harbin 150001)

机构地区哈尔滨工业大学计算学部

出处《计算机学报》 EI CAS CSCD 北大核心 2022年第8期1794-1813,共20页 Chinese Journal of Computers

基金国家自然科学基金项目(61672191) “十三五”国家重点研发计划(2017YFC0702204)资助.

关键词安全缺陷报告识别生成模型缺陷报告噪音过滤深度学习 security bug report detection generation model noise filtering of bug reports deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
2郑炜,陈军正,吴潇雪,陈翔,夏鑫.基于深度学习的安全缺陷报告预测方法实证研究[J].软件学报,2020,31(5):1294-1313. 被引量：10

二级参考文献9

1陈火旺,王戟,董威.高可信软件工程技术[J].电子学报,2003,31(z1):1933-1938. 被引量：115
2张文浩,曹健.软件缺陷预防过程与方法[J].计算机工程,2004,30(B12):23-24. 被引量：4
3胡玉鹏,陈治平,林亚平,李军义.贝叶斯缺陷分析模型及其在软件测试中的应用[J].计算机应用,2005,25(4):808-810. 被引量：3
4刘宏伟,杨孝宗,岳晓光,曲峰.一个NHPP类软件可靠性增长模型框架[J].计算机工程与科学,2005,27(4):1-2. 被引量：4
5陈莉,刘海红,盛昌,陈威.可靠性增长模型和正交缺陷分类的结合及在过程定性分析中的应用[J].科学技术与工程,2005,5(14):963-966. 被引量：1
6郭树行,兰雨晴,金茂忠.软件构件的可信保证研究[J].计算机科学,2007,34(5):243-246. 被引量：14
7郭树行,兰雨晴,金茂忠.基于目标的软件可信性需求规约方法研究[J].计算机工程,2007,33(11):37-38. 被引量：3
8朱永春,徐红.一种基于历史数据的软件缺陷预测方法改进[J].北京航空航天大学学报,2003,29(10):947-950. 被引量：8
9蒋乐天,徐国治.软件缺陷及软件可靠性技术[J].计算机仿真,2004,21(2):141-144. 被引量：16

共引文献157

1郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
2秦庆强,魏启国.结合软件开发过程的软件缺陷预测方法[J].计算机应用研究,2020,37(S02):210-213.
3左旭辉,李文泽.高效的小型软件项目的质量保障体系[J].计算机工程与设计,2009,30(9):2211-2212. 被引量：1
4吴超,许建平,陈丽容.基于生命周期的软件缺陷预测技术[J].计算机工程与设计,2009,30(12):2956-2959. 被引量：7
5李宁,李战怀.软件缺陷数据处理研究综述[J].计算机科学,2009,36(8):21-25. 被引量：11
6罗云锋,贲可荣.软件故障静态预测方法综述[J].计算机科学与探索,2009,3(5):449-459. 被引量：6
7王科欣,王胜利.基于贝叶斯网络技术的软件缺陷预测与故障诊断[J].微型电脑应用,2009(11):31-33. 被引量：5
8库燕,杨叶,李奇.基于COQUALMO的缺陷预测与校准工具的设计与实现[J].计算机工程与设计,2010,31(14):3185-3188.
9张垚,袁志海,江海燕.一种面向对象软件缺陷的早期预测方法[J].计算机技术与发展,2010,20(8):37-40. 被引量：5
10占济舟,周献中,赵佳宝,王建峰.基于失信因子的软件缺陷预测模型[J].中国管理科学,2010,18(6):89-96.

同被引文献30

1李宁,李战怀,张利军.一种新的基于N-gram模型的重复软件缺陷报告检测方法[J].西北工业大学学报,2010,28(2):298-303. 被引量：2
2胡甜媛,姜瑛.体现使用反馈的APP软件用户评论挖掘[J].软件学报,2019,30(10):3168-3185. 被引量：23
3郑炜,陈军正,吴潇雪,陈翔,夏鑫.基于深度学习的安全缺陷报告预测方法实证研究[J].软件学报,2020,31(5):1294-1313. 被引量：10
4段文静,姜瑛.基于用户反馈的APP软件缺陷识别[J].计算机科学,2020,47(6):44-50. 被引量：4
5肖建茂,陈世展,冯志勇,刘朋立,薛霄.一种基于用户评论自动分析的APP维护和演化方法[J].计算机学报,2020,43(11):2184-2202. 被引量：6
6高俊婷,张丽萍,赵凤荣.基于聚类和关键词提取的软件缺陷分析方法[J].计算机工程与设计,2021,42(3):830-839. 被引量：6
7韩敏,李宇,韩冰.基于改进结构保持数据降维方法的故障诊断研究[J].自动化学报,2021,47(2):338-348. 被引量：15
8罗森林,苏霞,潘丽敏.稳健边界强化GMM-SMOTE软件缺陷检测方法[J].北京理工大学学报,2021,41(3):303-310. 被引量：5
9钟仁毅,王翀,梁鹏,罗忠.基于版本更新日志的移动应用演化趋势自动分析[J].计算机研究与发展,2021,58(4):763-776. 被引量：4
10钱宇,曹恩叶,邓文君,袁华.海量用户评论在APP更新设计中的参与作用挖掘[J].系统工程理论与实践,2021,41(3):554-564. 被引量：12

引证文献2

1汪绍荣,黄卫春,宗波.基于流形学习降维的缺陷动态特征分类算法[J].计算机仿真,2023,40(11):475-479.
2刘海毅,姜瑛,赵泽江.面向版本演化的APP软件缺陷跟踪分析方法[J].软件学报,2024,35(7):3180-3203.

1刘仕杰,董超,朱小军,刘青昕,张磊.面向频谱监测的无人机感知数据回传方法[J].移动通信,2022,46(7):17-22. 被引量：1
2刘飞,单佳瑶,熊彬宇,方正,杨正权.基于多传感器融合的无人机可降落区域识别方法研究[J].航空科学技术,2022,33(4):19-27. 被引量：8
3沈笑云,陈泰安,吴世桂,张洁.基于ABOD算法的机场容量包络曲线设计研究[J].计算机仿真,2022,39(4):41-45. 被引量：5
4周萍.基于强化学习的拥塞窗口调整策略研究[J].现代信息科技,2022,6(8):86-88.
5Zhang Xue.China’s Participation in Global Economic Governance:Progress,Challenges and Approaches[J].China International Studies,2022,67(2):96-115.
6Umeh Edith Uzoma,Obulezi Okechukwu Jeremiah.An Alternative Approach to AIC and Mallow’s Cp Statistic-Based Relative Influence Measures (RIMS) in Regression Variable Selection[J].Open Journal of Statistics,2016,6(1):70-75.
7Lixin Wang,Jianhua Yang,Michael Workman,Pengjun Wan.Effective Algorithms to Detect Stepping-Stone Intrusion by Removing Outliers of Packet RTTs[J].Tsinghua Science and Technology,2022,27(2):432-442.
8杨明环,张波,汤祥军,黄晓东,罗杰.miR-1271靶向DDI2对胶质瘤细胞增殖、凋亡的影响及机制[J].生物技术,2022,32(3):325-331.
9Kajsa Møllersen,Subhra S. Dhar,Fred Godtliebsen.On Data-Independent Properties for Density-Based Dissimilarity Measures in Hybrid Clustering[J].Applied Mathematics,2016,7(15):1674-1706.
10吴怡,陶红莉.miR-16在慢性不可预知温和应激抑郁模型小鼠中的表达[J].中国临床神经科学,2022,30(2):153-157. 被引量：3

计算机学报

2022年第8期

浏览历史

内容加载中请稍等...

噪音过滤和深度学习相结合的安全缺陷报告识别被引量：2

参考文献2

二级参考文献9

共引文献157

同被引文献30

引证文献2

相关作者

相关机构

相关主题

浏览历史

噪音过滤和深度学习相结合的安全缺陷报告识别 被引量：2

参考文献2

二级参考文献9

共引文献157

同被引文献30

引证文献2

相关作者

相关机构

相关主题

浏览历史

噪音过滤和深度学习相结合的安全缺陷报告识别被引量：2