使用哈希值和标识符冲突率的克隆代码检测的误检消除方法被引量：1

The Method to Eliminate False Positives of Clone Code Detection with Hash Value and Identifier Conflict Ratio

下载PDF

导出

摘要针对采用基于token的克隆代码检测方法检测语法相似的克隆代码时存在的部分误检问题,提出一种使用哈希值和标识符冲突率来消除克隆代码检测的部分误检的方法。该方法首先通过语句的哈希值判断语句结构的相似性,然后计算标识符冲突率,通过冲突率的变化,来确定误检消除的方向和消除情况。对于存在误检的克隆代码,最终通过修改克隆代码的相对行号来消除误检。实验结果表明,提出的方法可以消除由于插入结构相同的语句而引起的克隆代码的误检问题,并在此基础上,有效消除了语句形式一样但由于语句顺序颠倒而引起的克隆代码误检问题,提高了克隆代码检测及克隆代码相关缺陷检测的准确性,有利于后续克隆代码重构的研究。 There are some disadvantages when detecting syntax similar clone code with clone code detection method based on token method. To solve these problems, this paper proposes a method to eliminate part false detection of clone code detection with statement hash value and identifier conflict ratio. At first, statement hash value is compared to determine the statement structure similarity. Then the identifier conflict ratio is computed to decide the direction of false detection elimination and resuhs. Finally, the statement relative line number is modified to eliminate false detection. The experimental resuits show that the proposed method can eliminate clone code false detection caused by inserting the same structure statement and the reverse order statements of same structure. It improves the accuracy of clone code detection and clone code re- lated defects, as well as can benefit the study of clone code refactoring.

作者边奕心王甜甜苏小红马培军

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2013年第5期46-49,共4页 Intelligent Computer and Applications

基金国家自然科学基金(61073052) 高等学校博士学科点专项科研基金(20092302110040)

关键词克隆代码哈希值标识符冲突率误检重构 Clone Code Hash Value Identifier Conflict Ratio False Detection Refactoring

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1于冬琦,彭鑫,赵文耘.使用抽象语法树和静态分析的克隆代码自动重构方法[J].小型微型计算机系统,2009,30(9):1752-1760. 被引量：14
2张耀衡.软件维护中基于多重程序模型的克隆代码检测技术研究[D]{H}南京:南京大学,2003. 被引量：1
3叶青青.软件系统中代码克隆的检测技术[J].计算机系统应用,2007,16(12):94-97. 被引量：7
4李建中.克隆代码检测技术的研究[D]{H}汕头:汕头大学,2005. 被引量：1
5刘恒..程序中重复代码的自动检测[D].大连理工大学,2003:

二级参考文献16

1JavaCC[ EB/OL]. https://javacc, dev. java. net/, Accessed October 2007. 被引量：1
2JDK1.5 [ EB/OL]. http://java, sun. com/javase/downloads/index. jsp, Accessed March 2008. 被引量：1
3Toshihiro Kamiya, Shinji Kusumoto, Katsuro Inoue. CCFinder: a multilinguistic token-based code clone detection system for large scale source c.ode[ J]. IEEE Transactions on Software Engineering, 2002, 28(7) : 654-670. 被引量：1
4Ira D Baxter, Andrew Yahin, Leonardo Moura, et al. Clone detection using abstract syntax trees[ C]. Proceedings of the Internation- al Conference on Software Maintenance, 1998, 368-377. 被引量：1
5Komondoor R, Horwitz S. Using slicing to identify duplication in source code[ C]. Proceedings of the 8th International Symposium on Static Analysis, 2001, 40 - 56. 被引量：1
6Higo Y, Kamiya T, Kusumoto S, et al. Refactoring support based on code clone analysis[ C]. Proceedings of 5th International Conference on Product Focused Software Process Improvement, April 2004, 220-233. 被引量：1
7Bas Comelissen, Bas Graaf, Leon Moonen. Identification of variation points using dynamic analysis[ C]. Proceedings of First International Workshop on Reengineering Towards Product Lines, November 2005, 9-13. 被引量：1
8Simian [ EB/OL]. http://www, redhillconsulting, com. au/products/simian/, Accessed October 2007. 被引量：1
9JTB [ EB/OL]. http ://compilers. cs. ucla. edu/jtb/, Accessed October 2007. 被引量：1
10Antoniol, G. , et al. , Analyzing Cloning Evolution in the Linux Kernel. Journal of Information and Software Technology, 2002. 44(13): p. 755-765. 被引量：1

共引文献17

1张鹏,王国胤,陶春梅,罗海.基于本体粗糙集的程序代码相似度度量方法[J].重庆邮电大学学报（自然科学版）,2008,20(6):737-741. 被引量：8
2李卓,邓明荣.相似代码检测工具及其案例分析[J].计算机工程与科学,2010,32(4):71-74. 被引量：2
3于冬琦,吴毅坚,彭鑫,赵文耘.基于相似性度量的面向对象程序方法级克隆侦测[J].电子学报,2010,38(B02):174-181. 被引量：4
4郭婧,吴军华.一种新的检测结构克隆的方法[J].计算机工程与科学,2011,33(12):78-83. 被引量：1
5郭婧,吴军华.基于程序依赖图的克隆检测及改进[J].计算机工程与设计,2012,33(2):595-600. 被引量：6
6李旭东.计算机程序抄袭检测系统的设计方案[J].电脑知识与技术,2012,8(2):799-800. 被引量：4
7史庆庆,孟繁军,张丽萍,刘东升.克隆代码技术研究综述[J].计算机应用研究,2013,30(6):1617-1623. 被引量：13
8刘伟,胡志刚,刘宏韬.单例模式导向的源代码自动重构研究[J].小型微型计算机系统,2014,35(12):2664-2669. 被引量：6
9李郑,李姝,王俊,刘士进.基于抽象语法树分析的版本控制分支合并算法[J].计算机系统应用,2015,24(3):139-146. 被引量：3
10陈军成,薛云志,陶秋铭,赵琛.基于事件处理函数的GUI测试用例集约简技术[J].软件学报,2015,26(8):1871-1885. 被引量：4

同被引文献6

1史庆庆,孟繁军,张丽萍,刘东升.克隆代码技术研究综述[J].计算机应用研究,2013,30(6):1617-1623. 被引量：13
2王浩宇,王仲禹,郭耀,陈向群.基于代码克隆检测技术的Android应用重打包检测[J].中国科学：信息科学,2014,44(1):142-157. 被引量：14
3侯敏,张丽萍,史庆庆,刘东升.基于后缀数组检测函数克隆[J].计算机应用研究,2014,31(4):1082-1085. 被引量：3
4王海,林云,彭鑫,赵文耘.基于分组的代码克隆增量检测方法[J].计算机科学与探索,2014,8(4):446-455. 被引量：1
5张久杰,王春晖,张丽萍,侯敏,刘东升.基于Token编辑距离检测克隆代码[J].计算机应用,2015,35(12):3536-3543. 被引量：13
6董加星,许畅.一种面向功能类似程序的高效克隆检测技术[J].计算机科学,2017,44(4):12-15. 被引量：1

引证文献1

1侯敏,张丽萍.克隆代码检测技术研究[J].计算机技术与发展,2019,29(8):86-91. 被引量：1

二级引证文献1

1乐乔艺,刘建勋,孙晓平,张祥平.代码克隆检测研究进展综述[J].计算机科学,2021,48(S02):509-522. 被引量：2

1陈平,王成耀.基于AST的程序静态分析工具的研究与实现[J].微计算机信息,2007(24):189-190.
2侯敏,刘东升.基于串匹配的源码抄袭检测技术研究[J].电脑编程技巧与维护,2011(24):6-7.
3任浩,史庆庆,张丽萍,刘东升.克隆代码检测方法综述[J].电脑编程技巧与维护,2011(20):19-23. 被引量：4
4叶林,姚国祥.Hadoop集群下的并行克隆代码检测[J].微型机与应用,2014,33(2):69-71.
5许孝元.一个保护移动代理的代码检测-结果加密与鉴别算法(CD-ERA)[J].计算机工程与应用,2003,39(19):180-182.
6信工所等提出一种快速高效的移动应用未知恶意代码检测方法[J].硅酸盐通报,2015,34(6):1542-1542.
7廖国辉,刘嘉勇.基于数据挖掘和机器学习的恶意代码检测方法[J].信息安全研究,2016,2(1):74-79. 被引量：12
8龚安栋.如何用汇编代码检测并截获C++浮点运算异常[J].电脑编程技巧与维护,2011(1):92-93.
9王丽丽,董国志,程显毅.一个汉语句子语义相似度计算模型[J].江南大学学报（自然科学版）,2009,8(6):715-718.
10易昭湘,慕晓冬,赵鹏,张雄美.基于代码检测的软件故障定位方法[J].计算机工程,2007,33(12):82-83. 被引量：2

智能计算机与应用

2013年第5期

浏览历史

内容加载中请稍等...

使用哈希值和标识符冲突率的克隆代码检测的误检消除方法被引量：1

参考文献5

二级参考文献16

共引文献17

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

使用哈希值和标识符冲突率的克隆代码检测的误检消除方法 被引量：1

参考文献5

二级参考文献16

共引文献17

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

使用哈希值和标识符冲突率的克隆代码检测的误检消除方法被引量：1