基于相似度估计文档重复率检测算法研究

Research on Document Repetition Rate Detection Algorithm Based on Similarity Estimation

下载PDF

导出

摘要在信息时代中,文档的相似性检测技术得到了广泛的应用,包括在数字化图书馆、搜索引擎、论文查重等许多领域,取得了巨大的成功。但基于词频统计的文档相似性检测技术准确率低,基于字符串对比的文档相似性检测技术无法实现复杂场景下的应用。为了解决这些问题,在近年来产生了大量基于相似度估计的文档相似性检测技术。其中shingle算法,minwise哈希算法是一种相对成熟,性能稳定的文档相似性检测算法。具体地,本文将根据基于词频统计的方法和基于字符串对比的方法的不足,总结出基于相似度估计的方法的优点,详细描述shingle算法,minwise哈希算法的思想、优点以及后续发展,强调文档相似性检测技术目前存在的问题和未来研究方向。 In the information age,document similarity detection technology has been widely used,including in digital library,search engine,paper retrieval and many other fields,and has achieved great success.However,the accuracy of document similarity detection based on word frequency statistics is low,and the application of document similarity detection based on string comparison cannot be achieved in complex scenes.In order to solve these problems,a large number of document similarity detection techniques based on similarity estimation have been developed in recent years.Among them,shingle algorithm and minwise hash algorithm arethe relatively mature and stable document similarity detection algorithms.Specifically,this paper summarizes the advantages of the similarity estimation based on the disadvantages of the word frequency statistics method and the string comparison method,describes the ideas,advantages,and subsequent developments of shingle algorithm and minwise hash algorithm in detail,and emphasizes the existing problems and future research directions of document similarity detection technology including minwise hash algorithm.

作者王钰宁刘晓霞周绍军 Wang Yuning;Liu Xiaoxia;Zhou Shaojun(Department of Information Engineering,Sichuan Water Conservancy Vocational College,Chongzhou Sichuan,611231)

机构地区四川水利职业技术学院信息工程系

出处《电子测试》 2021年第14期40-42,共3页 Electronic Test

基金四川水利职业技术学院科研项目(KY2020-30)资助。

关键词重复率相似度估计检测算法 Repetition Rate Similarity Estimation Detection Algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1鲜翠琼,秦学,朱道恒,操淑敏.一种图文组合相似度算法的设计与优化[J].软件工程,2020,23(8):9-12. 被引量：6
2顾志祥,谢龙恩,杜雨.文本相似度计算的Simhash算法的实现与改进[J].信息通信,2020,0(1):27-29. 被引量：5
3刘顺.基于Hadoop集群的词频统计应用[J].科学技术创新,2020(30):97-98. 被引量：3
4周文文,韩斌,黄树成.结合文本语义图和词频统计的网页分类算法研究[J].计算机与数字工程,2020,48(6):1265-1268. 被引量：2
5李圣文,凌微,龚君芳,周长征.一种基于熵的文本相似性计算方法[J].计算机应用研究,2016,33(3):665-668. 被引量：13

二级参考文献30

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
3黄健斌,姬红兵,孙鹤立.近似重复记录的自适应距离度量检测[J].西安电子科技大学学报,2007,34(2):331-336. 被引量：2
4毕红军,裘正定,杜锡钰.等汉明距离编码的研究[J].北方交通大学学报,1997,21(5):510-512. 被引量：7
5刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22
6薛晔伟,沈钧毅,张云.一种编辑距离算法及其在网页搜索中的应用[J].西安交通大学学报,2008,42(12):1450-1454. 被引量：16
7施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
8蔡衡,李舟军,孙健,李洋.基于LSH的中文文本快速检索[J].计算机科学,2009,36(8):201-204. 被引量：13
9刘辉,邵良杉.Web文本分类中特征项权重的研究[J].科技和产业,2010,10(2):122-124. 被引量：3
10胡明晓,DING Leon X.一种用于抄袭识别的文档距离度量[J].计算机工程与应用,2010,46(7):148-152. 被引量：5

共引文献24

1王征强.大比例尺数字测图精度与测距长度之关系浅析[J].测绘通报,2000(4):32-33. 被引量：10
2王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：11
3俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：31
4蒋成姣,孙军华,李林,金京.商品名称复杂度对用户网购效率的影响[J].上海理工大学学报,2017,39(5):459-466. 被引量：1
5韩霄汉,叶方彬,窦健,祝恩国,王朝亮.基于改进遗传算法的接口测试数据集的生成方法[J].济南大学学报（自然科学版）,2019,33(1):56-60. 被引量：2
6付聪,余敦辉,张灵莉.面向中文敏感词变形体的识别方法研究[J].计算机应用研究,2019,36(4):988-991. 被引量：16
7郑子君,王洪,余成.求解最长循环公共子序列问题的两个算法[J].计算机应用研究,2020,37(11):3334-3337. 被引量：3
8罗利.基于Hadoop分布式集群搭建方法研究[J].科学技术创新,2021(7):99-100. 被引量：5
9于强,徐志栋,时斌,魏伟,任鹏程.基于事理知识图谱的舆情推演方法[J].计算机系统应用,2021,30(4):25-31. 被引量：2
10张鑫,王竞雪,刘肃艳,高嵩.基于可靠匹配点约束的遥感影像密集匹配[J].地球信息科学学报,2021,23(8):1508-1523. 被引量：3

1熊易.人工智能技术在图书馆数字化建设中的应用研究[J].江苏科技信息,2021,38(21):14-16. 被引量：3
2杜建新.SQL注入攻击检测与防御技术研究[J].中国新技术新产品,2021(9):26-28. 被引量：2

电子测试

2021年第14期

浏览历史

内容加载中请稍等...

基于相似度估计文档重复率检测算法研究

参考文献5

二级参考文献30

共引文献24

相关作者

相关机构

相关主题

浏览历史