海量数据的MapReduce相似度检测被引量：4

An Approach of Near-duplicate Detection of Mass Data Based on MapReduce

下载PDF

导出

摘要针对当前海量数据的相似重复问题,提出了MapReduce下通过SimHash算法检测相似文档的方法:即首先将存储在分布式文件系统的海量文档集进行分类,然后进行特征提取,由SimHash算法生成SimHash指纹和生成Sequence File;最后,计算相似度产生检测结果;通过实验测试可知,提出的检测方法和设计的相似度算法能很好适应海量数据相似检测,并能有效地提高工作效率。 For the question of similar duplication of big data,this paper offers an approach to find similar document by using SimHash algorithm and MapReduce.The approach consists of several steps.First,massive documents which stored in the DFS（Distribute File System） are classified; then,the characteristics of data are extracted and Simhash fingerprint and Sequence file are produced by SimHash algorithm; finally,detection result is generated through computing similarity.The experiments prove that the approach presented and similarity designed well suit near-duplicate detection for big data,can improve work efficiency greatly.

作者张敏

机构地区河南理工大学测绘与国土信息工程学院

出处《实验室研究与探索》 CAS 北大核心 2014年第9期132-136,共5页 Research and Exploration In Laboratory

基金河南省科技攻关计划项目(132102210123) 河南省高等学校矿山信息化重点学科开放实验室项目河南理工大学博士基金(B2009-21)

关键词相似度 MAPREDUCE 海量数据算法去重 similarity MapReduce mass data algorithms duplicated-removing

分类号 TP316.4 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Agrawal D,Bernstenin P,Bertino E,et al.Challenges and opportunities with big data-A community white paper developed by leading researchers across the United States[R/OL].[2012-10-02].http://cra.org/ccc/docs/init/bigdata/whitepaper.pdf. 被引量：1
2付印金,肖侬,刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展,2012,49(1):12-20. 被引量：64
3敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
4韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
5李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
6李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
7陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1312
8张组斌,徐欣,龙君,等.文本相似度检测的参数关联和优化[J]中文计算机系统,2011,32(5):983-988. 被引量：1
9程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
10Nature.Big Data[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html. 被引量：1

二级参考文献203

1程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
2李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2
3张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
4宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
5Sims K. IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing. 2007. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss 被引量：1
6Boss G, Malladi P, Quan D, Legregni L, Hall H. Cloud computing. IBM White Paper, 2007. http://download.boulder.ibm.com/ ibmdl/pub/software/dw/wes/hipods/Cloud_computing_wp_final_8Oct.pdf 被引量：1
7Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitous computing. In: Proc. of IEEE the 21st Int'l Conf. on Advanced Information Networking and Applications (AINA 2007). Los Alamitos: IEEE Computer Society, 2007. 394-403. 被引量：1
8Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In: Ma JH, Jin H, Yang LT, Tsai JJP, eds. Proc. of the 3rd Int'l Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006. 1-11. 被引量：1
9Barroso LA, Dean J, Holzle U. Web search for a planet: The Google cluster architecture. IEEE Micro, 2003,23(2):22-28. 被引量：1
10Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 1998,30(1-7): 107-117. 被引量：1

共引文献1696

1查伟,孙燕琼,郑继平.基于云测试架构的FIVP解决方案[J].铁路技术创新,2021(S01):82-86.
2林少伟.人工智能法律主体资格实现路径:以商事主体为视角[J].中国政法大学学报,2021(3):165-177. 被引量：6
3胡祖林,肇杰.云计算下的网盘安全[J].计算机产品与流通,2020,0(1):164-164.
4张盛,任伟,王玉,黄金明,陈旭彤.基于Web的重力异常正演建模工具[J].地质论评,2023,69(S01):595-597.
5赵文韬.基于5G技术的黑龙江云计算产业发展[J].电子技术（上海）,2020,49(9):186-187.
6Longfei He,Mei Xue,Bin Gu.Internet-of-things enabled supply chain planning and coordination with big data services:Certain theoretic implications[J].Journal of Management Science and Engineering,2020,5(1):1-22. 被引量：6
7吴劲松,陈孚.云计算发展及应用研究[J].广西通信技术,2011(2):9-13. 被引量：5
8黄纬,温志萍,程初.云计算中基于K-均值聚类的虚拟机调度算法研究[J].南京理工大学学报,2013,37(6):807-812. 被引量：17
9孙凌宇,欧阳春娟,冷明,刘昌鑫,夏洁武.云计算与高等教育管理信息服务系统构建[J].山西财经大学学报,2012,34(S1). 被引量：9
10王荣荣.云计算技术基础上数字图书馆云服务平台的实现[J].河北北方学院学报（社会科学版）,2013,29(4):72-74. 被引量：2

同被引文献34

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
3Ripon K S N,Rahman A.A Domain-independent Data Cleaning Algorithm for Detecting Similar-duplicates[J].Journal of Computers,2010,5(12):1800-1809. 被引量：1
4Lee Woo-joong,Park C.An Adaptive Chunking Method for Personal Data Backup and Sharing[C]//Proceedings of the 8th USENIX Conference on File and Storage Technologies.San Antionio,USA:USENIX Association,2010:758-762. 被引量：1
5Wang Guiping,Chen Shuyu,Lin Mingwei.SBBS:A Sliding Blocking Algorithm with Backtracking Subblocks for Duplicate Data Detection[J].Expert Systems with Applications,2014,41(5):2415-2423. 被引量：1
6Tridgell A.Efficient Algorithms for Sorting and Synchronization[D].Canberra,Australia:Australian National University,1999. 被引量：1
7马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
8刘嘉,张璟,李军怀.一种基于Token匹配的中文数据清洗方法[J].计算机应用与软件,2009,26(11):43-45. 被引量：7
9敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
10肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14

引证文献4

1郑亚光,潘久辉.一种基于滑动分块的重复数据检测算法[J].计算机工程,2016,42(2):38-44. 被引量：7
2孙德才,王晓霞.一种基于MapReduce的大数据集相似自连接算法[J].计算机科学,2017,44(5):20-25. 被引量：3
3吴云,许抗震,黄瑞章.一种基于Hadoop的文本相似度仿真检测模型[J].新疆大学学报（自然科学版）,2017,34(3):308-315. 被引量：3
4王旭东,段敬,温志坚,楼颖稚,陈伟,孔德云,黄豆豆.基于相似重复记录的N-Gram算法的改进与应用[J].现代计算机,2018,24(17):78-82. 被引量：3

二级引证文献16

1周斌,朱容波,张莹.基于位串内容感知的数据分块算法[J].计算机工程与科学,2016,38(10):1967-1973.
2赵倩倩.动态数据环境下网络重复数据检测方法仿真[J].计算机仿真,2017,34(6):445-448. 被引量：5
3宋国兴,周喜,马博,赵凡.基于R-树索引的高维相似重复记录检测改进算法[J].微电子学与计算机,2017,34(9):97-102. 被引量：3
4文明瑶.移动数据库中企业信息质量优化选择研究[J].计算机仿真,2018,35(2):380-383.
5卫星,周瑜龙,焦蓬蓬,郭依正,刘清.基于置信特征与结构相似度约束的图像修复算法[J].新疆大学学报（自然科学版）,2018,35(2):203-208. 被引量：4
6葛菁,徐亦丹,赵巍.自然场景下交通标志立柱材料防腐性检测仿真[J].计算机仿真,2019,36(3):325-328.
7张洪,钟凯迪,柴源,魏济,吴艳,谭锦涛,叶文韬.基于N-Gram和动态滑动窗口的改进余弦相似度算法研究[J].成都大学学报（自然科学版）,2019,38(2):163-166. 被引量：3
8蒋园,韩旭,马丹璇,罗登昌.相似重复数据检测的数据清洗算法优化[J].计算机技术与发展,2019,29(10):79-82. 被引量：7
9郭玉栋,左金平.大数据下数据库引文索引匹配误差检测仿真[J].计算机仿真,2020,37(2):394-397. 被引量：3
10孟庆春.基于N-gram特征的网络恶意代码分析方法[J].数字技术与应用,2020,38(3):49-50. 被引量：3

1杜红刚,吴岳忠.基于云存储的网络文档共享系统[J].湖南工业大学学报,2015,29(5):72-76. 被引量：1
2疾速滚轮浏览“无限” 全新罗技无线激光鼠标MX620[J].电脑迷,2007,0(14):21-21.
3付兴娥.CAD在机械设计中的应用现状与发展趋势[J].山东工业技术,2015(22):131-131. 被引量：1
4王志军.解决工作表数据的重复问题[J].电脑知识与技术（经验技巧）,2013(7):39-39. 被引量：1
5杨旸,杨书略,柯闽.加密云数据下基于Simhash的模糊排序搜索方案[J].计算机学报,2017,40(2):431-444. 被引量：28
6池水明,阚歆炜,张旻.基于Simhash的SQL注入漏洞检测技术研究[J].计算机时代,2014(3):3-5. 被引量：3
7徐济惠.基于Simhash算法的海量文档反作弊技术研究[J].计算机技术与发展,2014,24(9):103-107. 被引量：7
8李恒新,韩坚华.关系型数据库数据的高效判重[J].华南师范大学学报（自然科学版）,2015,47(1):121-126. 被引量：2
9董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
10康建.高程图数据相似检测及其并行算法[J].电脑编程技巧与维护,2016(20):68-70.

实验室研究与探索

2014年第9期

浏览历史

内容加载中请稍等...

海量数据的MapReduce相似度检测被引量：4

参考文献14

二级参考文献203

共引文献1696

同被引文献34

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

海量数据的MapReduce相似度检测 被引量：4

参考文献14

二级参考文献203

共引文献1696

同被引文献34

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

海量数据的MapReduce相似度检测被引量：4