一种基于Hadoop的文本相似度仿真检测模型被引量：3

A Text Similarity Simulation Detection Model Based on Hadoop

下载PDF

导出

摘要随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性. With the increasing amount of data in the information age, traditional text similarity computing method has been unable to deal with large-scale text data, aiming at these problems, this text puts forward a kind of text similarity simulation detection model based on Hadoop cluster technology. The detection model is divided into three steps： the first step is to use the Hadoop tool to build the experimental platform,and the platform for the optimization of hardware and software. The second step to the document into a collection, using an improved Map Reduce based programming model based on Shingling algorithm. In the third step, a distributed New Minhash algorithm is proposed to solve the signature matrix, and then the Jaccard coefficients are used to calculate the similarity. Experiments show that for the same operation, the performance of the optimized time decreased by nearly 5.65%, the simulation model is not only more accurate for text similarity, but also can better adapt to the distributed processing platform for the large-scale text data, and has a good scalability.

作者吴云许抗震黄瑞章

机构地区贵州大学计算机科学与技术学院

出处《新疆大学学报（自然科学版）》 CAS 北大核心 2017年第3期308-315,共8页 Journal of Xinjiang University(Natural Science Edition)

基金国家自然科学基金项目(61462011)

关键词文本相似 Minhash Shingling HADOOP text similarity minhash shingling hadoop

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：736
2王洪亚,吴西送,任建军,赵银龙.分布式平台下MinHash算法研究与实现[J].智能计算机与应用,2014,4(6):44-46. 被引量：5
3崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83
4宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：41
5黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：219
6张敏.海量数据的MapReduce相似度检测[J].实验室研究与探索,2014,33(9):132-136. 被引量：4
7马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
8顾荣,王芳芳,袁春风,黄宜华.YARM:基于MapReduce的高效可扩展的语义推理引擎[J].计算机学报,2015,38(1):74-85. 被引量：17
9宋杰,郭朝鹏,王智,张一川,于戈,Jean-Marc PIERSON.大数据分析的分布式MOLAP技术[J].软件学报,2014,25(4):731-752. 被引量：34

二级参考文献72

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2衣英楠,马军.数字文档管理系统的设计与实现[J].山东大学学报（理学版）,2005,40(2):62-66. 被引量：1
3程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
4韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
5朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
6牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22
7董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
8中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/in-dex/OE/00/11/index.htm,2005,07-01 被引量：1
9Andrei Z. Broder, Steven C. Glassman. Syntactic Clustering of the Web [DB/OL]. http://gatekeeper. research.compaq.com/pub/DEC/SRC/technical--notes/SRC--1997--015 html 被引量：1
10吴军,数学之美系列十三信息指纹及其应用[DB/OL].http://www.googlechinablog.com/2006/08/blog-post.html 被引量：1

共引文献1143

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
3刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
4杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
5吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：27
6师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
7李振泉,张丁涌,周长敬,王兴武,安学先,高华,孙东,刘文聪,闫恩祥,李红强,孙秀玲,杨文辉,张腾,梁莹,王增光.集输系统能耗定量化预测大数据模型应用研究[J].当代化工,2020(12):2818-2821. 被引量：2
8赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
9蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：84
10韩旭,罗登昌.长江堤防工程大数据基本特征及应用策略[J].人民长江,2020(S01):262-264. 被引量：3

同被引文献28

1朱晓临,陈晓冬,朱园珠,陈嫚,李雪艳.基于显著结构重构与纹理合成的图像修复算法[J].图学学报,2014,35(3):336-342. 被引量：12
2肖可.h指数在学科研究热点分析中的应用——以图情学为例[J].情报杂志,2011,30(3):69-73. 被引量：15
3路荣,项亮,刘明荣,杨青.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387. 被引量：67
4李志丹,和红杰,尹忠科,陈帆,仁青诺布.基于块结构稀疏度的自适应图像修复算法[J].电子学报,2013,41(3):549-554. 被引量：45
5邓承志,刘娟娟,汪胜前,朱华生.保留结构特征的稀疏性正则化图像修复[J].光学精密工程,2013,21(7):1906-1913. 被引量：15
6康佳伦,唐向宏,任澍.结构约束和样本稀疏表示的图像修复[J].中国图象图形学报,2013,18(11):1425-1434. 被引量：13
7丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：119
8金炜,王文龙,符冉迪,田文哲,尹曹谦.联合块匹配与稀疏表示的卫星云图修复[J].光学精密工程,2014,22(7):1886-1895. 被引量：16
9葛艳,赵瑞,高占江.基于TV模型和膨胀的图像修复方法研究[J].微型机与应用,2014,33(18):39-41. 被引量：7
10李丹,仲崇权,王世强,陈祖军.基于全变差和P-Laplace模型的混合图像修复算法[J].大连理工大学学报,2014,54(6):676-681. 被引量：7

引证文献3

1卫星,周瑜龙,焦蓬蓬,郭依正,刘清.基于置信特征与结构相似度约束的图像修复算法[J].新疆大学学报（自然科学版）,2018,35(2):203-208. 被引量：4
2郭玉栋,左金平.大数据下数据库引文索引匹配误差检测仿真[J].计算机仿真,2020,37(2):394-397. 被引量：3
3刘梦颖,王勇.基于文本双表示模型的微博热点话题发现[J].计算机与现代化,2021(12):110-115.

二级引证文献7

1黄源,张福泉.基于差分制约耦合三角网约束的图像匹配算法[J].新疆大学学报（自然科学版）,2018,35(4):437-444. 被引量：2
2何永波.区域结构因子耦合强度特征约束的图像修复算法[J].新疆大学学报（自然科学版）,2018,35(4):445-451. 被引量：1
3王立国,郭依正,廖宝谊.类圆形区域的分割与统计分析[J].科技创新与应用,2020,0(8):32-33.
4李鹏基.计算机软件开发中的数据库测试技术研究[J].无线互联科技,2022,19(9):50-52. 被引量：4
5胡小琴,潘锦锋.大数据相似重复记录检测算法在试题库中的运用[J].成都工业学院学报,2023,26(1):66-69. 被引量：1
6付敏.基于关联特征的英语语料库快速检索方法[J].信息技术,2024,48(2):78-81.
7董剑龙,王浩全.基于图像分解的复杂图片中文字干扰消除[J].新疆大学学报（自然科学版）,2019,36(3):330-334.

1Tzong-sun WU,Chien-lung HSU,Han-yu LIN.Self-certified multi-proxy signature schemes with message recovery[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2009,10(2):290-300. 被引量：2
2张庆梅.舆情去重算法的研究与比较[J].电子设计工程,2017,25(14):23-27. 被引量：1
3李洪亮.基于计算机集群技术及并行计算的分析[J].信息记录材料,2017,18(8):5-6.
4高杨,张燕平,钱付兰,赵姝.结合节点度和节点聚类系数的链路预测算法[J].小型微型计算机系统,2017,38(7):1436-1441. 被引量：14
5梁月仙,郭智.一种基于时空分析的事件抽取方法[J].国外电子测量技术,2017,36(6):36-40. 被引量：2
6宋定昆,刘桂雄,唐文明.基于CORDIC算法的动态FIR数字滤波器FPGA实现与应用[J].中国测试,2017,43(7):97-102. 被引量：6
7李来,刘光灿,孙玉宝,刘青山.各向同性的迭代量化哈希算法[J].电子学报,2017,45(7):1707-1714. 被引量：4

新疆大学学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

一种基于Hadoop的文本相似度仿真检测模型被引量：3

参考文献9

二级参考文献72

共引文献1143

同被引文献28

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于Hadoop的文本相似度仿真检测模型 被引量：3

参考文献9

二级参考文献72

共引文献1143

同被引文献28

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于Hadoop的文本相似度仿真检测模型被引量：3