基于语义指纹的中文文本快速去重被引量：5

Fast Duplicate Detection for Chinese Texts Based on Semantic Fingerprint

导出

摘要针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。 Oriented to Chinese texts, text features are firstly extracted to generate semantic fingerprints by performing the Simhash algorithm. The Hamming Distances between semantic fingerprints are applied to determine the similarity between texts. Then, as the last step of the entire process of detecting duplicates for Chinese text, the Single - Pass clustering algorithm is integrated to cluster the generated semantic fingerprints, after which the clusters of fingerprints are the final results. By comparing with the Shingle algorithm, the experiment shows that the Simhash approach is superior at both pre- cise and robustness, and the Simhash approach is capable to process large amount of texts due to its rapidness.

作者李纲毛进陈璟浩

机构地区武汉大学信息资源研究中心

出处《现代图书情报技术》 CSSCI 北大核心 2013年第9期41-47,共7页 New Technology of Library and Information Service

基金国家自然科学基金项目"科研团队动态演化规律研究"(项目编号:71273196)的研究成果之一

关键词语义指纹 Simhash Single—Pass 文本去重 Semantic fingerprint Simhash Single- Pass Duplicate detection

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1赵立磊..基于网页去重的垂直搜索引擎设计与实现[D].大连理工大学,2012:
2马如林,蒋华,张庆霞.基于贝叶斯方法和信息指纹的博客评论过滤[J].计算机工程与应用,2008,44(24):159-161. 被引量：2
3Heintze N. Scalable Document Fingerprinting[ C ]. In : Proceedings of the 1996 USENIX Workshop on Electronic Commerce. 1996. 被引量：1
4Broder A Z, Glassman S C, Manasse M S, et al. Syntactic Cluste- ring of the Web[J]. Computer Networks and ISDN Systems, 1997, 29(8 -13) : 1157 -1166. 被引量：1
5杨虎..面向海量短文本去重技术的研究与实现[D].国防科学技术大学,2007:
6吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41
7谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
8张刚,刘挺,郑实福,等.大规模网页快速去重算法[EB/OL].[2013-05-31].http://wenku.baidu.corn/view/3bf04d35eefdc8d376ee32dO.html. 被引量：1
9曹玉娟,牛振东,彭学平,江鹏.一个基于特征向量的近似网页去重算法[J].中国索引,2009,7(1):11-14. 被引量：5
10樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2

二级参考文献55

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
4刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,22(7):84-86. 被引量：7
5刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
6唐培丽,胡明,解飞.元搜索引擎研究[J].气象水文海洋仪器,2005,22(3):62-66. 被引量：3
7我对博客说不[EB/OL].http://news.cctv.com/law/20060824/104515.shtml. 被引量：1
8Sebastiani F.Machine learning in automated text categorization[J]. ACM Computing Surveys,2002,34. 被引量：1
9Pantel P,Lin D.Spamcop-a spam classification & organization program[C]//Proceedings of AAAI-98 ,Workshop on Learning for Text Categorization, 1998. 被引量：1
10吴军.数学之美系列十三信息指纹及其应用[EB/OL].[2006]:http://googlechinablog.com/2006/08/blog-post.html. 被引量：1

共引文献58

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
4徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
5谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
6魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
7连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
8黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
9罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
10钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量：6

同被引文献70

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
3耿志强,杨科,韩永明,顾祥柏.基于数据驱动有向图和高阶统计的控制系统故障检测方法[J].新型工业化,2013,2(11):1-11. 被引量：8
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai.潜在语义分析权重计算的改进[J].中文信息学报,2005,19(6):64-69. 被引量：19
6秦新国.基于句子相似度的文档复制检测算法研究[J].现代图书情报技术,2007(11):63-66. 被引量：9
7魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
8Kumar J P,Govindarajulu P.Duplicate and Near Duplicate Documents Detection:A Review[J].European Journal of ScientificResearch,2009,32(4):514-527. 被引量：1
9Henzinger M.Finding Near -Duplicate Web Pages:A Large -Scale Evaluation of Algorithms[C].In Proceedings of the 29thAnnual International ACM SIGIR Conference on Research AndDevelopment in Information Retrieval,2006:284-291. 被引量：1
10Manber U.Finding Similar Files In A Large File System [J].Usenix Winter,1994(94):1-10. 被引量：1

引证文献5

1王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
2李恒新,韩坚华.关系型数据库数据的高效判重[J].华南师范大学学报（自然科学版）,2015,47(1):121-126. 被引量：2
3卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量：2
4崔彤彤,崔荣一.基于潜在语义分析的文本指纹提取方法[J].中文信息学报,2018,32(5):74-79. 被引量：8
5陈露,吴国仕,李晶.基于语义指纹和LCS的文本去重方法[J].软件,2014,35(11):25-30. 被引量：4

二级引证文献20

1杨达森,丛颖男.基于文本的我国可持续发展信息披露趋势分析[J].中国注册会计师,2024(6):21-30.
2杜洪涛,孟庆国,王君泽.互联网数据在舆情研判中的效用研究[J].中国软科学,2016(4):34-44. 被引量：7
3孙飞显.针对政府的微博网络舆情传播规律与对策研究——以新浪微博为例[J].中州大学学报,2016,33(4):70-74. 被引量：1
4陈惠娟,冯月春,陈亮.基于单表结构的Web动态树设计与实现[J].软件导刊,2016,15(11):170-172.
5闫东,王诚.基于本体和语义标引的地质资料服务与管理研究[J].软件,2017,38(9):117-121. 被引量：1
6陈珺,陈辛夷,苏宇.基于大数据的媒体传播分析及影响力评估应用创新[J].中国传媒科技,2017,0(10):122-124. 被引量：5
7黄思颖,蔡桂兰,徐凯,江和松,邱舟强,陈平华.基于SolrCloud的分布式科技项目查重系统[J].科技管理研究,2018,38(7):236-242. 被引量：4
8崔彤彤,崔荣一.基于潜在语义分析的文本指纹提取方法[J].中文信息学报,2018,32(5):74-79. 被引量：8
9王诚,王宇成.基于Simhash的大规模文档去重改进算法研究[J].计算机技术与发展,2019,29(2):115-119. 被引量：8
10许冠军.基于激光图像分析的残缺指纹提取技术[J].激光杂志,2019,40(4):78-82. 被引量：1

1徐凯,沙瀛,李阳,单既喜,王晓岩.Twitter中重复消息的分析和处理[J].计算机工程与应用,2014,50(21):111-115.
2俞枫,王引娜.基于DRPKP算法的文本去重研究与应用[J].微型电脑应用,2014(1):58-60. 被引量：3
3石雁,李朝锋.结合统计和词间关系的文本关键词计算方法[J].计算机技术与发展,2015,25(12):22-27.
4陈露,吴国仕,李晶.基于语义指纹和LCS的文本去重方法[J].软件,2014,35(11):25-30. 被引量：4
5池水明,阚歆炜,张旻.基于Simhash的SQL注入漏洞检测技术研究[J].计算机时代,2014(3):3-5. 被引量：3
6谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
7高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
8栗迎结,任洪敏.基于Selenium的SQL注入漏洞检测系统的研究[J].现代计算机,2016,22(14):20-24. 被引量：2
9李晨,朱世伟,赵燕清,于俊凤.基于MapReduce的网络爬虫设计与实现[J].山东科学,2015,28(2):101-107. 被引量：1
10周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3

现代图书情报技术

2013年第9期

浏览历史

内容加载中请稍等...

基于语义指纹的中文文本快速去重被引量：5

参考文献22

二级参考文献55

共引文献58

同被引文献70

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于语义指纹的中文文本快速去重 被引量：5

参考文献22

二级参考文献55

共引文献58

同被引文献70

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于语义指纹的中文文本快速去重被引量：5