基于改进的Simhash算法的相似文档识别技术被引量：3

Similar Document Recognition Technology Based on the Improved Simhash Algorithm

下载PDF

导出

摘要 [目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技术,同时将特征词的词性、词长、是否为标志词与是否被包含在标题中几大方面作为权重计算的考虑因素。最后使用汉明距离对文档签名值进行比较,从海量文档中精确地找出相似文档。[结论]:通过改进TF-IDF权重,使得改进的Simhash算法在相似文档识别准确率上优于其他算法。 [Purpose/Significance]: In order to achieve more efficient in mass text accurately detect the similar text. [Method]: This paper based on Simhash algorithm similar document identification technology improvement, research on Simhash signature value calculation method to make improvements, participle stage using ICTCLAS segmentation system, the text of key method to calculate the weights of the TF-IDF technology, at the same time, the key parts of speech, word length, whether marked word and are included in the title of several major aspects as weighting factor. Finally, the hamming distance is used to compare the document signature value, and the similar documents can be accurately found from the mass documents. [Conclusion]: By improving the TF-IDF weight, the improved Simhash algorithm is better than other algorithms in the recognition accuracy of similar documents.

作者张兴兰何丹丹

机构地区北京工业大学

出处《计算机科学与应用》 2020年第2期371-378,共8页 Computer Science and Application

基金国家自然科学基金(61272044,61602019,61801008),北京市自然科学基金(3182028).

关键词相似文档检测 Simhash算法 TF-IDF算法指纹计算汉明距离

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献11

1谢平.存储系统重复数据删除技术研究综述[J].计算机科学,2014,41(1):22-30. 被引量：25
2任民山,蔡红霞.基于Simhash算法的海量文本相似性检测方法研究[J].计量与测试技术,2018,45(4):78-80. 被引量：3
3陈春玲,陈琳,熊晶,余瀚.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报（自然科学版）,2016,36(3):85-91. 被引量：15
4陈杰,陈彩,梁毅.基于Word2vec的文档分类方法[J].计算机系统应用,2017,26(11):159-164. 被引量：10
5余意,张玉柱,胡自健.基于Simhash算法的大规模文档去重技术研究[J].信息通信,2015,28(2):28-29. 被引量：12
6王青松,葛慧.相似聚类的二级索引重复数据删除算法[J].小型微型计算机系统,2017,38(12):2797-2801. 被引量：2
7李彬.基于Hadoop框架的TF-IDF算法改进[J].微型机与应用,2012,31(7):14-16. 被引量：12
8杨旸,杨书略,柯闽.加密云数据下基于Simhash的模糊排序搜索方案[J].计算机学报,2017,40(2):431-444. 被引量：28
9董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
10黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：223

二级参考文献103

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：388
2熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
3Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975. 被引量：1
4Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971. 被引量：1
5Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63. 被引量：1
6Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550. 被引量：1
7Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402. 被引量：1
8Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417. 被引量：1
9Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79. 被引量：1
10Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479. 被引量：1

共引文献331

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7皮靖,邵雄凯,肖雅夫.基于朴素贝叶斯算法的主题爬虫的研究[J].计算机与数字工程,2012,40(6):76-78. 被引量：7
8周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
9杨传慧,吉根林,章志刚.AP算法在图像聚类中的应用研究[J].计算机与数字工程,2012,40(10):119-121. 被引量：6
10孙昌年,郑诚,夏青松.基于LDA的中文文本相似度计算[J].计算机技术与发展,2013,23(1):217-220. 被引量：24

同被引文献13

1刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
2敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
3周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
4陈春玲,陈琳,熊晶,余瀚.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报（自然科学版）,2016,36(3):85-91. 被引量：15
5刘震,陈晶,郑建宾,华锦芝,肖淋峰.中文短文本聚合模型研究[J].软件学报,2017,28(10):2674-2692. 被引量：11
6王诚,王宇成.基于Simhash的大规模文档去重改进算法研究[J].计算机技术与发展,2019,29(2):115-119. 被引量：9
7邹禹同,张志安.知识付费语境下自媒体著作权保护困境与对策[J].中国出版,2020(4):58-62. 被引量：7
8顾志祥,谢龙恩,杜雨.文本相似度计算的Simhash算法的实现与改进[J].信息通信,2020,0(1):27-29. 被引量：5
9张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：8
10郑浩瀚,申德荣,聂铁铮,寇月.面向混合索引的区块链系统的可查询性优化[J].计算机科学,2020,47(10):301-308. 被引量：6

引证文献3

1张亚男,陈卫卫,付印金,徐堃.基于Simhash改进的文本去重算法[J].计算机技术与发展,2022,32(8):26-32. 被引量：2
2白文磊,常丽琼,郭军,刘宝英,甘大广.一种基于论文画像的科技文献数据去重算法[J].计算机技术与发展,2022,32(8):148-154.
3李莉,杨春艳,朱江文,胡荣磊.区块链下社交网络用户抄袭识别方案[J].计算机应用,2024,44(1):242-251.

二级引证文献2

1汪锦云,向阳.基于关键词图表示的文本语义去重算法[J].计算机应用,2023,43(10):3070-3076.
2熊良钰,邓伦丹.基于Simhash算法的题库查重系统的设计与实现[J].科学技术创新,2024(9):91-94.

1马友忠,张智辉,林春杰.大数据相似性连接查询技术研究进展[J].计算机应用,2018,38(4):978-986. 被引量：15
2王瑞,龙华,邵玉斌,杜庆治.基于Labeled-LDA模型的文本特征提取方法[J].电子测量技术,2020,43(1):141-146. 被引量：13
3刘慧清,郭延哺,李红灵,李维华.基于贝叶斯网的短文本特征扩展方法[J].计算机科学,2019,46(S11):66-71. 被引量：2
4张宁,宋小鹏,刘祎,张鹏程,桂志国.基于直觉模糊散度的自适应非局部均值去噪算法[J].测试技术学报,2020,34(1):1-8. 被引量：1
5刘成林.文档图像识别技术回顾与展望[J].数据与计算发展前沿,2019,1(2):17-25. 被引量：6
6胡建伟,徐明洋,崔艳鹏.改进的TLS指纹增强用户行为安全分析能力[J].计算机科学,2020,47(3):287-291. 被引量：2
7陈天一,郑闻悦,邹健,邱修峰.基于KMP算法的字符串查找匹配研究[J].科技创新导报,2019,16(23):242-243. 被引量：4
8张丽,马静.一种基于“特征降维”文本复杂网络的特征提取方法[J].情报科学,2019,0(10):20-25. 被引量：10
9曹卫东,胡炜,王家亮,王静.基于SimHash和混合相似度的多模式匹配方法[J].计算机应用研究,2020,37(1):198-202. 被引量：3
10邱建荣,罗汉.改进的局部线性嵌入算法及其应用[J].计算机工程与应用,2020,56(3):176-179. 被引量：14

计算机科学与应用

2020年第2期

浏览历史

内容加载中请稍等...

基于改进的Simhash算法的相似文档识别技术被引量：3

参考文献11

二级参考文献103

共引文献331

同被引文献13

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进的Simhash算法的相似文档识别技术 被引量：3

参考文献11

二级参考文献103

共引文献331

同被引文献13

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进的Simhash算法的相似文档识别技术被引量：3