期刊文献+

基于分词矩阵模型的模糊匹配查重算法研究 被引量:4

Research on Fuzzy Matching Duplicate Checking Algorithm Based on Matrix Model of Word Segmentation
下载PDF
导出
摘要 针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。 Aiming at the need of Chinese text duplicate checking, based on the result of word segmentation, we conver-ted target text and sample text into matrix model of word segmentation, then scanned and analyzed matrix to get the re-sult. Therefore an algorithm of duplicate checking was developed, and the usefulness of the method was demonstrated by practical examples.
出处 《计算机科学》 CSCD 北大核心 2017年第B11期55-60,83,共7页 Computer Science
基金 国家自然科学基金面上项目(61672042) 支持流式大数据实时联动的数据服务模型及方法研究资助
关键词 相似度 分词矩阵模型 模糊匹配 查重算法 Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm
  • 相关文献

参考文献15

二级参考文献186

共引文献496

同被引文献32

引证文献4

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部