摘要
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
Aiming at the need of Chinese text duplicate checking, based on the result of word segmentation, we conver-ted target text and sample text into matrix model of word segmentation, then scanned and analyzed matrix to get the re-sult. Therefore an algorithm of duplicate checking was developed, and the usefulness of the method was demonstrated by practical examples.
出处
《计算机科学》
CSCD
北大核心
2017年第B11期55-60,83,共7页
Computer Science
基金
国家自然科学基金面上项目(61672042)
支持流式大数据实时联动的数据服务模型及方法研究资助
关键词
相似度
分词矩阵模型
模糊匹配
查重算法
Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm