期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于改进编辑距离的相似重复记录清理算法 被引量:7
1
作者 叶焕倬 吴迪 《现代图书情报技术》 CSSCI 北大核心 2011年第7期82-90,共9页
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语... 相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。 展开更多
关键词 相似重复记录 编辑距离 语义 同义词词库
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部