期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进编辑距离的相似重复记录清理算法
被引量:
7
1
作者
叶焕倬
吴迪
《现代图书情报技术》
CSSCI
北大核心
2011年第7期82-90,共9页
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语...
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。
展开更多
关键词
相似重复记录
编辑距离
语义
同义词
词库
原文传递
题名
基于改进编辑距离的相似重复记录清理算法
被引量:
7
1
作者
叶焕倬
吴迪
机构
中南财经政法大学信息与安全工程学院
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第7期82-90,共9页
基金
国家自然科学基金资助项目"持续审计中智能数据处理及其应用框架研究"(项目编号:70972138)
湖北省教育厅人文社会科学基金项目"基于SOA和MAS的金融监管信息系统总体框架研究"(项目编号:2009b080)的研究成果之一
文摘
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。
关键词
相似重复记录
编辑距离
语义
同义词
词库
Keywords
Approximately duplicate data Edit distance Semantic Synonyms thesaurus
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于改进编辑距离的相似重复记录清理算法
叶焕倬
吴迪
《现代图书情报技术》
CSSCI
北大核心
2011
7
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部