期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Low-IDF-SIG的句子重复检测
1
作者
俞昊旻
张玥
+1 位作者
张奇
黄萱菁
《中文信息学报》
CSCD
北大核心
2011年第1期123-128,共6页
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的...
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。
展开更多
关键词
近似
重复
检测
特征抽取
Low-IDF-SIG
下载PDF
职称材料
网页近似重复检测算法研究
2
作者
魏诗云
杨家骏
《计算机光盘软件与应用》
2012年第8期135-136,共2页
搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较,并重点讨论了改进的模糊哈希算法...
搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较,并重点讨论了改进的模糊哈希算法对网页内容进行近似重复检测。
展开更多
关键词
近似
重复
检测
模糊哈希算法
算法比较
下载PDF
职称材料
近似重复记录的自适应距离度量检测
被引量:
2
3
作者
黄健斌
姬红兵
孙鹤立
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007年第2期331-336,共6页
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机...
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.
展开更多
关键词
近似
重复
记录
检测
记录链接
实体匹配
数据集成
下载PDF
职称材料
题名
基于Low-IDF-SIG的句子重复检测
1
作者
俞昊旻
张玥
张奇
黄萱菁
机构
复旦大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2011年第1期123-128,共6页
基金
国家自然科学基金资助项目(61073069
61003092)
国家高技术研究发展计划(863计划)资助项目(2009AA01A346)
文摘
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。
关键词
近似
重复
检测
特征抽取
Low-IDF-SIG
Keywords
Near-Duplicate detection
feature extraction
Low-IDF-SIG
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页近似重复检测算法研究
2
作者
魏诗云
杨家骏
机构
四川大学软件学院
出处
《计算机光盘软件与应用》
2012年第8期135-136,共2页
文摘
搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较,并重点讨论了改进的模糊哈希算法对网页内容进行近似重复检测。
关键词
近似
重复
检测
模糊哈希算法
算法比较
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
近似重复记录的自适应距离度量检测
被引量:
2
3
作者
黄健斌
姬红兵
孙鹤立
机构
西安电子科技大学电子工程学院
西安交通大学计算机科学与技术系
出处
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007年第2期331-336,共6页
基金
"十五"国家部委预研项目(41101050108)
西安电子科技大学博士生创新基金项目(05013)
文摘
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.
关键词
近似
重复
记录
检测
记录链接
实体匹配
数据集成
Keywords
approximately duplicate records detection
record linkage
entity matching
data integration
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Low-IDF-SIG的句子重复检测
俞昊旻
张玥
张奇
黄萱菁
《中文信息学报》
CSCD
北大核心
2011
0
下载PDF
职称材料
2
网页近似重复检测算法研究
魏诗云
杨家骏
《计算机光盘软件与应用》
2012
0
下载PDF
职称材料
3
近似重复记录的自适应距离度量检测
黄健斌
姬红兵
孙鹤立
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部