检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到3篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于Low-IDF-SIG的句子重复检测: 1; 作者俞昊旻张玥 +1 位作者张奇黄萱菁《中文信息学报》 CSCD 北大核心 2011年第1期123-128,共6页; 随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的... 展开更多; 关键词近似重复检测特征抽取 Low-IDF-SIG; 下载PDF 职称材料

网页近似重复检测算法研究: 2; 作者魏诗云杨家骏《计算机光盘软件与应用》 2012年第8期135-136,共2页; 搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较,并重点讨论了改进的模糊哈希算法... 展开更多; 关键词近似重复检测模糊哈希算法算法比较; 下载PDF 职称材料

近似重复记录的自适应距离度量检测被引量：2: 3; 作者黄健斌姬红兵孙鹤立《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第2期331-336,共6页; 提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机... 展开更多; 关键词近似重复记录检测记录链接实体匹配数据集成; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部