期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于链接路径搜索的URL属性集成方法
1
作者 马艳红 胡学钢 吴共庆 《计算机工程》 CAS CSCD 2013年第1期76-79,共4页
在W2DR算法实验中,部分网页因其锚文本提供的信息量不足,导致利用半结构化的网页信息填充结构化数据库内容效果不佳。为此,提出一种基于链接路径包的URL属性集成方法。采用将锚文本和网页标题相结合的机制,从被搜索网页集中,根据最佳匹... 在W2DR算法实验中,部分网页因其锚文本提供的信息量不足,导致利用半结构化的网页信息填充结构化数据库内容效果不佳。为此,提出一种基于链接路径包的URL属性集成方法。采用将锚文本和网页标题相结合的机制,从被搜索网页集中,根据最佳匹配策略求解得到URL属性值,并将其填充到目标数据库。实验结果表明,与W2DR算法相比,该方法在2个不同数据集中的F值分别提高13.91%和3.54%。 展开更多
关键词 链接路径 网页标题 半结构化数据 结构化数据库 锚文本 url属性
下载PDF
基于Web的重复属性自动识别方法
2
作者 胡嘉琪 陈群 +3 位作者 刘海龙 杜晶 徐曜 李战怀 《计算机工程与应用》 CSCD 北大核心 2015年第9期125-128,共4页
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。... 在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。 展开更多
关键词 重复属性识别 WEB搜索 摘要 查询探针
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部