-
题名基于链接路径搜索的URL属性集成方法
- 1
-
-
作者
马艳红
胡学钢
吴共庆
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机工程》
CAS
CSCD
2013年第1期76-79,共4页
-
基金
国家"863"计划基金资助项目(2012AA011005)
国家自然科学基金资助项目(60975034)
安徽省自然科学基金资助项目(11040606M151)
-
文摘
在W2DR算法实验中,部分网页因其锚文本提供的信息量不足,导致利用半结构化的网页信息填充结构化数据库内容效果不佳。为此,提出一种基于链接路径包的URL属性集成方法。采用将锚文本和网页标题相结合的机制,从被搜索网页集中,根据最佳匹配策略求解得到URL属性值,并将其填充到目标数据库。实验结果表明,与W2DR算法相比,该方法在2个不同数据集中的F值分别提高13.91%和3.54%。
-
关键词
链接路径
网页标题
半结构化数据
结构化数据库
锚文本
url属性
-
Keywords
link path
Web title
semi-structured data
structured database
anchor text
url attribute
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Web的重复属性自动识别方法
- 2
-
-
作者
胡嘉琪
陈群
刘海龙
杜晶
徐曜
李战怀
-
机构
西北工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第9期125-128,共4页
-
基金
国家"973"重点基础发展规划基金(No.2012CB316203)
西北工业大学研究生种子基金(No.Z2013125
No.Z2013126)
-
文摘
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。
-
关键词
重复属性识别
WEB搜索
摘要
查询探针
-
Keywords
url
duplicate attribute resolution
Web search
snippet
url
query probe
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-