期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
自动粒度选择的半结构化页面信息抽取 被引量:2
1
作者 王晓斌 王鹏坡 石昭祥 《计算机工程与应用》 CSCD 北大核心 2009年第6期165-167,172,共4页
半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不... 半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不确定性,因此提出一种自动粒度选择的半结构化页面信息抽取方法。算法从后缀树获取的重复模式中选取最大重复和串联重复构成候选模式集,通过特征参数确定两个粒度各自的最佳模式集,最后引入抽取结果规则度参数并进行综合评价,以确定抽取模式完成半结构化页面数据记录的自动抽取。 展开更多
关键词 信息抽取 重复模式挖掘 粒度分析 后缀树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部