期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
Web页面主题信息抽取研究与实现 被引量:11
1
作者 刘艳敏 刘飚 +2 位作者 封化民 宋国森 方勇 《计算机工程与应用》 CSCD 北大核心 2006年第21期146-148,共3页
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页... Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页进行了测试和评估。实验结果表明该方法切实可行,可达到91.35%的准确率。 展开更多
关键词 HTML 信息提取 页面结构分析 标记统计
下载PDF
含有位置坐标树的Web页面分析和内容提取框架 被引量:8
2
作者 封化民 刘飚 +2 位作者 刘艳敏 方勇 宋国森 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1767-1771,共5页
随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,... 随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。 展开更多
关键词 坐标树 页面结构分析 内容抽取 DOM 启发式规则
原文传递
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
3
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 WEB信息抽取 统一检索 页面结构分析 关键信息块 子树广度
下载PDF
基于DOM规范的网页分析技术研究 被引量:2
4
作者 林昌平 郑皎凌 《成都信息工程学院学报》 2007年第z1期113-117,共5页
基于DOM树模型进行网页建模,同时利用深度优先的递归算法对DOM树模型进行遍历。通过将HTML文档转换为DOM树,对其遍历后给树的节点唯一标号来对网页进行分析。为了更直观的分析网页结构还采用图形界面的形式来显示树型DOM文档。实验表明... 基于DOM树模型进行网页建模,同时利用深度优先的递归算法对DOM树模型进行遍历。通过将HTML文档转换为DOM树,对其遍历后给树的节点唯一标号来对网页进行分析。为了更直观的分析网页结构还采用图形界面的形式来显示树型DOM文档。实验表明,提出的这种方法能够很好地分析Web页面标记的嵌套结构,并能准确地与转化成DOM树之后的嵌套结构相匹配,从而达到了精确的网页分析和网页节点定位的目的。 展开更多
关键词 页面结构分析 DOM 深度优先遍历 树型结构
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部