期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于DOM树结构的Blog网页自动识别 被引量:8
1
作者 张程 陈自郁 +1 位作者 古平 杨瑞龙 《计算机应用研究》 CSCD 北大核心 2008年第5期1489-1491,共3页
针对当前Internet中大量出现的博客网页,通过分析博客网页自身的结构特点和技术特征,结合网页的DOM节点特性,提出了基于DOM树分析和模式匹配的博客网页自动识别算法,并通过实验对本算法进行了验证,指出需进一步完善的研究内容和方向。
关键词 博客网页 文档对象模型结构分析 特征发现
下载PDF
含有位置坐标树的Web页面分析和内容提取框架 被引量:8
2
作者 封化民 刘飚 +2 位作者 刘艳敏 方勇 宋国森 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1767-1771,共5页
随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,... 随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。 展开更多
关键词 坐标树 页面结构分析 内容抽取 DOM 启发式规则
原文传递
Web信息抽取技术在统一检索系统中的应用研究 被引量:7
3
作者 王权 施韶亭 《计算机应用与软件》 CSCD 2010年第10期120-122,137,共4页
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统... 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。 展开更多
关键词 WEB信息抽取 统一检索 页面结构分析 关键信息块 子树广度
下载PDF
自动票据识别系统 被引量:6
4
作者 王林水 潘武模 +3 位作者 史广顺 薛峰 万宏武 张辉 《计算机工程》 EI CAS CSCD 北大核心 2005年第9期163-166,共4页
提出了基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,提出了基于自然语言理解的错误纠正和信息分类算法解决字符识别率较低和信息分类困难的问题。同时对系统的各个模块进行相应的分析,给出了一套完整的实现方案。对... 提出了基于连通体的区域聚类方法来解决版面印刷字符区域的准确提取问题,提出了基于自然语言理解的错误纠正和信息分类算法解决字符识别率较低和信息分类困难的问题。同时对系统的各个模块进行相应的分析,给出了一套完整的实现方案。对于随机选取的1589张样张,识别准确率达到90.54%。 展开更多
关键词 票据识别 版面分析 信息分类
下载PDF
基于非内容信息的网络关键资源有效定位 被引量:2
5
作者 刘奕群 张敏 马少平 《智能系统学报》 2007年第1期45-52,共8页
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网... 网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的. 展开更多
关键词 网络信息检索 关键资源页面 主题过滤 机器学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部