期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
Web信息抽取技术综述 被引量:22
1
作者 陈钊 张冬梅 《计算机应用研究》 CSCD 北大核心 2010年第12期4401-4405,共5页
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一... 快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。 展开更多
关键词 web信息抽取 网页噪声 URL聚类 DSE算法 RoadRunner系统 MDR 视觉特征 模板
下载PDF
针对开源论坛网页的信息抽取研究 被引量:11
2
作者 刘春梅 郭岩 +3 位作者 俞晓明 赵岭 刘悦 程学旗 《计算机科学与探索》 CSCD 北大核心 2017年第1期114-123,共10页
互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基... 互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。 展开更多
关键词 记录定位 网页聚类 模板抽取
下载PDF
基于动态网页的Word报告自动生成方法 被引量:8
3
作者 刘鹏 秦巍 +1 位作者 周永辉 郭义琪 《计算机工程》 CAS CSCD 2012年第5期279-280,284,共3页
为减少日常工作中Word报告编制的工作量,提出一种基于动态网页的可扩展Word报告自动生成方法。将数据处理方法封装为数据占位符,并插入Word文档中定制报告模板。利用报告模板生成ASPX动态网页,根据用户操作调用相应的数据处理方法进行... 为减少日常工作中Word报告编制的工作量,提出一种基于动态网页的可扩展Word报告自动生成方法。将数据处理方法封装为数据占位符,并插入Word文档中定制报告模板。利用报告模板生成ASPX动态网页,根据用户操作调用相应的数据处理方法进行信息录入和检索,替换报告模板中的数据占位符,从而生成最终报告。应用结果表明,该方法能提高Word报告编制的效率。 展开更多
关键词 动态网页 Word报告 报告模板 占位符
下载PDF
结合有监督广度优先搜索策略的通用垂直爬虫方法 被引量:7
4
作者 高峰 刘震 高辉 《计算机工程》 CAS CSCD 北大核心 2018年第11期289-299,共11页
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队... 垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。 展开更多
关键词 垂直爬虫 URL聚类 赋权网页 路径模板解析 有监督广度优先搜索策略
下载PDF
一种统一的Web新闻对象自动抽取方法 被引量:4
5
作者 刘伟 严华梁 《计算机工程》 CAS CSCD 2012年第11期167-169,共3页
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,... 提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。 展开更多
关键词 web数据抽取 视觉特征 序列标注 网页模板 新闻属性 新闻对象
下载PDF
一种基于页面赋权的网页内容提取方法 被引量:1
6
作者 余杨奎 王旅 +2 位作者 李婉茹 程振林 刘洁 《通化师范学院学报》 2021年第10期20-28,共9页
提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内... 提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统. 展开更多
关键词 web页面 模板技术 页面赋权 正则表达式
下载PDF
多模式精品课程项目申报系统的设计与实现 被引量:1
7
作者 喻小光 陈霞 陈维斌 《华侨大学学报(自然科学版)》 CAS 北大核心 2009年第4期403-405,共3页
提出一种C/S(客户机和服务器)与B/S(浏览器/服务器)相结合的,基于网页模板的精品课程项目申报系统.系统的主要组成部分包括申报子系统、申报管理发布子系统和精品课程申报网站.其中,申报管理发布子系统使用B/S模式,申报子系统使用带有... 提出一种C/S(客户机和服务器)与B/S(浏览器/服务器)相结合的,基于网页模板的精品课程项目申报系统.系统的主要组成部分包括申报子系统、申报管理发布子系统和精品课程申报网站.其中,申报管理发布子系统使用B/S模式,申报子系统使用带有本地存储的C/S模式.前者较好地满足了简化部署、多人并发操作等要求.后者能构造精致的人-机交互界面,并具有应答敏捷的优势,从而给用户带来较好的使用体验.另外,本地存储解决了大数据量传输的问题. 展开更多
关键词 管理系统 精品课程 网页模板 多模式
下载PDF
一种基于网页元素构件的电子商务网页可视化创建技术 被引量:1
8
作者 陈维斌 梁少文 吴清江 《计算机应用》 CSCD 北大核心 2002年第6期16-19,共4页
针对电子商务的应用需求 ,在分析了商务网页特性的基础上 ,提取网页基本元素和修饰元素设计成可以复用的构件 ,并在某些构件中加入与数据库访问有关的功能 ;设计了一种用来存放网页格式描述的中间文件—ECM文件 ;
关键词 模板 ECM文件 计算机网络 网页元素构件 电子商务 网页 可视化创建
下载PDF
一个RSS级别的网页主题内容抽取方法与系统
9
作者 张艳 《图书情报工作》 CSSCI 北大核心 2010年第14期107-110,130,共5页
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSSfeed中的少量entry信息训练得到主题内容模板,通过模板可以对RSSfeed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,... 提出一个RSS级别的网页主题内容抽取方法与系统,利用RSSfeed中的少量entry信息训练得到主题内容模板,通过模板可以对RSSfeed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。 展开更多
关键词 网页主题内容抽取 RSS 模板 自适应机制
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部