-
题名Web信息抽取技术综述
被引量:22
- 1
-
-
作者
陈钊
张冬梅
-
机构
北京林业大学信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第12期4401-4405,共5页
-
基金
中央高校基本科研业务费专项资金资助项目(BLYX200928)
-
文摘
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。
-
关键词
web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
-
Keywords
web information extraction
web page noise
URL clustering
DSE algorithm
RoadRunner system
MDR algorithm
vision feature
template
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名针对开源论坛网页的信息抽取研究
被引量:11
- 2
-
-
作者
刘春梅
郭岩
俞晓明
赵岭
刘悦
程学旗
-
机构
中国科学院计算技术研究所
中国科学院大学
-
出处
《计算机科学与探索》
CSCD
北大核心
2017年第1期114-123,共10页
-
基金
国家重点基础研究发展计划(973计划)
国家高技术研究发展计划(863计划)
+4 种基金
国家自然科学基金
国家科技支撑计划
山东省自主创新及成果转化专项
中科院医学影像项目
欧盟第七科技框架计划(FP7)项目~~
-
文摘
互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。
-
关键词
记录定位
网页聚类
模板抽取
-
Keywords
record locating
web page clustering
template extraction
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于动态网页的Word报告自动生成方法
被引量:8
- 3
-
-
作者
刘鹏
秦巍
周永辉
郭义琪
-
机构
北京空间飞行器总体设计部
-
出处
《计算机工程》
CAS
CSCD
2012年第5期279-280,284,共3页
-
文摘
为减少日常工作中Word报告编制的工作量,提出一种基于动态网页的可扩展Word报告自动生成方法。将数据处理方法封装为数据占位符,并插入Word文档中定制报告模板。利用报告模板生成ASPX动态网页,根据用户操作调用相应的数据处理方法进行信息录入和检索,替换报告模板中的数据占位符,从而生成最终报告。应用结果表明,该方法能提高Word报告编制的效率。
-
关键词
动态网页
Word报告
报告模板
占位符
-
Keywords
dynamic web page
Word report
report template
placeholder
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名结合有监督广度优先搜索策略的通用垂直爬虫方法
被引量:7
- 4
-
-
作者
高峰
刘震
高辉
-
机构
电子科技大学计算机科学与工程学院
电子科技大学大数据研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第11期289-299,共11页
-
基金
国家自然科学基金(61300018)
-
文摘
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。
-
关键词
垂直爬虫
URL聚类
赋权网页
路径模板解析
有监督广度优先搜索策略
-
Keywords
vertical crawler
URL clustering
weighted web page
parser of the path template
supervised breadth-first search strategy
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种统一的Web新闻对象自动抽取方法
被引量:4
- 5
-
-
作者
刘伟
严华梁
-
机构
中国科学技术信息研究所
北京大学计算机科学技术研究所
-
出处
《计算机工程》
CAS
CSCD
2012年第11期167-169,共3页
-
基金
国家"863"计划基金资助项目(2008AA01Z421)
中国科学技术信息研究所预研基金资助项目(YY-201103)
-
文摘
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。
-
关键词
web数据抽取
视觉特征
序列标注
网页模板
新闻属性
新闻对象
-
Keywords
web data extraction
visual feature
sequence tagging
web page template
news attribute
news object
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于页面赋权的网页内容提取方法
被引量:1
- 6
-
-
作者
余杨奎
王旅
李婉茹
程振林
刘洁
-
机构
广东开放大学湛江分校
长春中医药大学医药信息学院
-
出处
《通化师范学院学报》
2021年第10期20-28,共9页
-
基金
2020年度广东远程开放教育科研基金项目(YJ2009)
2019年度湛江开放大学系统科研项目(X201901).
-
文摘
提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统.
-
关键词
web页面
模板技术
页面赋权
正则表达式
-
Keywords
web page
template technology
page weighting
regular expression
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名多模式精品课程项目申报系统的设计与实现
被引量:1
- 7
-
-
作者
喻小光
陈霞
陈维斌
-
机构
华侨大学计算机科学与技术学院
-
出处
《华侨大学学报(自然科学版)》
CAS
北大核心
2009年第4期403-405,共3页
-
基金
福建省精品课程建设项目(2008年度)
华侨大学科研基金资助项目(04HZR17)
-
文摘
提出一种C/S(客户机和服务器)与B/S(浏览器/服务器)相结合的,基于网页模板的精品课程项目申报系统.系统的主要组成部分包括申报子系统、申报管理发布子系统和精品课程申报网站.其中,申报管理发布子系统使用B/S模式,申报子系统使用带有本地存储的C/S模式.前者较好地满足了简化部署、多人并发操作等要求.后者能构造精致的人-机交互界面,并具有应答敏捷的优势,从而给用户带来较好的使用体验.另外,本地存储解决了大数据量传输的问题.
-
关键词
管理系统
精品课程
网页模板
多模式
-
Keywords
management system
excellent course
web page template
multi-mode
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于网页元素构件的电子商务网页可视化创建技术
被引量:1
- 8
-
-
作者
陈维斌
梁少文
吴清江
-
机构
华侨大学计算机科学系
-
出处
《计算机应用》
CSCD
北大核心
2002年第6期16-19,共4页
-
文摘
针对电子商务的应用需求 ,在分析了商务网页特性的基础上 ,提取网页基本元素和修饰元素设计成可以复用的构件 ,并在某些构件中加入与数据库访问有关的功能 ;设计了一种用来存放网页格式描述的中间文件—ECM文件 ;
-
关键词
模板
ECM文件
计算机网络
网页元素构件
电子商务
网页
可视化创建
-
Keywords
electronic commerce
web page element
template
ECM file
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
F713.36
[自动化与计算机技术—计算机科学与技术]
-
-
题名一个RSS级别的网页主题内容抽取方法与系统
- 9
-
-
作者
张艳
-
机构
南京信息工程大学图书馆
-
出处
《图书情报工作》
CSSCI
北大核心
2010年第14期107-110,130,共5页
-
基金
南京信息工程大学科研基金资助项目"基于语义Web的数字图书馆研究与实现"(项目编号:SK20080153)研究成果之一
-
文摘
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSSfeed中的少量entry信息训练得到主题内容模板,通过模板可以对RSSfeed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。
-
关键词
网页主题内容抽取
RSS
模板
自适应机制
-
Keywords
web page main content extraction RSS template self adaptation mechanism
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-