期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
Web数据抽取技术研究进展 被引量:13
1
作者 张成洪 古晓洪 白延红 《计算机科学》 CSCD 北大核心 2004年第2期129-131,151,共4页
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。
关键词 web 网页 数据抽取 分布式数据库系统 数据模型 数据管理
下载PDF
基于可视块的多记录型复杂网页信息提取算法 被引量:13
2
作者 王卫红 梁朝凯 闵勇 《计算机科学》 CSCD 北大核心 2019年第10期63-70,共8页
网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Bas... 网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。 展开更多
关键词 web数据抽取 web挖掘 数据记录提取 网页数据提取 结构化信息
下载PDF
一种Web评论自动抽取方法 被引量:12
3
作者 刘伟 严华梁 +1 位作者 肖建国 曾建勋 《软件学报》 EI CSCD 北大核心 2010年第12期3220-3236,共17页
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致... Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率. 展开更多
关键词 web用户评论 结构化数据记录 web数据抽取
下载PDF
定向查询引擎在Web化学数据库集成检索中的应用 被引量:12
4
作者 储春梅 李晓霞 郭力 《计算机与应用化学》 CAS CSCD 北大核心 2005年第8期659-666,共8页
Internet上的化字数据库是重要的专业资源,基于超链按分析的搜索引擎还不能索引这类资源。本论文以充分利用In- ternet上的化学数据库数据为目标,将“一个查询发动多个同级检索引擎,并以结构化的方式组织信息”的方案应用于以化合物标... Internet上的化字数据库是重要的专业资源,基于超链按分析的搜索引擎还不能索引这类资源。本论文以充分利用In- ternet上的化学数据库数据为目标,将“一个查询发动多个同级检索引擎,并以结构化的方式组织信息”的方案应用于以化合物标识信息为检索入口的Web化学数据库,建立了一个基于多站点集成检索的Web数据库定向查询引擎。该引擎是一个包括用户交互层、中间检索层、数据提供层的三层Web模型。各层在系统内部分别对应于响应用户检索请求的客户端代理模块、集成远程Web信息的服务器端代理模块,以及提供缓存和检索的关系数据库模块。模型采用JSP+Java组件的开发方式, 在HTTP协议标准发送方法的基础上,采用XML技术对检索返回文档进行结构化数据的提取和表示,利用XML-DBMS实现XML数据的存储和检索,建立了一套针对深层Web数据交换的解决方案。依此方案所建立的ChemDB Portal Search实现了四个分布式Web化学数据库的有效加入、同时检索和统一显示。该系统是针对深层Web信息的挖掘和集成检索的一次尝试, 它可为其它领域建立类似的系统提供借鉴。 展开更多
关键词 定向查询引擎 深层网 web数据挖掘 分布式数据库 集成检索 XML
原文传递
基于页面标签的Web结构化数据抽取 被引量:8
5
作者 任仲晟 薛永生 《计算机科学》 CSCD 北大核心 2007年第10期133-136,共4页
本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的... 本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识教据项。实验表明,该算法是有效的。 展开更多
关键词 web数据抽取 web挖掘 结构化数据 信息抽取
下载PDF
基于子树匹配的交互式Web数据抽取方法 被引量:8
6
作者 张慧颖 曲著伟 《计算机工程》 CAS CSCD 北大核心 2006年第9期78-80,共3页
查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很... 查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。 展开更多
关键词 web数据抽取 Top-down树匹配 DOM
下载PDF
XML技术在化学深层网数据提取中的应用 被引量:9
7
作者 卓流艺 李晓霞 郭力 《计算机与应用化学》 CAS CSCD 北大核心 2006年第11期1137-1141,共5页
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一... Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。 展开更多
关键词 web数据提取 化学深层网 XML XSLT XPATH 化学数据库
原文传递
页面包装器自动生成的改进算法 被引量:3
8
作者 李文奇 张忠能 《计算机工程与应用》 CSCD 北大核心 2004年第22期113-115,122,共4页
论文提出了一种页面包装器自动生成的改进算法,在对两个HTML页面进行匹配生成页面包装器的过程中,该算法使用树型数据模型作为基础,比原算法具有更高的执行效率。
关键词 web数据抽取 包装器 匹配算法 算法优化
下载PDF
基于XPath比较的Web数据抽取方法 被引量:4
9
作者 陈晓锋 张凌 董守斌 《郑州大学学报(理学版)》 CAS 2007年第2期161-166,共6页
研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表... 研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息. 展开更多
关键词 web数据抽取 XPath比较 XERG 正则表达式
下载PDF
一种统一的Web新闻对象自动抽取方法 被引量:4
10
作者 刘伟 严华梁 《计算机工程》 CAS CSCD 2012年第11期167-169,共3页
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,... 提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。 展开更多
关键词 web数据抽取 视觉特征 序列标注 网页模板 新闻属性 新闻对象
下载PDF
XML在Web数据抽取中的应用研究
11
作者 王艳 刘双红 罗慧敏 《郑州航空工业管理学院学报(社会科学版)》 2005年第4期150-151,共2页
随着网络技术的发展,网上的信息资源越来越丰富,充分利用这些资源成为当前数据挖掘领域的研究热点。文章分析了基于XML的Web数据抽取模型,详细论述了如何利用XML技术从Web页面中抽取数据。
关键词 XML web数据抽取 抽取模型
下载PDF
基于树形结构的Web信息抽取
12
作者 任仲晟 薛永生 《福建师范大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第3期39-46,共8页
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实... 提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 展开更多
关键词 web数据抽取 web挖掘 信息抽取
下载PDF
基于XML的Web数据抽取模型研究(英文)
13
作者 谢维成 吕先竞 宋玉忠 《西华大学学报(自然科学版)》 CAS 2006年第1期82-86,共5页
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路... 提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。 展开更多
关键词 KDW XML web数据抽取 语义web技术
下载PDF
基于Web挖掘技术的信息检索系统设计与实现 被引量:3
14
作者 王艳 张帆 《情报学报》 CSSCI 北大核心 2007年第3期339-343,共5页
本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的... 本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的信息提取出来进行处理的目的。 展开更多
关键词 网页数据抽取 分词 文本自动分类 向量空间模型
下载PDF
Web抽取技术在数字图书馆中的应用 被引量:2
15
作者 宋玉忠 《四川图书馆学报》 CSSCI 2009年第3期46-49,共4页
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多数是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的Web页面的Web数据抽取模型并阐述了实现过程。
关键词 web数据抽取 HTML XML 数字图书馆 信息挖掘
下载PDF
基于.NET的移动话费详单页面的XML数据提取 被引量:2
16
作者 赵纯 施一剑 +1 位作者 张昱 金心宇 《计算机系统应用》 2011年第4期189-193,共5页
介绍了一种在Microsoft的.NET 3.5框架下,使用ASP.NET、SgmlReader、LINQ和XML等关键技术,对移动话费详单HTML页面进行自动数据提取的方案。该方案能实现对移动话费详单页面数据信息进行自动搜集的功能,有助于进一步完成对话费详单信息... 介绍了一种在Microsoft的.NET 3.5框架下,使用ASP.NET、SgmlReader、LINQ和XML等关键技术,对移动话费详单HTML页面进行自动数据提取的方案。该方案能实现对移动话费详单页面数据信息进行自动搜集的功能,有助于进一步完成对话费详单信息的统计、计算等处理工作。该方案具有简单、易行、高效的特点。 展开更多
关键词 web数据提取 .NET框架 XML LINQ 话费详单
下载PDF
基于缩进轮廓的HTML文档重复模式挖掘方法
17
作者 朱沿旭 王怀民 +3 位作者 史殿习 尹刚 袁霖 李翔 《计算机科学》 CSCD 北大核心 2011年第8期165-168,共4页
HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能... HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。 展开更多
关键词 重复模式挖掘 web数据抽取 web内容挖掘 缩进轮廓 串联重复波段
下载PDF
基于树结构的包装器全自动生成方法的研究 被引量:1
18
作者 李亚桥 王晓东 李智 《河北工业大学学报》 CAS 2007年第6期41-46,共6页
论文研究并实现了一种包装器全自动生成算法,使用两个页面的树形结构,从对比两棵树之间的相同与差异发现模式,从树结构中结点的不匹配之处推导出包装器.在实际HTML页面上的实验已经证明,这种方法能够更好的发现可选结构和迭代结构.
关键词 web数据抽取 包装器 树结构 匹配算法 自动
下载PDF
一种基于扩展DOM树的Web数据自动抽取方法 被引量:1
19
作者 陈远斌 《应用科技》 CAS 2009年第8期52-55,共4页
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依... Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果. 展开更多
关键词 web数据抽取 扩展DOM树 新颖度
下载PDF
A Framework of Web Data Integrated LBS Middleware
20
作者 MENG Xiaofeng YIN Shaoyi XIAO Zhen 《Wuhan University Journal of Natural Sciences》 CAS 2006年第5期1187-1191,共5页
In this paper, we propose a flexible locationbased service (LBS) middleware framework to make the development and deployment of new location based applications much easier. Considering the World Wide Web as a huge d... In this paper, we propose a flexible locationbased service (LBS) middleware framework to make the development and deployment of new location based applications much easier. Considering the World Wide Web as a huge data source of location relative information, we integrate the common used web data extraction techniques into the middleware framework, exposing a unified web data interface for the upper applications to make them more attractive. Besides, the framework also emphasizes some common LBS issues, including positioning, location modeling, location-dependent query processing, privacy and secure management. 展开更多
关键词 location-based service (LBS) MIDDLEWARE web data extraction
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部