题名 基于扩展标记图的网页信息重组技术
被引量:3
1
作者
朱征宇
王亮
赵银春
程代杰
机构
重庆大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2004年第5期56-60,64,共6页
基金
重庆市科技公关项目(2001.6715)
重庆大学骨干教师资助计划项目(2003A33)
文摘
本文介绍一种基于扩展标记图ETG(Extended Tag Graph)的网页信息抽取与重组新技术,引入了扩展标记图操作和重构概念,提出了作为用户接口的标记查询语言TagSQL。用户通过类标准SQL的语言描述,即可方便地实现对网页信息的灵活抽取和重组操作。
关键词
扩展 标记 图
网页信息
重组技术
ETG
抽取
标记 查询语言
TagSQL
Keywords
HTML, Extended tag graph (ETG), Tag path, Query language, TagSQL
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
题名 基于扩展标记图的Web信息抽取器
被引量:2
2
作者
王亮
朱征宇
机构
重庆大学计算机学院
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第8期159-161,191,共4页
基金
重庆大学骨干教师资助计划项目(2003A33)
文摘
介绍了一种新的Web信息抽取器,该抽取器基于扩展标记图模型,实现了数据和模式的分离,应用于Web检索系统中,能够有效地支持标记级实时信息检索、抽取和重组。还介绍了其在Web信息检索系统PowerSearcher中的实际应用。
关键词
Web信息抽取器
扩展 标记 图
半结构数据
WEB检索
Keywords
Web information extractor
Extend tag graph
Semi-structured data
Web retrieval
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于扩展标记图的虚拟网页技术
被引量:2
3
作者
朱征宇
朱庆生
王茜
机构
重庆大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2001年第11期80-82,F004,共4页
基金
国家863计划项目支持(863-511-910-101-2)
文摘
大量的Web信息资源采用HTML文档形式存放,带来诸多不利因素.其一,HTML文档因包含具体数据内容,不可避免地会涉及到数据冗余和一致性维护的问题.比如,在一个电子商场网站设计中,为服务于不同客户群,一双皮鞋的基础数据(厂家介绍、产品说明和图片等)可能会重复地放入多个网页中,如按分类、按品牌和按厂家等方式组织的网页.其二,HTML文档不利于构建新网页的重用,难以适应变化需求,如当有新客户群希望按老中幼年龄段来浏览商品时,新网页须从头组织,且可能产生新的数据冗余.其三,HTML文档的信息检索和查询优化较为困难.
关键词
虚拟网页
扩展 标记 图
网络浏览器
信息检索
Keywords
HTML document ,Tag graph, Original contents database, Virtual WWW page
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]