期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
1
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记 对象抽取 HiddenWeb 互联网 搜索引擎 信息检索 结构化查询 数据库
下载PDF
基于Web的半结构化信息抽取技术研究 被引量:6
2
作者 张树瑜 杜国宁 朱仲英 《系统工程与电子技术》 EI CSCD 北大核心 2004年第5期610-612,共3页
对信息抽取技术的发展和趋势作了一定分析,并讨论了当前半结构化信息检索领域的先进抽取技术。从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。通过建立标记树来进行网页结构分... 对信息抽取技术的发展和趋势作了一定分析,并讨论了当前半结构化信息检索领域的先进抽取技术。从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。通过建立标记树来进行网页结构分析,利用实例路径归纳学习出用户需求信息的公共路径,将效用的抽取结果提交用户,减少了用户负担,提高了查全率和查准率,为进一步满足Web信息抽取提供了一种新的高效信息抽取工具。 展开更多
关键词 互联网 半结构化 标记 自动映射
下载PDF
基于标记树的Web页面区域划分和搜索方法 被引量:7
3
作者 胡飞 《计算机科学》 CSCD 北大核心 2005年第8期182-185,共4页
Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区... Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。 展开更多
关键词 Web页面布局 页面结构 页面区域 标记 标记模式 WEB页面 搜索方法 区域划分 快速定位 软件系统
下载PDF
基于XML Schema抽象模型的XML模式验证方法 被引量:9
4
作者 王伟良 施佺 曹渠江 《计算机应用与软件》 CSCD 北大核心 2007年第3期41-43,60,共4页
XML模式验证作为处理XML数据的前提和保证有着重要的地位,XML Schema作为XML的定义语言,其本身并不能保证XML数据的有效性。利用XML Schema抽象模型,定义了XML Schema中每个复杂类型的模式信息,并用非终节点序对集描述XML文档,最后给出... XML模式验证作为处理XML数据的前提和保证有着重要的地位,XML Schema作为XML的定义语言,其本身并不能保证XML数据的有效性。利用XML Schema抽象模型,定义了XML Schema中每个复杂类型的模式信息,并用非终节点序对集描述XML文档,最后给出了XML模式验证算法,可以有效地验证XML文档的组织结构和内容类型。 展开更多
关键词 XML验证 XML SCHEMA 类型 标记
下载PDF
JPEG2000 T_2编码快速算法及硬件实现 被引量:4
5
作者 庄怀宇 吴成柯 +2 位作者 邓家先 李云松 刘凯 《系统工程与电子技术》 EI CSCD 北大核心 2004年第12期1939-1942,共4页
对JPEG2000中T2编码器的率失真优化算法和码流组织方法进行了深入分析,提出了一种易于硬件实现的T2编码器快速算法并详细给出了其硬件结构。通过降低率失真斜率估计的计算复杂度、简化优化截取方法和码流组织中标记树(tagtree)编码方法... 对JPEG2000中T2编码器的率失真优化算法和码流组织方法进行了深入分析,提出了一种易于硬件实现的T2编码器快速算法并详细给出了其硬件结构。通过降低率失真斜率估计的计算复杂度、简化优化截取方法和码流组织中标记树(tagtree)编码方法,降低了T2编码器硬件实现的难度,减少了硬件资源,提高了JPEG2000硬件系统处理的并行度。实验结果表明,输出码流符合JPEG2000标准格式,而图像质量下降很小,系统已通过了FPGA验证。 展开更多
关键词 内嵌码块编码算法 T2编码器 率失真优化 标记
下载PDF
基于标记树的WEB页面净化技术研究 被引量:3
6
作者 李明 张为群 《西南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第5期128-131,共4页
根据Web页面标记建立标记树,通过分析,保留有用信息的标记子树,达到获取页面主要内容,净化页面的效果.
关键词 标记 标记模式 页面净化
下载PDF
一种支持活动标记的访问控制标识方法 被引量:1
7
作者 李萌萌 赵勇 《计算机工程与应用》 CSCD 2012年第3期32-36,48,共6页
依据信息系统等级保护以及网络化系统整体安全保障的要求,建立一个网络环境下全程一致的强制访问控制机制是至关重要的。针对网络信息系统的访问控制机制进行了深入的研究,提出了活动标记库的概念,建立了一种支持活动标记的访问控制标... 依据信息系统等级保护以及网络化系统整体安全保障的要求,建立一个网络环境下全程一致的强制访问控制机制是至关重要的。针对网络信息系统的访问控制机制进行了深入的研究,提出了活动标记库的概念,建立了一种支持活动标记的访问控制标识方法,并且在B+树的基础上提出了一个支持节点扩展的嵌套索引结构——EB+树,形成了一种能够表达多种标识分类的多路查找树,构建了适用于访问控制机制的标记树,从而得到了一种具备有效性、一致性和可扩展性的新型访问控制方法。 展开更多
关键词 访问控制 活动标记 标记 标记森林
下载PDF
网页视图的重构与转化 被引量:1
8
作者 兰东俊 朱精南 《计算机应用》 CSCD 北大核心 2003年第z2期158-159,共2页
文中提出一种用于描述网页结构化信息的数据模型———区域树模型和一种便于计算机处理 ,表示网页信息中间数据结构———标记树。讨论了从网页文本生成网页的标记树和区域树的过程和方法 ,以及使用网页结构化信息对网页视图进行重构和... 文中提出一种用于描述网页结构化信息的数据模型———区域树模型和一种便于计算机处理 ,表示网页信息中间数据结构———标记树。讨论了从网页文本生成网页的标记树和区域树的过程和方法 ,以及使用网页结构化信息对网页视图进行重构和转化。网页版面重构解决了PAD ,SMARTPHONE等智能终端上网浏览Web信息中遇到的一系列的问题。 展开更多
关键词 HTML 标记 结构化信息分析 区域
下载PDF
网页版面信息分析
9
作者 朱精南 赵明生 《计算机工程》 CAS CSCD 北大核心 2004年第12期131-132,135,共3页
针对HTML网页版面中区域的形成及特点进行了分析,研究了网页版面中区域构成,相互关系等区域信息的分析和表示的方法,提出了一个便于描述网页版面信息的区域树结构,并举例说明了网页版面信息在网页信息处理中的应用。
关键词 版面信息 区域 标记
下载PDF
基于语义标记树的XML文档聚类研究 被引量:5
10
作者 潘有能 滕海明 《情报学报》 CSSCI 北大核心 2012年第5期508-514,共7页
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主... 近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法. 展开更多
关键词 XML 聚类 语义标记 WORDNET
下载PDF
中心网页中主题网页链接的自动抽取 被引量:4
11
作者 夏天 《山东大学学报(理学版)》 CAS CSCD 北大核心 2012年第5期25-31,共7页
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之... 基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。 展开更多
关键词 链接抽取 扩展标记 链接前缀
原文传递
基于扩展标记树的网页正文抽取 被引量:2
12
作者 夏天 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第1期133-137,共5页
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,... 本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。 展开更多
关键词 网页正文抽取 扩展标记 近邻优先遍历
下载PDF
利用背景进行多尺度融合的多分辨率图像分割 被引量:1
13
作者 刘国英 王雷光 +2 位作者 梅天灿 孙涛 秦前清 《计算机工程与应用》 CSCD 北大核心 2009年第2期173-175,178,共4页
提出了一种基于背景的小波域多分辨率图像分割新方法—CLTVWseg。与常见的多分辨率分割方法不同,该方法采用背景信息来实现尺度间的交互;同时采用可变的权重参数连接小波分解的多尺度特征场和标记场。每一尺度上,通过权重参数的调整使... 提出了一种基于背景的小波域多分辨率图像分割新方法—CLTVWseg。与常见的多分辨率分割方法不同,该方法采用背景信息来实现尺度间的交互;同时采用可变的权重参数连接小波分解的多尺度特征场和标记场。每一尺度上,通过权重参数的调整使得该尺度的特征场和标记场在分割过程中依次起主导作用,获得该尺度更为准确的分割结果。最细尺度上的分割结果作为该方法的分割结果。实验表明,该算法的分割结果,在保持边界的同时,区域一致性也比较好。 展开更多
关键词 小波 背景标记(CLT) 可变权重
下载PDF
基于结构标记树的XML可查询压缩方法 被引量:1
14
作者 魏东平 徐瑞敏 贾楠 《计算机工程》 CAS CSCD 北大核心 2011年第15期34-36,共3页
针对支持查询的XML数据压缩方法存在的路径和数据重复等问题,通过去除XML数据中的重复路径,简化XML数据结构,提出结构标记树的概念及其生成算法,设计一种基于结构标记树的可查询XML数据压缩方法SSTQC,对XML数据进行压缩和组织查询。SSTQ... 针对支持查询的XML数据压缩方法存在的路径和数据重复等问题,通过去除XML数据中的重复路径,简化XML数据结构,提出结构标记树的概念及其生成算法,设计一种基于结构标记树的可查询XML数据压缩方法SSTQC,对XML数据进行压缩和组织查询。SSTQC一次扫描XML文档,具有较好的的压缩性能和查询效率。 展开更多
关键词 XML数据 数据压缩 查询处理 重复路径 结构标记
下载PDF
基于最右扩展枚举的半结构化数据最大模式挖掘方法研究
15
作者 吴共庆 陈恩红 +1 位作者 王舒 王煦法 《小型微型计算机系统》 CSCD 北大核心 2004年第9期1696-1699,共4页
本文以标记有序树作为半结构化数据的数据模型 ,研究了半结构化数据的树状最大频繁模式挖掘问题 .已有挖掘算法通常挖掘所有频繁模式 ,其中很多模式为其它模式的子模式 ,针对该问题 ,设计实现了一种最大模式挖掘算法 .该算法采用最右扩... 本文以标记有序树作为半结构化数据的数据模型 ,研究了半结构化数据的树状最大频繁模式挖掘问题 .已有挖掘算法通常挖掘所有频繁模式 ,其中很多模式为其它模式的子模式 ,针对该问题 ,设计实现了一种最大模式挖掘算法 .该算法采用最右扩展枚举方法无重复枚举所有候选模式 ,利用频繁模式扩展森林实现高效剪枝扩展和挖掘频繁叶模式 ,通过计算频繁叶模式间的包含关系挖掘树状最大频繁模式 . 展开更多
关键词 半结构化数据 标记有序 最右扩展枚举 状最大频繁模式 模式挖掘
下载PDF
限制树宽的图的最小标记生成数算法
16
作者 徐忆晨 Rudolf Fleischer 《计算机工程与科学》 CSCD 2008年第12期72-74,共3页
本文研究了图的最小标记生成树问题。首先介绍在一般图上基于搜索树的最小标记生成树的算法;然后考虑了限制树宽的图,得到了效率更高的算法。该算法在树宽为常数的情况下,时间复杂度关于图的顶点个数为多项式,从而也证明了最小标记生成... 本文研究了图的最小标记生成树问题。首先介绍在一般图上基于搜索树的最小标记生成树的算法;然后考虑了限制树宽的图,得到了效率更高的算法。该算法在树宽为常数的情况下,时间复杂度关于图的顶点个数为多项式,从而也证明了最小标记生成树在限制树宽的图上属于确定参数可解问题。 展开更多
关键词 最小标记生成 搜索 限制 确定参数可解
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部