期刊文献+
共找到104篇文章
< 1 2 6 >
每页显示 20 50 100
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:16
1
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 dom DEEPWEB 数据区域定位 实体区域定位
下载PDF
基于文本特征的Deep Web分类研究
2
作者 罗国涛 马在强 《计算机与现代化》 2012年第10期58-61,64,共5页
讨论若干Deep Web数据库分类准确性的前沿技术,建立基于词频和DOM树的文本特征提取方法模型,提出计算Deep Web数据库的基于权值的K-NN(K Nearest Neighbors)分类优化算法。利用UIUC提供的TEL-8数据集和WEKA平台的各类算法进行实验,并对... 讨论若干Deep Web数据库分类准确性的前沿技术,建立基于词频和DOM树的文本特征提取方法模型,提出计算Deep Web数据库的基于权值的K-NN(K Nearest Neighbors)分类优化算法。利用UIUC提供的TEL-8数据集和WEKA平台的各类算法进行实验,并对分类精度、召回率和综合F-measure等测度上的分类结果进行比较。实验结果表明,该方法模型在3个指标上表现都较为突出。 展开更多
关键词 DEEP Web 网页文本 词频 K-NN分类算法 dom
下载PDF
基于子树相似度计算的网页评论提取算法研究 被引量:5
3
作者 朱毅华 张超群 +4 位作者 曾通 吴龙凤 徐玛丽 王东波 李晓晖 《现代图书情报技术》 CSSCI 北大核心 2013年第11期52-59,共8页
将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中<BODY>节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面... 将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中<BODY>节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面的性能不足,本算法同时考虑树节点的标签与位置信息构建叶节点路径,通过求解两个DOM子树的叶节点路径相似度矩阵得到两个子树的相似度。比较其他几种基于DOM相似度计算方法和一种基于标签权重的网页评论提取方法在性能和效率上的差异。实验表明,基于本算法的网页评论提取方法具有较高的查准率和查全率,总体优于现有网页评论提取方法。 展开更多
关键词 dom 子树相似度 评论提取
原文传递
节点频度和语义距离相结合的网页正文信息抽取 被引量:3
4
作者 孟军 刘秋水 王秀坤 《计算机工程与应用》 CSCD 北大核心 2009年第1期140-143,共4页
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离... 提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。 展开更多
关键词 信息提取 带有节点频度的文档对象模型树 节点频度 语义距离
下载PDF
基于DOM树和视觉特征的网页信息自动抽取 被引量:5
5
作者 黄武冠 朱明 尹文科 《计算机工程》 CAS CSCD 2013年第10期309-312,共4页
针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的DOM树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从... 针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的DOM树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从而抽取其中的数据记录。对10个生活信息服务网站进行测试,结果表明,有8个网站的召回率和准确率达到100%,取得了较好的结果。 展开更多
关键词 文档对象模型树 视觉特征 自动抽取 数据记录 数据区域 挖掘算法
下载PDF
一种Deep Web查询结果的实体抽取方法 被引量:4
6
作者 赵海霞 李道申 +1 位作者 刘勇 赵嘉诚 《计算机工程与应用》 CSCD 2012年第36期160-163,共4页
Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结... Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。 展开更多
关键词 深度网 数据抽取 文件对象模型(dom)树 索引 相似度
下载PDF
基于结构相似网页聚类的正文提取算法研究 被引量:2
7
作者 王海涌 冯兆旭 +1 位作者 杨海波 张津栋 《计算机工程与应用》 CSCD 北大核心 2018年第11期122-127,139,共7页
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘... 针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。 展开更多
关键词 正文提取 相似性 文档对象模型(dom)树 层次聚类
下载PDF
支持局部更新的双向内容适配策略
8
作者 吕红亮 王劲林 邓峰 《计算机工程与应用》 CSCD 北大核心 2010年第33期6-8,共3页
内容适配旨在解决融合环境下多种终端兼容问题,现有的内容适配策略在用户通过受限终端进行更新时会造成信息丢失。提出一种支持局部更新的双向内容适配策略,该策略基于DOM树建立统一的存储模型对元数据和适配实例进行存储,当受限终端发... 内容适配旨在解决融合环境下多种终端兼容问题,现有的内容适配策略在用户通过受限终端进行更新时会造成信息丢失。提出一种支持局部更新的双向内容适配策略,该策略基于DOM树建立统一的存储模型对元数据和适配实例进行存储,当受限终端发起更新时,通过比较DOM树中的节点对元数据进行局部更新。实验结果表明,相比现有策略,支持局部更新的内容适配策略在大部分情况下可以减少60%以上的信息丢失。 展开更多
关键词 融合环境 双向内容适配 局部更新 元数据 文档对象模型(dom)树
下载PDF
Deep Web接口的自动识别技术研究
9
作者 杨永红 高磊 +1 位作者 余航 徐欣辰 《计算机工程与应用》 CSCD 北大核心 2017年第7期109-114,共6页
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息... 获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。 展开更多
关键词 DeepWeb接口 文档对象化模型树 接口块 多类分类
下载PDF
基于DOM树的可适应性Web信息抽取 被引量:16
10
作者 李朝 彭宏 +2 位作者 叶苏南 张欢 杨亲遥 《计算机科学》 CSCD 北大核心 2009年第7期202-203,210,共3页
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可... Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取。对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法。 展开更多
关键词 dom 信息抽取 可适应性
下载PDF
XML文档对象模型研究与应用 被引量:8
11
作者 熊光彩 莫 蓉 +1 位作者 赵歆波 张定华 《计算机工程与设计》 CSCD 2002年第5期1-4,共4页
摘 要:从XML文档的基本结构出发,详细论述了DOM树、节点树结构特征及DOM的基本接口。结合产品定单实例实现 XML文档结构树的动态创建、遍历,并通过XML DOM接口实现对文档结构树的操作等核心应用。
关键词 电子数据交换 可扩展标记语言 XML文档 对象模型
下载PDF
逆序解析DOM树及网页正文信息提取 被引量:15
12
作者 张瑞雪 宋明秋 公衍磊 《计算机科学》 CSCD 北大核心 2011年第4期213-215,225,共4页
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,... 一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。 展开更多
关键词 dom 网页正文提取 结构相似性 逆序解析
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
13
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 dom 块分类 社会计算 社交网络
下载PDF
一种基于SVM及文本密度特征的网页信息提取方法 被引量:13
14
作者 周艳平 李金鹏 宋群豹 《计算机应用与软件》 北大核心 2019年第10期251-255,261,共6页
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样... 针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。 展开更多
关键词 SVM 正文抽取 dom 文本密度特征
下载PDF
基于节点属性与正文内容的海量Web信息抽取方法 被引量:12
15
作者 王海艳 曹攀 《通信学报》 EI CSCD 北大核心 2016年第10期9-17,共9页
为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面... 为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面内容进行预处理;引入MapReduce计算框架,实现海量Web信息的并行化抽取。仿真实验结果表明,提出的海量Web信息抽取方法不仅具有更好的性能,还具备较好的系统可扩展性。 展开更多
关键词 WEB信息 抽取 MAPREDUCE dom
下载PDF
知识管理中的基于XML的知识存储 被引量:7
16
作者 张晶 陈褔生 《计算机应用研究》 CSCD 北大核心 2006年第1期69-70,102,共3页
在研究和分析了四种XML存储方式各自特点的基础上,针对Native-XML数据库,提出了基于模式语义块的XML页-记录存储方法。
关键词 XML Native—XML数据库 知识管理 知识存储 dom
下载PDF
基于DOM修剪的藏文Web信息提取 被引量:7
17
作者 珠杰 欧珠 格桑多吉 《计算机工程》 CAS CSCD 北大核心 2008年第24期58-60,共3页
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取... 随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。 展开更多
关键词 音节点 dom 藏文 WEB信息提取
下载PDF
基于重复模式的自动Web信息抽取 被引量:8
18
作者 胡仁龙 袁春风 +1 位作者 武港山 濮小佳 《计算机工程》 CAS CSCD 北大核心 2008年第22期73-76,共4页
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽... 互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。 展开更多
关键词 WEB信息抽取 dom 重复模式
下载PDF
Web表格定位技术的研究与实现 被引量:9
19
作者 廖涛 刘宗田 孙荣 《计算机科学》 CSCD 北大核心 2009年第9期227-230,共4页
Web表格的定位作为Web表格抽取的一个重要研究内容,现在越来越得到更多人的重视。根据Web表格的结构标记和自定义的启发式规则,通过对〈TABLE〉嵌套问题的解决、数据表格完整性的判断、〈TABLE〉树的遍历来完成表格的定位。
关键词 dom 表格定位 启发式规则 〈TABLE〉嵌套 遍历
下载PDF
基于改进的隐马尔科夫模型的网页新闻关键信息抽取 被引量:9
20
作者 刘志强 都云程 施水才 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期120-128,共9页
【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究... 【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进。【结果】使用隐马尔科夫模型的改进算法,在已构建抽取模型的网站中,平均准确率可达97%。【局限】抽取模型在分类能力上稍有不足,无法对细微差别信息进行准确抽取。【结论】该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点。 展开更多
关键词 信息抽取 隐马尔科夫模型 机器学习 dom
原文传递
上一页 1 2 6 下一页 到第
使用帮助 返回顶部