期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于分块的网页信息解析器的研究与设计 被引量:55
1
作者 于满泉 陈铁睿 许洪波 《计算机应用》 CSCD 北大核心 2005年第4期974-976,共3页
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
关键词 WEB挖掘 html标记 视觉特征 网页分块
下载PDF
基于HTML标签的信息隐藏模型 被引量:8
2
作者 龙银香 《计算机应用研究》 CSCD 北大核心 2007年第5期137-140,共4页
通过仔细分析HTML标签的各种性质,提出了几种新的基于标签的隐藏信息的方法。在此基础上,提出并实现了一个基于HTML标签的信息隐藏模型。该模型具有隐藏容量高、隐蔽性、鲁棒性和安全性较好,并且具有弹性,能自动调节隐藏算法的参数,使... 通过仔细分析HTML标签的各种性质,提出了几种新的基于标签的隐藏信息的方法。在此基础上,提出并实现了一个基于HTML标签的信息隐藏模型。该模型具有隐藏容量高、隐蔽性、鲁棒性和安全性较好,并且具有弹性,能自动调节隐藏算法的参数,使得在满足容量的前提下,尽量提高隐蔽性。 展开更多
关键词 超文本标记语言 信息隐藏 数字水印 模型 标签 文本
下载PDF
基于HTML标记的信息隐藏方法 被引量:5
3
作者 龙银香 《微计算机信息》 北大核心 2006年第07X期129-131,共3页
本文通过仔细分析HTML中标记的各种性质,提出了几种新的基于标记的隐藏信息的方法。这些方法的隐蔽性较好;综合运用这些方法可以获得较大的信息隐藏容量,具有较高的隐藏比。
关键词 超文本标识语言 信息隐藏 数字水印 文本 标记
下载PDF
基于结构和链接扩展的中文网页分类研究 被引量:4
4
作者 刘菁菁 林鸿飞 《微电子学与计算机》 CSCD 北大核心 2007年第9期192-195,共4页
在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明,该方... 在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明,该方法比单独依赖网页内容信息的分类在效果上有所提高。 展开更多
关键词 分类 链接扩展 html标签 网络结构
下载PDF
基于网页DOM树节点路径相似度的正文抽取 被引量:4
5
作者 潘心宇 陈长福 +1 位作者 刘蓉 王美清 《微型机与应用》 2016年第19期74-77,共4页
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路... 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。 展开更多
关键词 DOM树 信息抽取 html标签 网页去噪 正文抽取
下载PDF
主题网页标签树邻接矩阵识别算法研究 被引量:2
6
作者 宋军 杨晓夫 +1 位作者 李益才 王家伟 《计算机科学》 CSCD 北大核心 2016年第6期316-320,共5页
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题... 随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。 展开更多
关键词 网页结构 html标签 标签树邻接矩阵
下载PDF
基于文本及HTML标签密度的网页正文提取 被引量:1
7
作者 杨大为 王诗念 +2 位作者 包立岩 要虹吏 刘畅 《沈阳理工大学学报》 CAS 2022年第4期14-19,共6页
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的... 大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的网页正文提取方法(TTD),通过对页面文本内容和标签的统计分析,可以快速提取正文内容,适用于常见的资讯网站,具有较强的通用性。实验表明,该方法的提取效果较当前常用的方法在准确度上有较大提升,具有较高的实用性。 展开更多
关键词 标签密度 html标签 网页 正文提取
下载PDF
基于扩展标记图的虚拟网页技术 被引量:2
8
作者 朱征宇 朱庆生 王茜 《计算机科学》 CSCD 北大核心 2001年第11期80-82,F004,共4页
大量的Web信息资源采用HTML文档形式存放,带来诸多不利因素.其一,HTML文档因包含具体数据内容,不可避免地会涉及到数据冗余和一致性维护的问题.比如,在一个电子商场网站设计中,为服务于不同客户群,一双皮鞋的基础数据(厂家介绍、产品说... 大量的Web信息资源采用HTML文档形式存放,带来诸多不利因素.其一,HTML文档因包含具体数据内容,不可避免地会涉及到数据冗余和一致性维护的问题.比如,在一个电子商场网站设计中,为服务于不同客户群,一双皮鞋的基础数据(厂家介绍、产品说明和图片等)可能会重复地放入多个网页中,如按分类、按品牌和按厂家等方式组织的网页.其二,HTML文档不利于构建新网页的重用,难以适应变化需求,如当有新客户群希望按老中幼年龄段来浏览商品时,新网页须从头组织,且可能产生新的数据冗余.其三,HTML文档的信息检索和查询优化较为困难. 展开更多
关键词 虚拟网页 扩展标记图 网络浏览器 信息检索
下载PDF
利用HTML标签筛选网页分类样本 被引量:3
9
作者 侯小静 王黎明 《微机发展》 2005年第3期142-144,共3页
互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特... 互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性。 展开更多
关键词 超文本标识语言 文档对象模型 标签 网页分类
下载PDF
基于HTML标记信息的主题相关性判定方法 被引量:1
10
作者 张兆中 《淮阴师范学院学报(自然科学版)》 CAS 2005年第3期240-243,共4页
从目前互联网的信息发展现状出发,讨论了在信息采集过程中判断要采集的网页与主题的相关性,给出了一个基于HTML标记信息的主题相关性判定模型和算法实现.通过对试验数据分析,算法显示较好性能.
关键词 html标记 主题 相关性 模型
下载PDF
一种抽取新闻网页结构化数据的方法 被引量:1
11
作者 陈爽 李先国 +1 位作者 陈福 李素 《燕山大学学报》 CAS 2007年第6期485-488,共4页
根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反... 根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法,并使用这种方法进行了大范围的效果验证。验证结果表明:这种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。 展开更多
关键词 信息抽取 html解析 DOM 标签补偿 噪声标记
下载PDF
利用脚本封装抵御跨站脚本攻击 被引量:1
12
作者 沈伍强 唐屹 《广州大学学报(自然科学版)》 CAS 2010年第5期78-82,共5页
跨站脚本攻击是一类脚本注入攻击,当发生这类攻击时,浏览器所运行的脚本被分作两类:来自应用程序模板的良性脚本和来自其他途径的可疑脚本.文章提出基于脚本封装的抵御跨站脚本攻击的方法ScriptE,该方法采用额外的HTML标签封装良性脚本... 跨站脚本攻击是一类脚本注入攻击,当发生这类攻击时,浏览器所运行的脚本被分作两类:来自应用程序模板的良性脚本和来自其他途径的可疑脚本.文章提出基于脚本封装的抵御跨站脚本攻击的方法ScriptE,该方法采用额外的HTML标签封装良性脚本,然后通过浏览器插件或网页自带的检测脚本,在客户端实现两类脚本的区分,进而抵御可能的跨站脚本攻击,实验验证了所设计的方法. 展开更多
关键词 跨站脚本 脚本封装 html标签
下载PDF
用VbScript和ASP实现Web视频点播的两种方法
13
作者 邹军华 《中国教育技术装备》 2005年第7期46-49,共4页
阐述了实现Web视频点播的两种方法.通过综合运用HTML、ASP和VbScript等多方面的技术,对网页文件中的主要标记和代码的原理以及具体应用进行了分析.
关键词 VBSCRIPT 视频点播 WEB ASP html 综合运用 网页文件 代码
下载PDF
用ASP建造聊天室
14
作者 连育英 《电脑开发与应用》 2005年第5期36-37,共2页
使用ASP提供的Application和Session两个对象,可以在自己的网站建造聊天室。Application是Web站点所有用户可共享的全局对象,其属性在Global. asa文件中定义。在此用于存储用户的谈话内容。Session对象也是在页面间跳转时保存和传递数据... 使用ASP提供的Application和Session两个对象,可以在自己的网站建造聊天室。Application是Web站点所有用户可共享的全局对象,其属性在Global. asa文件中定义。在此用于存储用户的谈话内容。Session对象也是在页面间跳转时保存和传递数据,但作用范围仅限于一个用户。其属性在应用程序中定义。在此用于记忆用户的姓名。程序始终保存用户最近的1 0次谈话内容,浏览器滚动显示。 展开更多
关键词 ASP APPLICATION对象 SESSION对象 VBSeript脚本 html标签 服务器 浏览器 聊天室
下载PDF
基于网页分割的语义信息检索研究
15
作者 沈达峰 《西昌学院学报(自然科学版)》 2009年第4期57-61,共5页
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树... 如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。 展开更多
关键词 网页分割 语义 信息检索 html标记 相似性
下载PDF
一种基于重复标记属性的多网页信息隐藏方法 被引量:7
16
作者 李建国 马小虎 沈晓峰 《计算机应用与软件》 CSCD 2009年第8期62-63,85,共3页
信息隐藏技术作为信息安全的热点,被应用于版权保护和隐蔽通信等领域。通过分析浏览器解析超文本标记语言的特性,提出重复标记属性的网页信息隐藏技术,同时针对网页中可隐藏信息量少的特点,采用了多网页隐藏方法。实验证明该方法的信息... 信息隐藏技术作为信息安全的热点,被应用于版权保护和隐蔽通信等领域。通过分析浏览器解析超文本标记语言的特性,提出重复标记属性的网页信息隐藏技术,同时针对网页中可隐藏信息量少的特点,采用了多网页隐藏方法。实验证明该方法的信息隐藏性较好,具有较高的使用价值。 展开更多
关键词 超文本标记语言 信息隐藏 标记
下载PDF
基于扩展标记图的网页信息重组技术 被引量:3
17
作者 朱征宇 王亮 +1 位作者 赵银春 程代杰 《计算机科学》 CSCD 北大核心 2004年第5期56-60,64,共6页
本文介绍一种基于扩展标记图ETG(Extended Tag Graph)的网页信息抽取与重组新技术,引入了扩展标记图操作和重构概念,提出了作为用户接口的标记查询语言TagSQL。用户通过类标准SQL的语言描述,即可方便地实现对网页信息的灵活抽取和重组... 本文介绍一种基于扩展标记图ETG(Extended Tag Graph)的网页信息抽取与重组新技术,引入了扩展标记图操作和重构概念,提出了作为用户接口的标记查询语言TagSQL。用户通过类标准SQL的语言描述,即可方便地实现对网页信息的灵活抽取和重组操作。 展开更多
关键词 扩展标记图 网页信息 重组技术 ETG 抽取 标记查询语言 tagSQL
下载PDF
基于动态标签技术的信息发布系统设计与实现 被引量:4
18
作者 李营那 吴松洋 +1 位作者 张涛 李勋 《计算机应用与软件》 2017年第1期21-27,142,共8页
当今信息化时代,信息发布系统被广泛应用于社会各领域、各企事业单位。现有的信息发布系统只能发布系统已定义类型的信息,如企业动态、考勤制度等,当需要增加新的信息类型时,需要对系统进行重新编码设计,现有信息系统的可扩展性很差。为... 当今信息化时代,信息发布系统被广泛应用于社会各领域、各企事业单位。现有的信息发布系统只能发布系统已定义类型的信息,如企业动态、考勤制度等,当需要增加新的信息类型时,需要对系统进行重新编码设计,现有信息系统的可扩展性很差。为此,提出一种基于动态标签技术的信息发布系统,详述其设计与实现方法,通过基于MongoDB存储的动态标签技术实现信息类型用户自定义,用户可以简单、易操作的方式增加新的信息类型,发布新的信息。实践表明,所提出的信息发布信息具有高度的用户透明性、业务扩展性,减低了企事业单位研发信息发布系统的费用、时间和人员。 展开更多
关键词 动态标签技术 MONGODB html5 服务器推送
下载PDF
一种基于网页分割的Web信息检索方法 被引量:3
19
作者 俞扬信 严云洋 《图书情报工作》 CSSCI 北大核心 2009年第3期108-110,114,共4页
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充... 提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。 展开更多
关键词 网页分割 信息检索 html标记 相似性
原文传递
基于云计算的HTML5应用开发
20
作者 朱亮 《电脑编程技巧与维护》 2013年第24期21-23,共3页
对于云计算与HTML5技术相结合使用的形式正在成为系统开发的主流,对云计算技术的概念及其原理做了简要介绍,并对基于云计算的应用系统框架做了概要说明,介绍了HTML5中的一些核心技术和新特性,以及JavaScript在HTML5和云计算中的影响。
关键词 html5技术 云计算 JAVASCRIPT脚本 标签
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部