期刊文献+
共找到1,071篇文章
< 1 2 54 >
每页显示 20 50 100
模板化网页主题信息的提取方法 被引量:70
1
作者 欧健文 董守斌 蔡斌 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1743-1747,共5页
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则... 为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取。对国内2 588个新闻网页进行了检测。实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%。将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高。 展开更多
关键词 万维网 网页 信息提取 模板 搜索引擎
原文传递
基于知识库的网页自动标引和自动分类系统的设计 被引量:37
2
作者 侯汉清 薛鹏军 《大学图书馆学报》 CSSCI 北大核心 2004年第1期50-55,64,共7页
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库... 针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 展开更多
关键词 知识库 网页标引 自动标引 自动分类系统 概念语义网络
下载PDF
中文网页标引源主题表达能力的调查统计 被引量:29
3
作者 丁璇 侯汉清 章成志 《大学图书馆学报》 CSSCI 北大核心 2002年第6期70-72,共3页
通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,... 通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据。 展开更多
关键词 标引源 主题表达能力 汉语 网页 主题标引 加权 自动标引 调查
下载PDF
ExtJS框架在Web软件开发中的应用 被引量:26
4
作者 陈道鑫 宋绍云 +1 位作者 袁中旺 王晓燕 《电脑知识与技术》 2011年第3X期2044-2047,共4页
将当前兴起的ExtJS技术应用于WEB开发,可以构造一个基于ExtJS技术的Web系统,从而更加便利的管理和开发,方便工作人员改善系统布局和设计。使用EXTJS框架技术,可局部刷新页面,加快客户浏览页面的速度,无需等待。该文通过对ExtJS框架的解... 将当前兴起的ExtJS技术应用于WEB开发,可以构造一个基于ExtJS技术的Web系统,从而更加便利的管理和开发,方便工作人员改善系统布局和设计。使用EXTJS框架技术,可局部刷新页面,加快客户浏览页面的速度,无需等待。该文通过对ExtJS框架的解析,阐述在开发中的出现的问题及注意事项。 展开更多
关键词 EXTJS web页面 框架
下载PDF
AJAX技术的性能改进研究 被引量:14
5
作者 阳锋 徐建波 《计算机工程与科学》 CSCD 2008年第6期146-148,158,共4页
AJAX技术作为一种新兴的网络技术比传统页面刷新模式具有更好的性能和友好的用户体验,为开发类桌面web应用程序提供了解决方案。本文针对AJAX基本原理和性能进行了分析,并对AJAX提出了一些性能改进建议和方法,使AJAX模式带来的程序量大... AJAX技术作为一种新兴的网络技术比传统页面刷新模式具有更好的性能和友好的用户体验,为开发类桌面web应用程序提供了解决方案。本文针对AJAX基本原理和性能进行了分析,并对AJAX提出了一些性能改进建议和方法,使AJAX模式带来的程序量大、首页加载时间长的缺陷得到改善,进一步提高程序性能。 展开更多
关键词 AJAX 性能改进 网页 web程序
下载PDF
基于相似页面的Web信息抽取系统的实现 被引量:3
6
作者 贡正仙 朱巧明 李培峰 《计算机应用》 CSCD 北大核心 2006年第8期1983-1986,共4页
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则... 分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。 展开更多
关键词 web页面 RoadRunner 相似页面 信息抽取
下载PDF
对中国曾有过静态网页数的一种估计 被引量:12
7
作者 李晓明 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第3期394-398,共5页
根据北大天网系统在 2 0 0 2年初的一次网页搜集结果 ,特别是当前仍然存在网上但“最后修改时间”不是 2 0 0 2年网页的数量 ,本文提出了一种估计过去网页数量的模型 ,并据此对中国自从1995年以来的静态网页数以年为时间单位进行了估计 ... 根据北大天网系统在 2 0 0 2年初的一次网页搜集结果 ,特别是当前仍然存在网上但“最后修改时间”不是 2 0 0 2年网页的数量 ,本文提出了一种估计过去网页数量的模型 ,并据此对中国自从1995年以来的静态网页数以年为时间单位进行了估计 ,从而得到了一个增长曲线 ,在一定的理论意义上验证了人们常说的“网上信息爆炸性增长” 展开更多
关键词 互联网 因特网 网页 网络动力学
下载PDF
基于本体的Web信息抽取系统 被引量:14
8
作者 王志华 魏斌 +1 位作者 李占波 赵伟 《计算机工程与设计》 CSCD 北大核心 2012年第7期2634-2639,共6页
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架。对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文... 为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架。对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案。实验结果表明,该方法可以得到性能较高的抽取结果。 展开更多
关键词 本体 信息抽取 web页面 关键技术 抽取框架
下载PDF
基于树自动机的网页数据抽取 被引量:6
9
作者 王茹 宋瀚涛 陆玉昌 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第9期790-793,共4页
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用... 为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法. 展开更多
关键词 数据抽取 树自动机 web网页 HTML
下载PDF
香港大学图书馆与北京大学图书馆网站建设的比较研究 被引量:10
10
作者 周庆山 施燕 《津图学刊》 2002年第3期7-10,共4页
本文探讨了学术性的大学图书馆网站应当实现的任务 ,并以香港大学图书馆和北京大学图书馆为例 ,比较了两者在网站设计思路上的异同。
关键词 大学图书馆 网站设计 比较研究 联机检索服务 香港大学 北京大学
下载PDF
应用Web标准设计网页的实践及思考 被引量:7
11
作者 季兴东 《泰州职业技术学院学报》 2008年第3期20-23,共4页
在网页制作实践中,对传统网页设计方法和应用Web标准设计网页的方法进行了对比,后者明显优于前者。Web标准是一系列标准的集合,Div+CSS是目前实现Web标准网页设计所使用的主流方式。越来越多的网站正在使用Web标准技术进行网站重构,并... 在网页制作实践中,对传统网页设计方法和应用Web标准设计网页的方法进行了对比,后者明显优于前者。Web标准是一系列标准的集合,Div+CSS是目前实现Web标准网页设计所使用的主流方式。越来越多的网站正在使用Web标准技术进行网站重构,并从中获益,随着更多的厂商和设计者的支持,Web标准技术将得到广泛应用。 展开更多
关键词 网页 web标准 DIV+CSS 浏览器
下载PDF
基于主题的网页噪音去除机制 被引量:8
12
作者 万乐 左万利 高金 《计算机工程与设计》 CSCD 北大核心 2008年第8期2072-2074,2084,共4页
由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息。而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音。提出了一种基于主题的网页噪音去除算法,通过... 由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息。而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音。提出了一种基于主题的网页噪音去除算法,通过构造网页DOM树的一个变种,即内容块树,利用分类器判断网页的噪音块。实验结果表明,该方法噪音去除精度是87%,而以前的方法仅有42%。 展开更多
关键词 web网页 噪音去除 信息提取 预处理
下载PDF
ActiveX技术及其应用 被引量:4
13
作者 孙汉忠 严云洋 《现代计算机》 2000年第101期32-35,共4页
本文首先介绍了 ActiveX技术,然后简要介绍了 ActiveX技术在开发分布式应用中的应用优势,及ActiveX技术在开发 Web页面中的应用。
关键词 AcitveX 分布式应用 web页面 软件组件
下载PDF
基于Web文本的灾害信息挖掘研究进展 被引量:7
14
作者 李卫江 温家洪 《灾害学》 CSCD 2010年第2期119-123,128,共6页
Web文本中蕴含着丰富的以自然语言描述的非结构灾害信息和知识。基于Web文本自动提取和构造结构化、综合性灾害信息,是灾害信息领域研究的前沿问题。目前国内外利用Web文本挖掘技术在灾时与灾后的应急响应与救援,灾害的早期预警和风险... Web文本中蕴含着丰富的以自然语言描述的非结构灾害信息和知识。基于Web文本自动提取和构造结构化、综合性灾害信息,是灾害信息领域研究的前沿问题。目前国内外利用Web文本挖掘技术在灾时与灾后的应急响应与救援,灾害的早期预警和风险分析方面进行示范应用;同时在文本灾害信息的语义理解与抽取、文本灾害信息的时空匹配、以及文本灾害信息的不确定性和可靠性评价等关键技术领域迅速展开研究。我国应加强以Web文本为信息源的中文灾害信息挖掘关键技术、软件,以及管理体系的研究,以有效弥补灾害研究与管理过程中灾害数据共享困难,以及可利用的动态实时、综合性灾害数据缺乏的薄弱环节,提升灾害信息服务水平。 展开更多
关键词 web文本 灾害信息 空间信息 挖掘技术
下载PDF
基于BP神经网络的Web页面分类算法 被引量:3
15
作者 徐家树 覃征 杨盾 《微电子学与计算机》 CSCD 北大核心 2006年第5期83-85,88,共4页
提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结... 提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结果表明,该分类算法有一定的实用价值。 展开更多
关键词 分类技术 信息检索 web页面
下载PDF
基于时间链接分析的页面排序优化算法 被引量:6
16
作者 鞠时光 吕霞 王崝 《计算机应用研究》 CSCD 北大核心 2009年第7期2438-2441,2477,共5页
传统的页面排序算法偏重于旧网页,使得一些旧的页面经常出现在检索结果的前面。为了改进此类算法,引入时间链接分析,使用爬虫抓起页面时HTTP协议反馈回来的修改时间作为页面和链接的时间,并综合考虑页面的出入链接个数和时间来计算页面... 传统的页面排序算法偏重于旧网页,使得一些旧的页面经常出现在检索结果的前面。为了改进此类算法,引入时间链接分析,使用爬虫抓起页面时HTTP协议反馈回来的修改时间作为页面和链接的时间,并综合考虑页面的出入链接个数和时间来计算页面的权重值。开发出的WTPR算法能使新网页集在排序中上升,高质量的旧网页比普通的旧网页能获得较高的排序值。 展开更多
关键词 页面排序算法 网页 网络挖掘
下载PDF
基于GAA-API的Web网页细粒度访问控制方法研究 被引量:3
17
作者 王婷 陈性元 +2 位作者 张斌 包义保 夏春涛 《计算机应用》 CSCD 北大核心 2007年第5期1274-1276,共3页
基于通用的授权与访问控制接口GAA-API,提出了一种网页的细粒度授权与访问控制方法。为网页中的静态资源元素、动态资源元素分别提供细粒度、灵活的访问控制。最后对该方法进行实验测试,并对测试结果进行比较分析。
关键词 web网页 GAA-API 细粒度 访问控制
下载PDF
基于UCL的网页自动标引技术 被引量:6
18
作者 邢玲 史杏荣 《计算机工程与应用》 CSCD 北大核心 2004年第17期148-151,共4页
UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XM... UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XML文档的过程,并从中提取符合用户兴趣模型的UCL字段,从而达到网页自动标引的目的。实验验证了理论方案的正确性和有效性。 展开更多
关键词 自动标引 UCL XML网页 用户兴趣模型
下载PDF
基于三星Exynos4412的智能医疗系统的设计和实现 被引量:6
19
作者 乔增光 屈八一 程腾 《软件》 2017年第6期103-107,共5页
智能医疗这个概念越来越被人们所熟知,智能医疗也正在日益走进寻常百姓的生活。基于exynos4412智能医疗系统,它具有心率、脉搏监测、信号特征提取和数据传输等功能,可以通过Web网页实现远程对人体的监控^([2])和数据的采集、提前诊断和... 智能医疗这个概念越来越被人们所熟知,智能医疗也正在日益走进寻常百姓的生活。基于exynos4412智能医疗系统,它具有心率、脉搏监测、信号特征提取和数据传输等功能,可以通过Web网页实现远程对人体的监控^([2])和数据的采集、提前诊断和监护治疗,具有实时性高、使用简便、支持长时间连续工作、智能显示诊断结果、异常生理状况报警和无线数据传输等特点。 展开更多
关键词 智能医疗 exynos4412 嵌入式应用 web网页
下载PDF
用ASP开发Internet数据查询系统 被引量:4
20
作者 龚本灿 王少蓉 《湖北三峡学院学报》 2000年第2期29-30,共2页
介绍了用ActiveServerPages(简称ASP)技术开发Web页面的优点 ,ASP文档的处理过程 ,并以员工查询系统为例 。
关键词 ASP web页面 INTERNET 数据查询系统
下载PDF
上一页 1 2 54 下一页 到第
使用帮助 返回顶部