期刊文献+
共找到897篇文章
< 1 2 45 >
每页显示 20 50 100
主题网络爬虫研究综述 被引量:131
1
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 web挖掘
下载PDF
Web日志中挖掘用户浏览模式的研究 被引量:34
2
作者 施建生 伍卫国 +2 位作者 陆丽娜 Yang Yiling 杨怡玲 《西安交通大学学报》 EI CAS CSCD 北大核心 2001年第6期621-624,共4页
研究了Web日志挖掘的机理 ,提出了使用频繁遍历路径作为用户浏览模式 ,并在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上 ,进一步提出了一种在Web日志中挖掘频繁遍历路径的类Apriori算法 ,该算法能够正确、快速地从Web... 研究了Web日志挖掘的机理 ,提出了使用频繁遍历路径作为用户浏览模式 ,并在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上 ,进一步提出了一种在Web日志中挖掘频繁遍历路径的类Apriori算法 ,该算法能够正确、快速地从Web日志中抽取频繁遍历路径 . 展开更多
关键词 数据挖掘 web挖掘 用户浏览模式
下载PDF
基于分块的网页信息解析器的研究与设计 被引量:55
3
作者 于满泉 陈铁睿 许洪波 《计算机应用》 CSCD 北大核心 2005年第4期974-976,共3页
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
关键词 web挖掘 HTML标记 视觉特征 网页分块
下载PDF
Web使用信息挖掘综述 被引量:50
4
作者 郭岩 白硕 于满泉 《计算机科学》 CSCD 北大核心 2005年第1期1-7,共7页
Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,Web使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为框架,分别介绍了数据预处理的技术... Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,Web使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为框架,分别介绍了数据预处理的技术与困难,Web使用信息挖掘中常用的方法和算法,以及主要应用。 展开更多
关键词 数据挖掘 web挖掘 web使用信息挖掘 web用户访问模式 数据预处理 模式发现
下载PDF
Web使用挖掘技术研究 被引量:37
5
作者 涂承胜 陆玉昌 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1177-1184,共8页
简要介绍了 WEB挖掘的基本概念及其分类 ,讨论了 Web使用挖掘的有关理论及其应用 .重点分析了 Web使用挖掘的主要研究对象和研究方法 ,包括 :挖掘的数据对象、数据的采集、数据预处理、模式发现、模式分析及其相关技术 .展望了
关键词 web挖掘 web网络使用挖掘 数据预处理 模式发现 模式分析
下载PDF
两种对URL的散列效果很好的函数 被引量:45
6
作者 李晓明 凤旺森 《软件学报》 EI CSCD 北大核心 2004年第2期179-184,共6页
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐... 在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐的对字符串散列效果很好的ELFhash函数对URL的散列效果并不好,同时推荐了两种对URL散列效果很好的函数. 展开更多
关键词 散列 ELFhash URL 均匀分布 web挖掘 负载平衡
下载PDF
基于Web挖掘的个性化技术研究 被引量:35
7
作者 冯是聪 单松巍 +2 位作者 张志刚 龚笔宏 李晓明 《计算机工程与设计》 CSCD 2004年第1期4-6,共3页
针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
关键词 web挖掘 个性化服务 用户建模 代理 人工智能 数据库
下载PDF
Web内容挖掘技术研究 被引量:23
8
作者 涂承胜 鲁明羽 陆玉昌 《计算机应用研究》 CSCD 北大核心 2003年第11期5-9,15,共6页
简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征... 简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等,讨论了多媒体文本分类挖掘方法。 展开更多
关键词 web挖掘 web内容挖掘 文本的分类 文本聚类 多媒体文本挖掘
下载PDF
数据挖掘在数字图书馆中的应用 被引量:40
9
作者 王艳 《情报科学》 CSSCI 北大核心 2003年第2期211-214,共4页
本文在描述数据挖掘技术与方法的基础上 ,探讨了数据挖掘在数字图书馆中的应用空间以及其所具有的巨大应用价值。
关键词 数字图书馆 数据挖掘 web挖掘 文本挖掘 信息资源建设 自动化信息处理
下载PDF
关联规则和聚类分析在个性化推荐中的应用 被引量:18
10
作者 鲍玉斌 王大玲 于戈 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第12期1149-1152,共4页
提出了两种应用访问页面关联规则和访问模式聚类分析结果相结合进行个性化推荐的方法,即将聚类分析作为关联规则的预处理和将关联规则和聚类分析互补使用,并与单独应用访问页面关联规则或访问模式聚类分析结果进行个性化推荐时的推荐测... 提出了两种应用访问页面关联规则和访问模式聚类分析结果相结合进行个性化推荐的方法,即将聚类分析作为关联规则的预处理和将关联规则和聚类分析互补使用,并与单独应用访问页面关联规则或访问模式聚类分析结果进行个性化推荐时的推荐测度进行了比较·实验表明,将聚类分析作为关联规则的预处理的推荐方法可以显著地提高推荐的准确率,而将关联规则和聚类分析互补使用的推荐方法具有较高的推荐覆盖率·同时发现将聚类分析和关联规则结合使用并不能同时改善推荐的准确率和覆盖率· 展开更多
关键词 web使用挖掘 页面关联规则 访问模式聚类 个性化推荐 web挖掘
下载PDF
基于Web挖掘的领域本体自动学习 被引量:31
11
作者 方卫东 袁华 刘卫红 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1729-1733,共5页
为获取领域本体并量化概念关系的可信度,提出了一种基于W eb挖掘的学习模型。通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并。模式可信度、概念语义距离与关联特征决定了... 为获取领域本体并量化概念关系的可信度,提出了一种基于W eb挖掘的学习模型。通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并。模式可信度、概念语义距离与关联特征决定了概念间关系的可信度。通过“文本分析本体获取文本扩充”的迭代过程,优化模型参数和阈值。该模型解决了现有本体学习方法对词典或核心本体的依赖性、以及不能对关系进行可信度量化的问题。实验证明了所提出模型的有效性。 展开更多
关键词 机器学习 web挖掘 自然语言处理 本体 分布语义 主题签名 上下文签名
原文传递
Web智能研究现状与发展趋势 被引量:23
12
作者 王本年 高阳 +1 位作者 陈世福 谢俊元 《计算机研究与发展》 EI CSCD 北大核心 2005年第5期721-727,共7页
Web智能是近年出现的一个崭新的研究方向,它是人工智能和高级信息技术在新的Web和Internet环境下相互融合的产物.首先从总体上讨论了Web智能的概念、研究内容和功能技术框架,然后分别就Web智能的几个核心方面的研究现状进行了综述,主要... Web智能是近年出现的一个崭新的研究方向,它是人工智能和高级信息技术在新的Web和Internet环境下相互融合的产物.首先从总体上讨论了Web智能的概念、研究内容和功能技术框架,然后分别就Web智能的几个核心方面的研究现状进行了综述,主要包括语义Web与ontology,WebAgent和Web挖掘等,并进一步给出了它们的研究重点和发展方向,最后是关于Web智能的研究展望和面临的挑战,指出智慧Web是Web智能研究的目标和中长期发展方向. 展开更多
关键词 web智能 语义web web挖掘 web AGENT 智慧web
下载PDF
Web使用挖掘技术的分析与研究 被引量:23
13
作者 朱志国 邓贵仕 《计算机应用研究》 CSCD 北大核心 2008年第1期29-32,36,共5页
首先给出Web使用挖掘的定义和完整模型框架;然后对Web使用挖掘中主要步骤的最新研究进展状况作了详细的阐述和分析,其中包括数据采集、数据预处理、模式发现和模式分析;最后对未来的研究重点进行了展望。
关键词 web挖掘 web使用挖掘 数据预处理 模式发现 模式分析
下载PDF
网络爬虫在Web信息搜索与数据挖掘中应用 被引量:37
14
作者 杨定中 赵刚 王泰 《计算机工程与设计》 CSCD 北大核心 2009年第24期5658-5662,共5页
分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理。分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该... 分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理。分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该爬虫不同于其它爬虫的功能和在Web信息搜索与数据挖掘体系中应用。通过试验测试表明,该爬虫能够很好地获取万维网上的各种信息资源,有助于网络文化内容监测与管理。 展开更多
关键词 web搜索 web挖掘 网络爬虫 体系结构 应用
下载PDF
Web挖掘技术研究 被引量:21
15
作者 张蓉 《计算机工程》 EI CAS CSCD 北大核心 2006年第15期4-6,共3页
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该... 随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。 展开更多
关键词 web挖掘 日志文件 文档聚类 矢量空间模型 关联规则
下载PDF
Web使用挖掘中的一种改进的会话识别方法 被引量:27
16
作者 殷贤亮 张为 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第7期33-35,共3页
针对Web日志挖掘中的会话识别问题,提出了一种改进的基于时间间隔的识别方法.该方法通过使用访问时间间隔超出某个阈值来识别会话.统计结果表明页面的访问时间呈正态分布,改进的方法在此基础之上为页面设置访问时间阈值,并根据页面内容... 针对Web日志挖掘中的会话识别问题,提出了一种改进的基于时间间隔的识别方法.该方法通过使用访问时间间隔超出某个阈值来识别会话.统计结果表明页面的访问时间呈正态分布,改进的方法在此基础之上为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.实验结果表明,相对于传统的对所有用户页面使用单一的先验阈值进行会话识别的方法,该方法能更准确地确定页面访问时间阈值,更为合理有效. 展开更多
关键词 web挖掘 会话 预处理 阈值
下载PDF
数据挖掘在数字图书馆中的应用 被引量:30
17
作者 王艳 《现代图书情报技术》 CSSCI 北大核心 2002年第5期8-10,7,共4页
在描述数据挖掘技术与方法基础之上 ,探讨了数据挖掘在数字图书馆中的应用空间以及其所具有的巨大应用价值。
关键词 数字图书馆 数字挖掘 web挖掘 文本挖掘 信息资源优化建设 自动化信息处理
下载PDF
中文Web文本的特征获取与分类 被引量:24
18
作者 许建潮 胡明 《计算机工程》 EI CAS CSCD 北大核心 2005年第8期24-25,39,共3页
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置、频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法... 已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置、频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量维数方面是有效的。 展开更多
关键词 web挖掘 遗化算法 特征抽取
下载PDF
Web日志挖掘技术进展 被引量:17
19
作者 陈新中 李岩 +2 位作者 杨炳儒 谢永红 张运涛 《系统工程与电子技术》 EI CSCD 北大核心 2003年第4期492-495,共4页
用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方... 用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。概述了Web挖掘的概念、分类及其主要应用领域,详细介绍了Web日志挖掘的主要方法和用户访问模式挖掘算法及国内外最新研究进展。最后提出了Web用户访问信息挖掘研究的发展方向和趋势。 展开更多
关键词 AI 万维网 web挖掘 web日志挖掘
下载PDF
数据挖掘技术及其在图书馆中的应用 被引量:26
20
作者 鲍翠梅 王尊新 白如江 《情报杂志》 CSSCI 北大核心 2004年第9期49-51,共3页
数据挖掘技术是一种新兴的信息处理技术 ,在信息的利用和提取中发挥着日益重要的作用。在论述数据挖掘技术的基础上 。
关键词 数据挖掘技术 图书馆 web挖掘 数据仓库
下载PDF
上一页 1 2 45 下一页 到第
使用帮助 返回顶部