期刊文献+
共找到526篇文章
< 1 2 27 >
每页显示 20 50 100
Web文本挖掘技术研究 被引量:275
1
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本分类 文本聚类 信息检索 web
下载PDF
Web信息检索研究进展 被引量:118
2
作者 王继成 萧嵘 +1 位作者 孙正兴 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2001年第2期187-193,共7页
Web上大量、分布、动态的信息造成了“信息过载”,如何在传统信息检索技术的基础上开展针对 Web的检索工作已经成为一项重要的研究课题 .但是 ,繁多的 Web信息检索系统和各种模糊的概念给用户的选择和研究人员的讨论带来了不便 .同时 ,... Web上大量、分布、动态的信息造成了“信息过载”,如何在传统信息检索技术的基础上开展针对 Web的检索工作已经成为一项重要的研究课题 .但是 ,繁多的 Web信息检索系统和各种模糊的概念给用户的选择和研究人员的讨论带来了不便 .同时 ,有关 Web信息检索最新技术的比较完整的分析又十分缺乏 .在此 ,对 Web信息检索技术进行了综述 ,从 Web信息检索系统的层次化分类 (搜索引擎与目录、元搜索引擎、信息检索 agent)、一般机制和关键新技术 (基于超链的相关度排序、检索结果的联机聚类、基于概念的检索、相关度反馈 )等方面加以阐述 。 展开更多
关键词 web 信息检索 搜索引擎 元搜索引擎 INTERNET
下载PDF
路径聚类:在Web站点中的知识发现 被引量:59
3
作者 王实 高文 +1 位作者 李锦涛 谢辉 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期482-486,共5页
用户对 Web站点的访问代表了用户对 Web站点上页面的访问兴趣 .这种兴趣程度可以通过用户对 Web站点上页面的浏览顺序表现出来 .在对 Web站点的访问日志进行事务识别后 ,可以根据群体用户对 Web站点的访问顺序进行聚类 ,即路径聚类 ,那... 用户对 Web站点的访问代表了用户对 Web站点上页面的访问兴趣 .这种兴趣程度可以通过用户对 Web站点上页面的浏览顺序表现出来 .在对 Web站点的访问日志进行事务识别后 ,可以根据群体用户对 Web站点的访问顺序进行聚类 ,即路径聚类 ,那么最终每一个聚类集就反映出该聚类集中的全体用户具有相似的访问兴趣 .为了得到这种根据用户访问兴趣而对用户集的划分 ,提出了 K- paths路径聚类方法 .在这种方法中 ,根据用户的访问兴趣定义了新的相似性测量手段和聚类中心 。 展开更多
关键词 数据挖掘 web站点 知识发现 路径聚类 WWW INTERNET
下载PDF
一种基于群体智能的Web文档聚类算法 被引量:41
4
作者 吴斌 傅伟鹏 +2 位作者 郑毅 刘少辉 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1429-1435,共7页
将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于... 将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于群体智能的聚类方法进行文档聚类 ,最后从平面上采用递归算法收集聚类结果 .为了改善算法的实用性 ,将原算法与 k均值算法相结合提出一种混合聚类算法 .通过实验比较 ,结果表明基于群体智能的 Web文档聚类算法具有较好的聚类特性 ,它能将与一个主题相关的 Web文档较完全而准确地聚成一类 . 展开更多
关键词 群体智能 web 文档聚类算法 自组织聚类 群体相似度 互联网 信息检索
下载PDF
基于Web-Log Mining的Web文档聚类 被引量:29
5
作者 苏中 马少平 +1 位作者 杨强 张宏江 《软件学报》 EI CSCD 北大核心 2002年第1期99-104,共6页
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(re... 速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN. 展开更多
关键词 数据库 聚类 数据挖掘 web 文档 web-LogMining
下载PDF
基于主题的Web文档聚类研究 被引量:31
6
作者 孙学刚 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第3期21-26,共6页
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚... 网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。 展开更多
关键词 计算机应用 中文信息处理 web文档聚类 OPTICS算法 特征提取 K近邻准则 二次特征提取和聚类的方法
下载PDF
基于Web使用挖掘的个性化服务系统 被引量:20
7
作者 石晶 龚震宇 裘杭萍 《电子科技大学学报》 EI CAS CSCD 北大核心 2002年第4期399-403,共5页
个性化服务系统是一种由多种WEB挖掘技术构成的基于用户使用的站点个性化系统。该系统使用事务聚类、使用聚类和关联规则技术等数据挖掘技术分析用户访问模式,并结合用户当前访问情况提供实时化个性服务。实验结果说明,个性化服务系统... 个性化服务系统是一种由多种WEB挖掘技术构成的基于用户使用的站点个性化系统。该系统使用事务聚类、使用聚类和关联规则技术等数据挖掘技术分析用户访问模式,并结合用户当前访问情况提供实时化个性服务。实验结果说明,个性化服务系统具有较好的性能。 展开更多
关键词 web 个性化服务系统 事务聚类 关联规则 因特网
下载PDF
PCCS部分聚类分类:一种快速的Web文档聚类方法 被引量:23
8
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期415-421,共7页
PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的... PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集 ,将其余的文档使用 Nal¨ve- Bayes分类器进行划分 .为了提高聚类与分类的效率 ,提出了一种混合特征选取方法以减少文档表示的维数 :重新计算文档中各特征的熵 ,从中选取具有最大熵值的前若干个特征 ;或者基于持久分类模型中的特征集来进行特征选取 .实验证明 ,部分聚类方法能够快速、准确地根据文档主题内容组织 Web文档 ,使用户在更高的主题层次上来查看搜索引擎返回的结果 。 展开更多
关键词 聚类 分类 特征选取 文档相似性 PCCS web文档 信息检索
下载PDF
Web挖掘技术研究 被引量:21
9
作者 张蓉 《计算机工程》 EI CAS CSCD 北大核心 2006年第15期4-6,共3页
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该... 随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。 展开更多
关键词 web挖掘 日志文件 文档聚类 矢量空间模型 关联规则
下载PDF
基于Web的文本挖掘研究 被引量:14
10
作者 崔志明 谢春丽 《微电子学与计算机》 CSCD 北大核心 2002年第10期51-53,共3页
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。
关键词 文本挖掘 文本分类 文本聚类 特征提取 web知识发现
下载PDF
基于客户行为模式的Web文档预送 被引量:21
11
作者 朱培栋 nudt.edu.cn +3 位作者 卢锡城 nudt.edu.cn 周兴铭 nudt.edu.cn 《软件学报》 EI CSCD 北大核心 1999年第11期1142-1147,共6页
预送作为主动cache,是cache机制由时间局部性向空间局部性的拓展.文章提出服务器主动预送的两种模式.基于单个URL的模式利用客户请求的马尔可夫链特征获取文档的时序相关模型,可进行多级预送.基于会话的模式包括基于文档属性和会... 预送作为主动cache,是cache机制由时间局部性向空间局部性的拓展.文章提出服务器主动预送的两种模式.基于单个URL的模式利用客户请求的马尔可夫链特征获取文档的时序相关模型,可进行多级预送.基于会话的模式包括基于文档属性和会话整体语义的途径,重点研究基于文档属性的途径,给出基本的聚集算法,探讨了文档兴趣的定量表达,提出反映访问时序的属性向量距离算法.对于预送性能的度量,给出请求命中率、会话命中率、预送效率和预送代价等度量方法,同时,完成大量实验,对客户行为分析的这两种模式进行比较.文章提出的由服务器访问记录提取客户行为模式的方法,不但适用于文档预送,对于服务器站点设计和ISP(internetserviceprovider)的服务规划也有重要价值. 展开更多
关键词 WWW 马中夫链 文档预送 web
下载PDF
一种Web用户行为聚类算法 被引量:20
12
作者 业宁 李威 +1 位作者 梁作鹏 董逸生 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1364-1367,共4页
提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法... 提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法过滤了小于指定阈值的相似度系数 ,大大缩小了数据规模 ,很好地解决了其他聚类算法 (如层次聚类 )在高维空间聚类时的“维数灾难”问题 ,最后的实验结果很好 . 展开更多
关键词 web日志 数据挖掘 聚类 相似度
下载PDF
基于Web的文本挖掘技术研究 被引量:19
13
作者 许高建 《计算机技术与发展》 2007年第6期187-190,共4页
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,... Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 展开更多
关键词 web挖掘 文本挖掘 文本分类 文本聚类
下载PDF
网上Bookmark服务系统及其基于Web挖掘的推荐引擎 被引量:10
14
作者 孟宪福 高晓琳 +1 位作者 王蒴 关迎晖 《小型微型计算机系统》 CSCD 北大核心 2001年第12期1485-1488,共4页
网上 Bookmark服务系统 (Web Bookmark System )可以实现用户随意访问和管理自己的 bookm ark并随时共享系统或他人的优秀 bookmark,而无需受操作系统、浏览器、甚至终端的限制 .其在线推荐引擎基于 Web挖掘 (WebMining)技术 ,将 bookma... 网上 Bookmark服务系统 (Web Bookmark System )可以实现用户随意访问和管理自己的 bookm ark并随时共享系统或他人的优秀 bookmark,而无需受操作系统、浏览器、甚至终端的限制 .其在线推荐引擎基于 Web挖掘 (WebMining)技术 ,将 bookmarks和用户以基于特征项空间的向量形式统一进行管理 ,采用聚类 (clustering) 展开更多
关键词 推荐引擎 聚类 网上书敛服务系统 web 数据挖掘 浏览器 计算机网络
下载PDF
基于模糊概念图的文档聚类及其在Web中的应用 被引量:12
15
作者 陈宁 陈安 +2 位作者 周龙骧 贾维嘉 罗三定 《软件学报》 EI CSCD 北大核心 2002年第8期1598-1605,共8页
随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查询的用户化.首先提出了模糊概念图的模型来描述词语间的关系,然后在聚类过程中引入概念知识,提出了基于... 随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查询的用户化.首先提出了模糊概念图的模型来描述词语间的关系,然后在聚类过程中引入概念知识,提出了基于模糊概念图的文档聚类算法,通过分析用户的浏览行为发现兴趣模式.在上述技术的基础上,给出了一种用户化的智能搜索系统的实现策略,通过分析概念间的关系和用户的兴趣模式,评价超链/文档和查询的相关程度,从而帮助用户得到更准确的信息. 展开更多
关键词 模糊概念图 文档聚类 web 计算机网络 兴趣模式 用户化智能搜索
下载PDF
基于多重关系主题模型的Web服务聚类方法 被引量:19
16
作者 石敏 刘建勋 +2 位作者 周栋 曹步清 文一凭 《计算机学报》 EI CSCD 北大核心 2019年第4期820-836,共17页
如何有效地发现合适的Web服务是面向服务计算领域需要解决的核心问题之一.随着Internet上Web服务数量的不断增加,服务的自动发现面临着极大的挑战.将功能相似的Web服务进行聚类是一种有效的服务发现与服务管理方法.目前国内外主流的方... 如何有效地发现合适的Web服务是面向服务计算领域需要解决的核心问题之一.随着Internet上Web服务数量的不断增加,服务的自动发现面临着极大的挑战.将功能相似的Web服务进行聚类是一种有效的服务发现与服务管理方法.目前国内外主流的方法为挖掘Web服务的隐含功能语义信息,如使用LDA主题模型训练提取Web服务功能描述文档的主题信息,然后基于某种聚类算法如K-means将隐含主题分布相似的Web服务聚为一类.然而,Web服务的功能描述文档通常短小,目前大部分主题模型无法对短文本进行良好地建模,从而影响了Web服务聚类的效果.针对该问题,文中提出了一种考虑多重Web服务关系的概率主题模型MR-LDA,其可对Web服务之间相互组合的关系以及Web服务之间共享标签的关系进行建模,能有效提高Web服务聚类的精度.同时,基于该MR-LDA主题模型进一步提出了一种有效的Web服务聚类算法MR-LDA+,该算法首先利用上述多重Web服务关系信息对Web服务隐含主题分布概率矩阵进行修正,然后根据这些隐含主题对Web服务进行聚类.基于ProgrammableWeb收集的真实数据实验表明,文中所提出的方法明显优于其它Web服务聚类算法. 展开更多
关键词 web服务 聚类 多重关系网络 先验知识 主题模型
下载PDF
数据挖掘专利综述 被引量:8
17
作者 刘晓东 刘大有 《电子学报》 EI CAS CSCD 北大核心 2003年第z1期1989-1993,共5页
尽管科学研究专利是反映科学研究成果的一个重要方面 ,专利申请本身是一项重要的科学研究工作 ,但是长期以来 ,专利所包含的科学研究成果在文献中却没有得到充分的反映 .由此 ,对著名的美国专利和商标委员会数据库 (USPATENT&TRADEM... 尽管科学研究专利是反映科学研究成果的一个重要方面 ,专利申请本身是一项重要的科学研究工作 ,但是长期以来 ,专利所包含的科学研究成果在文献中却没有得到充分的反映 .由此 ,对著名的美国专利和商标委员会数据库 (USPATENT&TRADEMARKOFFICEDATABASE)中数据挖掘专利的授权情况进行了分析 .对于专利授权比较集中的领域—关联规则、互联网挖掘、聚类算法和并行数据挖掘等方面中的代表性专利进行了总结和分析 .最后 。 展开更多
关键词 数据挖掘 专利 关联规则 互联网挖掘 聚类算法 并行数据挖掘
下载PDF
基于新型的竞争型神经网络的Web日志挖掘 被引量:4
18
作者 董一鸿 庄越挺 《计算机研究与发展》 EI CSCD 北大核心 2003年第5期661-667,共7页
提出了一种基于竞争的自激励神经网络学习算法SIN ,该算法综合了自适应谐振理论和竞争型神经网络的特点 ,并在隐含层采用了Hebb学习规则 ,既能保证原有记忆不受影响 ,又能对新的信息加以记忆 ,同时又克服了ART网络对噪音敏感的缺点 ,学... 提出了一种基于竞争的自激励神经网络学习算法SIN ,该算法综合了自适应谐振理论和竞争型神经网络的特点 ,并在隐含层采用了Hebb学习规则 ,既能保证原有记忆不受影响 ,又能对新的信息加以记忆 ,同时又克服了ART网络对噪音敏感的缺点 ,学习速度快 ,分类性能好 ,具有在线学习的功能 将该算法应用于Web日志挖掘能够有效地剔除噪音 ,得到很好的用户聚类和页面聚类的结果 。 展开更多
关键词 神经网络 聚类 web挖掘 无指导学习
下载PDF
基于WEB文本数据挖掘的研究 被引量:10
19
作者 刘晓鹏 邢长征 《计算机与数字工程》 2005年第9期75-79,共5页
万维网是一个巨大的、分布广泛和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别... 万维网是一个巨大的、分布广泛和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程。 展开更多
关键词 web挖掘 文本挖掘 特征提取 关联 文本分类 文本聚类
下载PDF
一种基于后缀树的中文网页层次聚类方法 被引量:11
20
作者 史庆伟 赵政 朝柯 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。... 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 展开更多
关键词 web挖掘 层次聚类 web搜索 后缀树
下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部