期刊文献+
共找到476篇文章
< 1 2 24 >
每页显示 20 50 100
用Naive Bayes方法协调分类Web网页 被引量:53
1
作者 范焱 郑诚 +2 位作者 王清毅 蔡庆生 刘洁 《软件学报》 EI CSCD 北大核心 2001年第9期1386-1392,共7页
WWW上的信息极大丰富 ,如何从巨量的信息中有效地发现有用的信息 ,是亟待解决的问题 ,而 Web网页的正确分类正是其中的核心问题 .针对超文本结构中的结构特征 ,提出了用 Naive Bayes方法协调分别利用超文本页面中的文本信息和结构信息... WWW上的信息极大丰富 ,如何从巨量的信息中有效地发现有用的信息 ,是亟待解决的问题 ,而 Web网页的正确分类正是其中的核心问题 .针对超文本结构中的结构特征 ,提出了用 Naive Bayes方法协调分别利用超文本页面中的文本信息和结构信息进行分类的方法 .经实验验证 ,与只用单种方法对超文本进行分类的方法相比 ,综合分类法有效地提高了分类的正确率 . 展开更多
关键词 超文本 web 机器学习 互联网 数据挖掘 信息检索 WWW 网页 NaiveBayes方法
下载PDF
基于网页上下文的Deep Web数据库分类 被引量:31
2
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 DEEP web 隐式web 数据库分类 内容文本抽取 语义分类
下载PDF
基于决策支持向量机的中文网页分类器 被引量:19
3
作者 贺海军 王建芬 +1 位作者 周青 曹元大 《计算机工程》 CAS CSCD 北大核心 2003年第2期47-48,共2页
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减... 提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 决策 支持向量机 中文网页分类器 决策树 统计学习理论
下载PDF
基于知识库的网页自动标引和自动分类系统的设计 被引量:38
4
作者 侯汉清 薛鹏军 《大学图书馆学报》 CSSCI 北大核心 2004年第1期50-55,64,共7页
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库... 针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 展开更多
关键词 知识库 网页标引 自动标引 自动分类系统 概念语义网络
下载PDF
PCCS部分聚类分类:一种快速的Web文档聚类方法 被引量:23
5
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期415-421,共7页
PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的... PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集 ,将其余的文档使用 Nal¨ve- Bayes分类器进行划分 .为了提高聚类与分类的效率 ,提出了一种混合特征选取方法以减少文档表示的维数 :重新计算文档中各特征的熵 ,从中选取具有最大熵值的前若干个特征 ;或者基于持久分类模型中的特征集来进行特征选取 .实验证明 ,部分聚类方法能够快速、准确地根据文档主题内容组织 Web文档 ,使用户在更高的主题层次上来查看搜索引擎返回的结果 。 展开更多
关键词 聚类 分类 特征选取 文档相似性 PCCS web文档 信息检索
下载PDF
Web文本情感分类研究综述 被引量:31
6
作者 王洪伟 刘勰 +1 位作者 尹裴 廖雅国 《情报学报》 CSSCI 北大核心 2010年第5期931-938,共8页
对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其... 对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 展开更多
关键词 web文本 情感分类 综述 主观性文本
下载PDF
一种基于粗糙集的网页分类方法 被引量:19
7
作者 李滔 王俊普 徐杨 《小型微型计算机系统》 CSCD 北大核心 2003年第3期520-522,共3页
Internet的迅速发展带来了一个新的问题 ,如何有效、迅速地从浩瀚的 Web网页中找到所需要的信息 .机器学习的发展给这个问题的解决提供了一个新的方向 .本文将粗糙集理论应用于网页分类 ,提出了一种基于粗糙集的决策表约简的增量式学习... Internet的迅速发展带来了一个新的问题 ,如何有效、迅速地从浩瀚的 Web网页中找到所需要的信息 .机器学习的发展给这个问题的解决提供了一个新的方向 .本文将粗糙集理论应用于网页分类 ,提出了一种基于粗糙集的决策表约简的增量式学习算法 ,并利用该算法实现了一个 Web网页的分类器 。 展开更多
关键词 粗糙集 网页分类方法 决策表约简 增量式学习 web INTERNET
下载PDF
基于共被引率分析的期刊分类研究 被引量:25
8
作者 王贤文 刘则渊 《科研管理》 CSSCI 北大核心 2009年第5期187-195,共9页
本文利用Web of Science中的Cited Reference Search功能,在整个数据库中检索期刊的共被引次数矩阵,可以最大程度地保持数据的完整性。根据本文提出的计算期刊共被引率矩阵的方法,通过将期刊的共被引情况标准化,可以减少数据误差。随后... 本文利用Web of Science中的Cited Reference Search功能,在整个数据库中检索期刊的共被引次数矩阵,可以最大程度地保持数据的完整性。根据本文提出的计算期刊共被引率矩阵的方法,通过将期刊的共被引情况标准化,可以减少数据误差。随后作者从JCR的4个学科中随机选择若干种期刊,对该方法进行了实证检验,聚类的结果与JCR中的期刊学科分类完全一致。作者进一步以SSCI收录的78种管理学期刊为研究对象,检索和计算期刊共被引率矩阵,利用社会网络分析工具Netdraw进行网络结构的分析,研究管理学学科的内部知识结构和知识交流情况。 展开更多
关键词 web of SCIENCE 共被引率 期刊分类 管理学 社会网络分析
原文传递
面向网络论坛的高质量主题发现 被引量:25
9
作者 陈友 程学旗 杨森 《软件学报》 EI CSCD 北大核心 2011年第8期1785-1804,共20页
提出了一种通用的高质量主题发现框架.在该框架下,利用特征抽取技术提取内容特征,利用结构特征去发现高质量主题.提出了一种基于遗传算法、禁忌搜索与机器学习的特征选择算法,用来评价被抽取特征的重要性.在腾讯论坛数据集上进行了大量... 提出了一种通用的高质量主题发现框架.在该框架下,利用特征抽取技术提取内容特征,利用结构特征去发现高质量主题.提出了一种基于遗传算法、禁忌搜索与机器学习的特征选择算法,用来评价被抽取特征的重要性.在腾讯论坛数据集上进行了大量的实验.实验结果表明,该框架能够很好地发现高质量主题.提出的特征抽取算法、特征选择算法以及高质量主题发现框架能够在很多Web2.0领域得到应用,例如,博客、社会网络平台等. 展开更多
关键词 网络论坛 高质量 特征选择 特征抽取 分类
下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
10
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
下载PDF
基于情感特征聚类的半监督情感分类 被引量:23
11
作者 李素科 蒋严冰 《计算机研究与发展》 EI CSCD 北大核心 2013年第12期2570-2577,共8页
情感分类是观点挖掘的一个重要的方面.提出了一种基于情感特征聚类的半监督式情感分类方法,该方法只需要对少量训练数据实例进行情感类别标注.首先从消费者评论中提取普通分类特征和情感特征,普通分类特征可以用来训练一个情感分类器.... 情感分类是观点挖掘的一个重要的方面.提出了一种基于情感特征聚类的半监督式情感分类方法,该方法只需要对少量训练数据实例进行情感类别标注.首先从消费者评论中提取普通分类特征和情感特征,普通分类特征可以用来训练一个情感分类器.然后使用spectral聚类算法把这些情感特征映射成扩展特征.普通分类特征和扩展特征一起通过训练得到另一个情感分类器.2个分类器再从未标签数据集中选择实例放入到训练集合中,并通过训练得到最终的情感分类器.实验结果表明,在同样的数据集上该方法的情感分类准确度比基于self-learning SVM的方法和基于co-training SVM的方法的情感分类准确度要高. 展开更多
关键词 半监督式学习 情感特征聚类 情感分类 观点挖掘 web挖掘 数据挖掘
下载PDF
基于支持向量机的Web文本分类方法 被引量:19
12
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《微电子学与计算机》 CSCD 北大核心 2006年第9期102-104,共3页
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结... Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 展开更多
关键词 支持向量机 特征提取 web文本 文本分类
下载PDF
基于查询接口特征的Deep Web数据源自动分类 被引量:11
13
作者 赵朋朋 高岭 崔志明 《微电子学与计算机》 CSCD 北大核心 2006年第10期47-50,共4页
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这... 搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的DeepWeb数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模DeepWeb集成搜索的一个关键步骤。提出了一种基于查询接口特征的DeepWeb数据源自动分类方法,并通过实验验证该方法是非常有效的。 展开更多
关键词 DEEP web 自动分类 机器学习 数据集成
下载PDF
基于用户贡献的UGC群体分类及其激励因素探讨 被引量:18
14
作者 赵宇翔 朱庆华 +2 位作者 吴克文 梦非 郑华 《情报学报》 CSSCI 北大核心 2011年第10期1095-1107,共13页
UGC是Web2.0环境下一种新兴的网络信息资源创作与组织模式,其激励因素分析和激励机制设计对于Web2.0可持续发展至关重要。在综述在线用户分类研究以及UGC动因和激励因素研究现状的基础上,从不同类型和粒度的社会化媒体平台中采集UG... UGC是Web2.0环境下一种新兴的网络信息资源创作与组织模式,其激励因素分析和激励机制设计对于Web2.0可持续发展至关重要。在综述在线用户分类研究以及UGC动因和激励因素研究现状的基础上,从不同类型和粒度的社会化媒体平台中采集UGC的用户ID和贡献内容数量进行分析,从而构建基于用户贡献度的用户群体分类框架,包括潜水者、普通参与者、活跃参与者以及核心贡献者四个群体;并在此基础上,参考赫兹伯格的双因素理论,通过调研和访谈的方法针对四个不同的用户群体挖掘其在线UGC的保健因素和激励因素,并探讨其相关的激励策略,提出相应的建议。 展开更多
关键词 UGC web 2.0 用户分类 动因研究 激励机制
下载PDF
基于支持向量机的中文网页自动分类 被引量:12
15
作者 贾泂 梁久祯 《计算机工程》 EI CAS CSCD 北大核心 2005年第10期145-147,共3页
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向量机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。
关键词 支持向量机 统计学习 优化 网页 文本分类
下载PDF
基于WEB文本数据挖掘的研究 被引量:10
16
作者 刘晓鹏 邢长征 《计算机与数字工程》 2005年第9期75-79,共5页
万维网是一个巨大的、分布广泛和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别... 万维网是一个巨大的、分布广泛和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程。 展开更多
关键词 web挖掘 文本挖掘 特征提取 关联 文本分类 文本聚类
下载PDF
基于潜在语义标引的WEB文档自动分类 被引量:9
17
作者 戚涌 徐永红 刘凤玉 《计算机工程与应用》 CSCD 北大核心 2004年第22期28-31,共4页
Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若... Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若干簇;对得到的每簇鉴别特征再利用最佳鉴别变换进行压缩和特征抽取,并用最终得到的特征矢量进行分类。该方法克服了样本高维效应,有效提高分类准确率,降低计算量。实验结果验证所提方法的有效性。 展开更多
关键词 web挖掘 潜在语义标引 最佳鉴别变换 分类
下载PDF
Web数据挖掘研究 被引量:11
18
作者 程军锋 《重庆三峡学院学报》 2013年第3期43-45,共3页
随着计算机网络的快速发展,Web数据量呈快速增长,在海量的Web数据中发现有价值的数据和知识,是数据挖掘技术的重要应用.分析和研究Web数据挖掘的内容和过程,介绍Web数据挖掘的算法十分必要.
关键词 web 数据挖掘 分类 聚类 关联规则
下载PDF
基于贝叶斯分类的Web服务质量预测方法研究 被引量:10
19
作者 任迪 万健 +2 位作者 殷昱煜 周丽 高敏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2017年第6期1242-1251,共10页
针对网络环境不稳定导致Web服务质量(QoS)数据中存在噪声数据,进而降低Web服务质量预测精度的问题,提出一种基于贝叶斯分类的混合协同过滤Web服务质量值预测方法.该方法使用贝叶斯算法对Web服务质量数据进行分类并得到每个分类的概率,... 针对网络环境不稳定导致Web服务质量(QoS)数据中存在噪声数据,进而降低Web服务质量预测精度的问题,提出一种基于贝叶斯分类的混合协同过滤Web服务质量值预测方法.该方法使用贝叶斯算法对Web服务质量数据进行分类并得到每个分类的概率,利用分类结果确定缺失值可能的取值范围,并对用户和服务的相似邻居进行过滤.通过引入分类概率,改进传统的协同过滤方法得到最终的缺失值预测结果,在一定程度上消除了噪声数据对Web服务质量预测的影响.实验结果表明:较之现有方法,该方法具有更好的预测精度. 展开更多
关键词 web服务 服务质量(QoS)预测 协同过滤 贝叶斯分类 服务推荐
下载PDF
基于逻辑斯蒂回归的恶意请求分类识别模型 被引量:10
20
作者 陈春玲 吴凡 余瀚 《计算机技术与发展》 2019年第2期124-128,共5页
为了解决针对Web应用层的攻击,有效分类识别恶意请求,深入研究有监督的学习方法,针对请求文本内容不足、特征稀疏的缺陷,提出了一种基于非重复多N-Gram的TF-IDF分词策略和逻辑斯蒂回归方法构建的恶意请求分类模型。通过从Secrepo安全数... 为了解决针对Web应用层的攻击,有效分类识别恶意请求,深入研究有监督的学习方法,针对请求文本内容不足、特征稀疏的缺陷,提出了一种基于非重复多N-Gram的TF-IDF分词策略和逻辑斯蒂回归方法构建的恶意请求分类模型。通过从Secrepo安全数据样本库等来源采集到的大量样本数据进行特征提取后对模型进行训练,以最大似然估计作为模型的优化目标,利用梯度下降的方法得到最优分类模型,并在测试集上验证模型的可靠性。实验结果表明,短文本、低语义的请求内容通过字母形式在多N-Gram的分词下构造的分类模型,相对于单词和单倍N-Gram分词的分类模型具有较高的分类准确率和得分,并且训练模型所耗时间相差不大。该方法训练出的最终模型在测试集上的准确率、召回率和F1值都达到了99%以上。 展开更多
关键词 web请求 逻辑斯蒂回归 最大似然估计 TF-IDF 分类模型
下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部