期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
一种改进的文本网页分类特征选择方法 被引量:8
1
作者 李粤 李星 +1 位作者 刘辉 许静芳 《计算机应用》 CSCD 北大核心 2004年第7期119-121,共3页
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本... 网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本网页数据集分类实验中 ,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针” 展开更多
关键词 文本网页分类 特征选择 X^2统计量 互信息量 联合特征选择
下载PDF
基于DF和CHI的联合特征提取方法及其应用 被引量:9
2
作者 李玉鑑 周兰珍 操卫平 《北京工业大学学报》 EI CAS CSCD 北大核心 2008年第9期995-1000,共6页
分析了与类别信息有关的CHI统计特征选取方法和与类别无关的文档频率特征选取方法,在此基础上提出文档频率与CHI统计相结合的特征提取方法,以选取分类能力强的词项特征,从而提高网页分类效果.以该联合特征提取方法为基础构建的网页分类... 分析了与类别信息有关的CHI统计特征选取方法和与类别无关的文档频率特征选取方法,在此基础上提出文档频率与CHI统计相结合的特征提取方法,以选取分类能力强的词项特征,从而提高网页分类效果.以该联合特征提取方法为基础构建的网页分类系统,在参加SEWM2007分类评测的8个代表队中,取得Macro-F1值排名第3的成绩. 展开更多
关键词 文档频率 CHI统计 联合特征选取 网页分类
下载PDF
Research of Web Pages Categorization
3
作者 Zhongda Lin Kun Deng Yanfen Hong 《南昌工程学院学报》 CAS 2006年第2期107-111,共5页
In this paper, we discuss several issues related to automated classification of web pages, especially text classification of web pages. We analyze features selection and categorization algorithms of web pages and give... In this paper, we discuss several issues related to automated classification of web pages, especially text classification of web pages. We analyze features selection and categorization algorithms of web pages and give some suggestions for web pages categorization. 展开更多
关键词 web pages categorization VSM categorization algorithms feature selection
下载PDF
一种基于领域本体的网页分类策略
4
作者 张易 程林生 《现代计算机》 2007年第12期74-76,95,共4页
提出一种基于领域本体的网页分类策略(ODBCS4WP)。该策略采用本体描述语言和Web服务技术构建合适的领域本体库,把用户的分类精度要求映射为本体库中的语义相似距离,并确定分类概念;结合网页主题对该领域中的网页进行分类。实验表明,该... 提出一种基于领域本体的网页分类策略(ODBCS4WP)。该策略采用本体描述语言和Web服务技术构建合适的领域本体库,把用户的分类精度要求映射为本体库中的语义相似距离,并确定分类概念;结合网页主题对该领域中的网页进行分类。实验表明,该策略具有良好的分类效果。 展开更多
关键词 web服务 本体 网页分类
下载PDF
支持向量机和蚁群算法的网页分类研究 被引量:6
5
作者 宋军涛 周铜 杜庆灵 《计算机工程与应用》 CSCD 北大核心 2009年第17期122-124,共3页
网页分类技术是Web数据挖掘的基础与核心,是基于自然语言处理技术和机器学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,提出了一种基于支持向量机和蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方... 网页分类技术是Web数据挖掘的基础与核心,是基于自然语言处理技术和机器学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,提出了一种基于支持向量机和蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召回率。 展开更多
关键词 网页分类 蚁群算法 支持向量机 召回率 准确率
下载PDF
基于体裁的中文网页分类的特征选取 被引量:4
6
作者 黄臻臻 吴扬扬 《计算机工程与设计》 CSCD 北大核心 2007年第11期2743-2745,共3页
探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的... 探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式。此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征。实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善。 展开更多
关键词 网页分类 体裁 特征选取 序列挖掘 模糊字符串模式
下载PDF
一个网页自动分类系统的设计 被引量:2
7
作者 谭立球 谷士文 费耀平 《计算技术与自动化》 2002年第1期58-61,共4页
本文介绍了设计的一个网页自动分类系统。介绍了预处理 ,批量训练 ,特征选择 ,在线测试和重归档等模块的设计过程。系统采用有指导的学习方法 ,选取 Naive Bayes作分类模型和信息增益作为特征提取方法。测试结果表明 。
关键词 简单贝叶斯 信息增益 监督学习 网页自动分类系统 设计 INTERNET 计算机网络
下载PDF
中文网页体裁分类特征项的权值调整策略 被引量:3
8
作者 黄臻臻 吴扬扬 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期173-177,共5页
研究了中文网页体裁分类的特征项选取问题及权重计算方法,探讨不同特征空间对体裁类别的判别能力问题,给出了一种评价方法。据此,提出一种特征项的权值调整策略,实验结果验证了该方法的有效性。
关键词 网页分类 体裁 特征选取 权值调整
下载PDF
组合降维技术在中文网页分类中的应用 被引量:3
9
作者 李新福 《计算机工程与应用》 CSCD 北大核心 2007年第24期169-171,共3页
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理... 基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。 展开更多
关键词 网页分类隐含语义分析特征选择KNN
下载PDF
结合中文网页自动分类系统的AIP平台
10
作者 王冠 裘正定 《微机发展》 2005年第3期136-138,141,共4页
AIP(AlldayInformationPursue)平台,即全天候信息跟踪平台,作为关注多方面消息的企业或团体查看Internet上新信息的一种解决方案,弥补了搜索引擎一些方面的不足。它能够从Internet上获取每日的新信息,利用网页自动分类去除不相关文章。... AIP(AlldayInformationPursue)平台,即全天候信息跟踪平台,作为关注多方面消息的企业或团体查看Internet上新信息的一种解决方案,弥补了搜索引擎一些方面的不足。它能够从Internet上获取每日的新信息,利用网页自动分类去除不相关文章。通过此平台,用户可以按时间、按类别来查看信息,也可以对文章加以标注推荐给别人阅读。 展开更多
关键词 文本分类 网页分类 网页表示 信息查询
下载PDF
基于改进蚁群算法和支持向量机的网页分类研究 被引量:2
11
作者 宋军涛 杜庆灵 《电脑知识与技术》 2009年第12Z期10069-10071,10074,共4页
网页分类技术是web数据挖掘的一个重要分支,是基于自然语言处理技术和机器学习学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,该文提出了一种基于支持向量机和改进蚁群算法相结合的构造网页分类器的高效分类方法,实验... 网页分类技术是web数据挖掘的一个重要分支,是基于自然语言处理技术和机器学习学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,该文提出了一种基于支持向量机和改进蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召唤率。 展开更多
关键词 改进蚁群算法 网页分类 支持向量机 贡献函数
下载PDF
基于有限状态机的URL解析
12
作者 韩培培 付博 《微处理机》 2010年第5期68-70,共3页
在网页分类的过程中,鉴于存储查询过程中的URL规范化需求,提出一种基于有限状态机的URL解析方法,并进行了详细的分析设计,解决了现存URL解析方法效率低、资源消耗大的缺点,提高了解析的效率和容错性能。
关键词 URL解析 有限状态机 网页分类
下载PDF
网络信息审计系统中的实时网页分类方法
13
作者 廖明涛 张德运 +1 位作者 侯琳 李金库 《西安交通大学学报》 EI CAS CSCD 北大核心 2006年第12期1393-1396,共4页
为了实现网络信息审计系统中的实时网页分类,提出了一种基于Dempster-Shafer证据理论的分类新方法.其基本思路是:不进行IP分片包重组,直接将网页地址特征和分片数据包作为分类的证据,计算各个证据对类的支持度,然后利用Dempster证据组... 为了实现网络信息审计系统中的实时网页分类,提出了一种基于Dempster-Shafer证据理论的分类新方法.其基本思路是:不进行IP分片包重组,直接将网页地址特征和分片数据包作为分类的证据,计算各个证据对类的支持度,然后利用Dempster证据组合规则将各种证据提供的信息进行不断地在线融合判决,并最终给出网页的分类结果.当已有证据可以对网页进行有效分类时,对后续数据包不再做进一步处理.实验结果表明,所提方法的查准率大于83%,查全率大于90%,在分类性能和运行时间上均优于已有的基于分片的模糊K最近邻分类算法. 展开更多
关键词 网络信息审计 网页分类 证据理论
下载PDF
一种中文网页自动分类方法的实现及应用 被引量:15
14
作者 冯是聪 张志刚 李晓明 《计算机工程》 CAS CSCD 北大核心 2004年第5期19-20,108,共3页
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动... 为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。 展开更多
关键词 机器学习 中文网页分类 特征选取 目录导航
下载PDF
关于“中文网页自动分类竞赛”结果的分析 被引量:6
15
作者 冯是聪 王继民 《中文信息学报》 CSCD 北大核心 2003年第5期34-40,共7页
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前... 在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。 展开更多
关键词 计算机应用 中文信息处理 机器学习 中文网页自动分类 TREC评测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部