期刊文献+
共找到2,652篇文章
< 1 2 133 >
每页显示 20 50 100
文档中词语权重计算方法的改进 被引量:120
1
作者 鲁松 李晓黎 +1 位作者 白硕 王实 《中文信息学报》 CSCD 北大核心 2000年第6期8-13,20,共7页
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例... 文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一 ,但现在tf.idf方法无法把握这一因素。针对这个问题 ,本文引入信息论中信息增益的概念 ,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子 ,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中 ,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法 ,验证了改进方法tf.idf.IG的有效性和可行性。 展开更多
关键词 文本表示 向量空间模型 词语分布比例 信息增益
下载PDF
基于支持向量机与无监督聚类相结合的中文网页分类器 被引量:108
2
作者 李晓黎 刘继敏 史忠植 《计算机学报》 EI CSCD 北大核心 2001年第1期62-68,共7页
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比... 提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 . 展开更多
关键词 支持向量机 无监督聚类 中文网页分类器 INTERNET 机器学习
下载PDF
基于内容的垃圾邮件过滤技术综述 被引量:129
3
作者 王斌 潘文锋 《中文信息学报》 CSCD 北大核心 2005年第5期1-10,共10页
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评... 垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。 展开更多
关键词 计算机应用 中文信息处理 综述 垃圾邮件 反垃圾邮件 信息过滤 文本分类
下载PDF
使用最大熵模型进行中文文本分类 被引量:95
4
作者 李荣陆 王建会 +2 位作者 陈晓云 陶晓鹏 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期94-101,共8页
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵... 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法. 展开更多
关键词 文本分类 最大熵模型 特征 N-GRAM
下载PDF
一种基于向量空间模型的多层次文本分类方法 被引量:75
5
作者 刘少辉 董明楷 +2 位作者 张海俊 李蓉 史忠植 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提... 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 展开更多
关键词 多层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类
下载PDF
基于密度的kNN文本分类器训练样本裁剪方法 被引量:98
6
作者 李荣陆 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期539-545,共7页
随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN... 随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN方法存在的这两个问题 ,提出了一种基于密度的kNN分类器训练样本裁剪方法 ,这种方法不仅降低了kNN方法的计算量 ,而且使训练样本的分布密度趋于均匀 ,减少了边界点处测试样本的误判 实验结果显示 。 展开更多
关键词 文本分类 KNN 快速分类
下载PDF
基于Word2Vec的一种文档向量表示 被引量:142
7
作者 唐明 朱磊 邹显春 《计算机科学》 CSCD 北大核心 2016年第6期214-217,269,共5页
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF... 在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。 展开更多
关键词 TF-IDF word2vec doc2vec 文本分类
下载PDF
基于文本分类TFIDF方法的改进与应用 被引量:120
8
作者 张玉芳 彭时名 吕佳 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期76-78,共3页
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TF... TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。 展开更多
关键词 文本分类 特征选择 TFIDF 类别区分
下载PDF
概念推理网及其在文本分类中的应用 被引量:57
9
作者 李晓黎 刘继敏 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1032-1038,共7页
在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类... 在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类的文档可以激活相应的网络 ,同时传播推理以决定其类别的归属 ,试验表明 :该方法具有较高的分类正确率与召回率 . 展开更多
关键词 文本分类 向量空间模型 概念推理网 机器学习
下载PDF
交互支持向量机学习算法及其应用 被引量:41
10
作者 卢增祥 李衍达 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第7期93-97,共5页
交互支持向量机学习算法能解决一些监督学习问题中学习样本较少的问题,它以支持向量机( S V M )方法为基础,将设计分类器变成一个交互的过程,即: 根据对已知样本进行的 S V M 分类器设计,主动采样选择“有用”的新样本,... 交互支持向量机学习算法能解决一些监督学习问题中学习样本较少的问题,它以支持向量机( S V M )方法为基础,将设计分类器变成一个交互的过程,即: 根据对已知样本进行的 S V M 分类器设计,主动采样选择“有用”的新样本,并进行下一步 S V M 分类器的设计。与普通 S V M 法相比,该方法所需的样本量大大降低,而且可能达到更好的推广能力。文本信息过滤问题的实例说明了该算法的有效性。 展开更多
关键词 交互支持向量机 学习算法 主动学习 监督学习
原文传递
基于Labeled-LDA模型的文本分类新算法 被引量:103
11
作者 李文波 孙乐 张大鲲 《计算机学报》 EI CSCD 北大核心 2008年第4期620-627,共8页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%. 展开更多
关键词 文本分类 图模型 隐含狄利克雷分配 变分推断
下载PDF
文本分类TF-IDF算法的改进研究 被引量:107
12
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-逆文档频率(TF-IDF) 向量空间模型 文本分类
下载PDF
一种文本处理中的朴素贝叶斯分类器 被引量:75
13
作者 李静梅 孙丽华 +1 位作者 张巧荣 张春生 《哈尔滨工程大学学报》 EI CAS CSCD 2003年第1期71-74,共4页
首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题.然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器... 首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题.然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器的应用,提高了朴素贝叶斯分类器的分类精度.文章最后给出一组实验数据.本文的研究发现,朴素贝叶斯分类器分类精度较高,并且不存在单分类器与多分类器的实现差异,是一个比较实用的分类器. 展开更多
关键词 朴素贝叶斯分类器 特征独立 文本分类 文本处理
下载PDF
基于TF-IDF和余弦相似度的文本分类方法 被引量:92
14
作者 武永亮 赵书良 +2 位作者 李长镜 魏娜娣 王子晏 《中文信息学报》 CSCD 北大核心 2017年第5期138-145,共8页
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习... 文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。 展开更多
关键词 文本分类 大数据 TF-IDF 余弦相似度 类别关键词
下载PDF
文本自动分类中特征权重算法的改进研究 被引量:56
15
作者 徐凤亚 罗振声 《计算机工程与应用》 CSCD 北大核心 2005年第1期181-184,220,共5页
文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础... 文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。 展开更多
关键词 特征项 权重算法 分布信息 低频高权特征 文本分类
下载PDF
支持向量机(SVM)主动学习方法研究与应用 被引量:51
16
作者 张健沛 徐华 《计算机应用》 CSCD 北大核心 2004年第1期1-3,共3页
文中介绍了一种用SVM进行主动学习的方法 ,解决在某些机器学习问题中 ,训练样本获取代价过大带来的问题。实验表明 ,该方法与普通SVM方法相比 ,在保证SVM分类器性能的前提下 ,可有效减少学习所需的样本数量。最后设计了一个基于该思想... 文中介绍了一种用SVM进行主动学习的方法 ,解决在某些机器学习问题中 ,训练样本获取代价过大带来的问题。实验表明 ,该方法与普通SVM方法相比 ,在保证SVM分类器性能的前提下 ,可有效减少学习所需的样本数量。最后设计了一个基于该思想的邮件过滤器模型 ,依据该模型设计的邮件过滤器将有实时监控、自动更新邮件过滤模块的能力。 展开更多
关键词 支持向量机 主动学习 文本分类 邮件过滤
下载PDF
基于聚类改进的KNN文本分类算法 被引量:68
17
作者 周庆平 谭长庚 +1 位作者 王宏君 湛淼湘 《计算机应用研究》 CSCD 北大核心 2016年第11期3374-3377,3382,共5页
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文... 传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进χ~2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。 展开更多
关键词 文本分类 KNN 聚类化 训练集
下载PDF
一种改进的kNN方法及其在文本分类中的应用 被引量:36
18
作者 孙丽华 张积东 李静梅 《应用科技》 CAS 2002年第2期25-27,共3页
介绍了基于kNN的文本分类方法 ,分析了kNN方法实质 ,指出了该方法的不足 ,然后提出了一种改进方法。改进方法是基于文本属性关联和概念共现等基础上提出来的。它实质上是强化了文本中语义链属性因子的作用 ,修正了次要因素的噪声影响 ,... 介绍了基于kNN的文本分类方法 ,分析了kNN方法实质 ,指出了该方法的不足 ,然后提出了一种改进方法。改进方法是基于文本属性关联和概念共现等基础上提出来的。它实质上是强化了文本中语义链属性因子的作用 ,修正了次要因素的噪声影响 ,使文本分类结果更加理想 ,已有的测试结果证明了这一点 ,尤其在测试文本与训练文本集中的某些文本直观上较相似时 。 展开更多
关键词 属性关联 改进KNN 文本分类
下载PDF
基于随机森林的文本分类模型研究 被引量:58
19
作者 张华伟 王明文 甘丽新 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期5-9,共5页
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reute... 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5,KNN,SM0,SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN,SMO和SVM方法相当. 展开更多
关键词 文本分类 随机森林 决策树 泛化误差
下载PDF
基于标签语义注意力的多标签文本分类 被引量:57
20
作者 肖琳 陈博理 +3 位作者 黄鑫 刘华锋 景丽萍 于剑 《软件学报》 EI CSCD 北大核心 2020年第4期1079-1089,共11页
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是... 自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法. 展开更多
关键词 多标签学习 文本分类 标签语义 注意力机制
下载PDF
上一页 1 2 133 下一页 到第
使用帮助 返回顶部