期刊文献+
共找到118篇文章
< 1 2 6 >
每页显示 20 50 100
基于内容的垃圾邮件过滤技术综述 被引量:129
1
作者 王斌 潘文锋 《中文信息学报》 CSCD 北大核心 2005年第5期1-10,共10页
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评... 垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。 展开更多
关键词 计算机应用 中文信息处理 综述 垃圾邮件 反垃圾邮件 信息过滤 文本分类
下载PDF
应用特征聚合进行中文文本分类的改进KNN算法 被引量:60
2
作者 张晓辉 李莹 +1 位作者 王华勇 赵宏 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第3期229-232,共4页
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传... 针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 。 展开更多
关键词 改进KNN算法 中文文本分类 分类贡献模式 特征聚合
下载PDF
基于向量空间模型的文本分类系统的研究与实现 被引量:43
3
作者 陈治纲 何丕廉 +1 位作者 孙越恒 郑小慎 《中文信息学报》 CSCD 北大核心 2005年第1期36-41,共6页
文本分类是信息处理的一个重要的研究课题 ,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标 ,提出了一种新的特征抽取算法 ,克服了传统的从单一或片面的测试指标进行特征抽... 文本分类是信息处理的一个重要的研究课题 ,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标 ,提出了一种新的特征抽取算法 ,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题 ,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比 ,实验结果表明二级分类模式具有较高的精度和召回率。 展开更多
关键词 计算机应用 中文信息处理 文本分类 测试指标 特征抽取 二级分类模式
下载PDF
一个无需词典支持和切词处理的中文文档分类系统 被引量:23
4
作者 周水庚 关佶红 +1 位作者 胡运发 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期839-844,共6页
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统... 报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 . 展开更多
关键词 中文文档分类系统 词典支持 切词处理 中文信息处理 INTERNET
下载PDF
基于word2vec词模型的中文短文本分类方法 被引量:28
5
作者 高明霞 李经纬 《山东大学学报(工学版)》 CAS CSCD 北大核心 2019年第2期34-41,共8页
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedi... 针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。 展开更多
关键词 短文本 中文文本分类 维基百科 word2vec 词嵌入
原文传递
基于组合-卷积神经网络的中文新闻文本分类 被引量:23
6
作者 张昱 刘开峰 +2 位作者 张全新 王艳歌 高凯龙 《电子学报》 EI CAS CSCD 北大核心 2021年第6期1059-1067,共9页
目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec... 目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec预训练词向量进行文本特征构建.为了解决特征提取不完善的问题,通过改进经典卷积神经网络模型结构,研究不同的卷积和池化操作对分类结果的影响.为提高新闻文本分类的精确率,本文提出并实现了一种组合-卷积神经网络模型,设计了有效的模型正则化和优化方法.实验结果表明,组合-卷积神经网络模型对中文新闻文本分类的精确率达到93.69%,相比最优的传统机器学习方法和经典卷积神经网络模型精确率分别提升6.34%和1.19%,并在召回率和F值两项指标上均优于对比模型. 展开更多
关键词 自然语言处理 词向量 组合-卷积神经网络 中文新闻 文本分类
下载PDF
基于多文本特征融合的中文微博的立场检测 被引量:23
7
作者 奠雨洁 金琴 吴慧敏 《计算机工程与应用》 CSCD 北大核心 2017年第21期77-84,共8页
微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-ofWords,Bo W)、基于同义词典的... 微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-ofWords,Bo W)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。 展开更多
关键词 立场检测 情感分析 文本特征表示 微博 文本分类
下载PDF
融合多头自注意力机制的中文短文本分类模型 被引量:17
8
作者 张小川 戴旭尧 +1 位作者 刘璐 冯天硕 《计算机应用》 CSCD 北大核心 2020年第12期3485-3489,共5页
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式... 针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。 展开更多
关键词 中文短文本 文本分类 多头自注意力机制 卷积神经网络 特征融合
下载PDF
一种基于中心文档的KNN中文文本分类算法 被引量:17
9
作者 鲁婷 王浩 姚宏亮 《计算机工程与应用》 CSCD 北大核心 2011年第2期127-130,共4页
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项... 在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。 展开更多
关键词 中文文本分类 k最邻近 中心文档 语义相似度 聚类
下载PDF
基于CNN-SVM的护理不良事件文本分类研究 被引量:15
10
作者 葛晓伟 李凯霞 程铭 《计算机工程与科学》 CSCD 北大核心 2020年第1期161-166,共6页
针对当前医院护理不良事件上报的内容多为非结构化文本数据,缺乏合理明确的分类,人工分析难度大、人为因素多、存在漏报瞒报、人为降低事件级别等问题,提出一种基于字符卷积神经网络CNN与支持向量机SVM的中文护理不良事件文本分类模型... 针对当前医院护理不良事件上报的内容多为非结构化文本数据,缺乏合理明确的分类,人工分析难度大、人为因素多、存在漏报瞒报、人为降低事件级别等问题,提出一种基于字符卷积神经网络CNN与支持向量机SVM的中文护理不良事件文本分类模型。该模型通过构建字符级文本词汇表对文本进行向量化,利用CNN对文本进行抽象的特征提取,并用SVM分类器实现中文文本分类。与传统基于TF-IDF的SVM、随机森林等多组分类模型进行对比实验,来验证该模型在中文护理不良事件文本分类中的分类效果。 展开更多
关键词 中文文本分类 护理不良事件 CNN-SVM
下载PDF
中文文本分类中基于概念屏蔽层的特征提取方法 被引量:12
11
作者 廖莎莎 江铭虎 《中文信息学报》 CSCD 北大核心 2006年第3期22-28,共7页
本文提出了一种新的基于概念抽取和屏蔽层的特征选择方法。该方法利用HowNet概念词典中的概念树,通过义原在概念树中的位置信息进行概念抽取,并赋予其适当权值来说明其描述能力。对于权值低于屏蔽层的义原,我们不将其选入特征集,并相应... 本文提出了一种新的基于概念抽取和屏蔽层的特征选择方法。该方法利用HowNet概念词典中的概念树,通过义原在概念树中的位置信息进行概念抽取,并赋予其适当权值来说明其描述能力。对于权值低于屏蔽层的义原,我们不将其选入特征集,并相应保留原词。具体到每个词,我们计算其DEF条目中的权值,决定是将原词选入特征集还是进行概念抽取。本文重点研究了如何给义原设定一个合适的权值,如何在选取原词和概念之间取得平衡以及针对非概念词的加权处理。实验证明,设定合适的屏蔽层,不仅可以缩小特征维数,使分类正确率得到一定的提高,而且可以减少不同类别间的分类正确率的差别。 展开更多
关键词 计算机应用 中文信息处理 文本分类 特征提取 概念抽取 属性特征树 屏蔽层 描述能力
下载PDF
文本自动分类关键技术研究 被引量:12
12
作者 张冬慧 孙波 +1 位作者 徐照财 程显毅 《微计算机信息》 北大核心 2008年第6期197-199,共3页
为了提高文本自动分类的准确率,本文在分析文本分类预处理阶段的中文分词、特征提取、向量空间模型、web结构挖掘技术等基础上,对相关技术进行了的改进,并设计基于支持向量机文本分类器(UJS-Classifier)实现了最终的文本分类。根据测试... 为了提高文本自动分类的准确率,本文在分析文本分类预处理阶段的中文分词、特征提取、向量空间模型、web结构挖掘技术等基础上,对相关技术进行了的改进,并设计基于支持向量机文本分类器(UJS-Classifier)实现了最终的文本分类。根据测试语料分别对中文分词模块和网页文本分类模块性能进行测试,实验结果表明UJS-Classifier在分词的歧义切分、网页分类的性能及准确率都有一定的提高。 展开更多
关键词 中文分词 向量空间模型 文本分类 支持向量机
下载PDF
基于改进BERT的中文文本分类 被引量:12
13
作者 严佩敏 唐婉琪 《工业控制计算机》 2020年第7期108-110,112,共4页
BERT是近两年提出的最为综合性的语言模型,在各项自然语言处理任务中都有不俗的表现。Softmax分类算法也是最为常用的分类算法,传统的softmax算法在学习同类和不同类样本时,用的是同一种格式,从而学习到的特征的类内和类间的可区分性不... BERT是近两年提出的最为综合性的语言模型,在各项自然语言处理任务中都有不俗的表现。Softmax分类算法也是最为常用的分类算法,传统的softmax算法在学习同类和不同类样本时,用的是同一种格式,从而学习到的特征的类内和类间的可区分性不强。而A-softmax算法在学习同类样本时,增加了同类学习的难度,这样的区别对待会使得特征的可区分性更强。基于此,提出利用A-softmax来替代传统的softmax,从而使BERT模型更好地应用于中文文本分类任务中。并进一步提出将BERT与SVM结合,来探讨深度学习中的语义特征和传统统计特征融合的可行性。模型在相同的语料库上进行实验,结果表明,相比基于传统softmax的文本分类方法,基于A-softmax的中文文本分类的准确率更高,泛化能力更强,具有良好的分类性能,且将BERT与SVM结合比传统SVM分类准确率更高。 展开更多
关键词 中文文本分类 支持向量机 softmax逻辑回归
下载PDF
面向中文文本分类的词级对抗样本生成方法 被引量:12
14
作者 仝鑫 王罗娜 +1 位作者 王润正 王靖亚 《信息网络安全》 CSCD 北大核心 2020年第9期12-16,共5页
针对基于深度学习方法的中文文本分类模型的鲁棒性问题,文章提出一种词级黑盒对抗样本生成方法CWordAttacker。该算法采用定向词删除评分机制,能够在模型内部细节未知的情况下定位显著影响分类结果的关键词,并使用繁体、拼音替换等多种... 针对基于深度学习方法的中文文本分类模型的鲁棒性问题,文章提出一种词级黑盒对抗样本生成方法CWordAttacker。该算法采用定向词删除评分机制,能够在模型内部细节未知的情况下定位显著影响分类结果的关键词,并使用繁体、拼音替换等多种攻击策略生成与原句语义一致的对抗样本,可完成定向和非定向两种攻击模式。在情感、垃圾短信和新闻分类数据集上针对LSTM、TextCNN和带注意力的CNN模型进行测试的结果表明:CWordAttacker能够以较小的扰动大幅度降低靶机模型准确率。 展开更多
关键词 对抗样本 自然语言处理 中文文本分类 黑盒攻击 人工智能安全
下载PDF
KNN和SVM算法在中文文本自动分类技术上的比较研究 被引量:11
15
作者 马建斌 李滢 +2 位作者 滕桂法 王芳 赵洋 《河北农业大学学报》 CAS CSCD 北大核心 2008年第3期120-123,共4页
中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分... 中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。 展开更多
关键词 中文文本分类 KNN SVM
下载PDF
中文文本分类中的文本表示因素比较 被引量:5
16
作者 张爱华 荆继武 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2009年第3期400-407,共8页
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使... 研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则. 展开更多
关键词 中文文本分类 文本表示 向量化
下载PDF
结合词性信息的基于注意力机制的双向LSTM的中文文本分类 被引量:11
17
作者 高成亮 徐华 高凯 《河北科技大学学报》 CAS 2018年第5期447-454,共8页
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信... 基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。 展开更多
关键词 自然语言处理 中文文本分类 注意力机制 LSTM 词性
下载PDF
基于k-近邻方法的渐进式中文文本分类技术 被引量:7
18
作者 袁方 杨柳 张红霞 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期88-91,共4页
针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k-近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了... 针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k-近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了文本分类的效率.实验结果表明,该方法在保证分类准确率的基础上能够有效地提高分类效率. 展开更多
关键词 k-近邻方法 渐进式方法 中文文本分类
下载PDF
改进词向量和kNN的中文文本分类算法 被引量:8
19
作者 丁正生 马春洁 《现代电子技术》 2022年第1期100-103,共4页
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBO... 为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。 展开更多
关键词 中文文本分类 文本向量化 快速kNN算法 词向量 双通道CBOW模型 特征向量 数据分类
下载PDF
文本分类中基于CHI和PCA混合特征的降维方法 被引量:8
20
作者 唐加山 段丹丹 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2022年第1期164-171,共8页
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component a... 中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。 展开更多
关键词 中文文本分类 特征降维 混合特征降维方法(CHI-PCA) 卡方统计(CHI)方法 主成分分析(PCA)
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部