期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
文本分类中特征选择方法的比较与改进 被引量:25
1
作者 单丽莉 刘秉权 孙承杰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第S1期319-324,共6页
为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数... 为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能. 展开更多
关键词 文本分类 特征选择 期望交叉熵
下载PDF
基于改进Nave Bayes的垃圾邮件过滤模型研究 被引量:10
2
作者 王涛 裘国永 何聚厚 《计算机工程与应用》 CSCD 北大核心 2007年第13期186-190,共5页
分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词... 分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。 展开更多
关键词 垃圾邮件过滤 朴素贝叶斯 期望交叉熵 特征选取
下载PDF
基于特征选择的实体关系抽取 被引量:9
3
作者 毛小丽 何中市 +1 位作者 邢欣来 刘莉 《计算机应用研究》 CSCD 北大核心 2012年第2期530-532,共3页
提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地... 提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。 展开更多
关键词 关系抽取 特征选择 信息增益 期望交叉熵 x2统计
下载PDF
文本分类中特征选择方法研究 被引量:3
4
作者 王维娜 康耀红 伍小芹 《信息技术》 2008年第12期29-31,共3页
对四种特征选择方法:互信息、信息增益、x2统计和期望交叉熵作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、宏平均和微平均对四种特征选择方法分别进行评估,提出并讨论了互信息修正的两种方法。
关键词 文本分类 特征选择 互信息 信息增益 x^2统计 期望交叉熵
下载PDF
文本分类中一种基于选择的二次特征降维方法 被引量:8
5
作者 刘海峰 王元元 +1 位作者 姚泽清 陈琦 《情报学报》 CSSCI 北大核心 2009年第1期23-27,共5页
特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类... 特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。 展开更多
关键词 文本分类 特征选择 互信息 期望交叉熵
下载PDF
基于索引项权重的文本特征选择方法 被引量:4
6
作者 王海鹃 韩立新 甄志龙 《计算机工程与设计》 CSCD 北大核心 2010年第5期1149-1151,共3页
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证... 为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证据权。利用KNN分类器在Reuters-21578标准数据集上进行训练和测试。实验结果表明,该方法能够选出有效特征,提高文本分类的性能。 展开更多
关键词 文本分类 特征选择 索引项权重 信息增益 期望交叉熵 文本证据权
下载PDF
融合词语共现距离和类别信息的短文本特征提取方法 被引量:2
7
作者 马慧芳 邢玉莹 +1 位作者 王双 张旭鹏 《计算机工程与科学》 CSCD 北大核心 2018年第9期1689-1695,共7页
针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这... 针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合。实验表明,该方法能够有效提高短文本特征提取的效果。 展开更多
关键词 短文本 共现距离 期望交叉熵 特征提取
下载PDF
基于背景重构与边缘相关短文本特征选择方法 被引量:1
8
作者 张海涛 王斌君 王靖亚 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2016年第3期469-475,共7页
为了解决短文本对象特征空间稀疏性与背景缺失造成的精确分类困难与语义混淆问题,提出一种背景补偿与边缘相关计算的特征选择方法.通过提取并利用文本间存在的关联性建立小样本簇背景特征集,重构特征空间,并结合边缘相关性分析确定最终... 为了解决短文本对象特征空间稀疏性与背景缺失造成的精确分类困难与语义混淆问题,提出一种背景补偿与边缘相关计算的特征选择方法.通过提取并利用文本间存在的关联性建立小样本簇背景特征集,重构特征空间,并结合边缘相关性分析确定最终的特征集.过程可分为2个阶段:1)基于词矢量语义量化模型计算特征词的背景相关性;2)将测试文本重组特征空间,并进行边缘性相关计算.提出的短文本特征选择方法,可以在保持原始特征空间性质与结构的前提下,强化特征空间紧凑性,减少冗余性,降低特征维度.在Reuters-21578和NewsGroup标准语料集上的实验证明,提出的方法比传统的文档频率、信息增益、互信息等方法更有效,针对两个标准的数据集,其在典型的分类器上运行表现强于一般特征选择方法. 展开更多
关键词 背景重构 期望交叉熵 边缘相关 特征选择
原文传递
基于改进CHI和带权ECE结合的特征选择方法 被引量:4
9
作者 蔡镇 高健 秦晓军 《计算机应用研究》 CSCD 北大核心 2019年第10期2962-2964,共3页
针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补... 针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征选择方法。经对比实验验证,pCHIωECE方法的查准率、F1值均优于CHI、ECE及pCHI、ωECE方法,且该方法的降维稳定性更好。 展开更多
关键词 卡方统计 期望交叉熵 特征选择 文本分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部