期刊文献+
共找到5,954篇文章
< 1 2 250 >
每页显示 20 50 100
中文文本分类中特征抽取方法的比较研究 被引量:228
1
作者 代六玲 黄河燕 陈肇雄 《中文信息学报》 CSCD 北大核心 2004年第1期26-32,共7页
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ... 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 文本自动分类 特征抽取 支持向量机 KNN
下载PDF
基于邻域粒化和粗糙逼近的数值属性约简 被引量:290
2
作者 胡清华 于达仁 谢宗霞 《软件学报》 EI CSCD 北大核心 2008年第3期640-649,共10页
对于空间中的任一子集,通过基本邻域信息粒子进行逼近,由此提出了邻域信息系统和邻域决策表模型.分析了该模型的性质,并且基于此模型构造了数值型属性的选择算法.利用UCI标准数据集与现有算法进行了比较分析,实验结果表明,该模型可以选... 对于空间中的任一子集,通过基本邻域信息粒子进行逼近,由此提出了邻域信息系统和邻域决策表模型.分析了该模型的性质,并且基于此模型构造了数值型属性的选择算法.利用UCI标准数据集与现有算法进行了比较分析,实验结果表明,该模型可以选择较少的特征而保持或改善分类能力. 展开更多
关键词 数值特征 粒度计算 邻域关系 粗糙集 可变精度 属性约简 特征选择
下载PDF
基于随机森林的特征选择算法 被引量:247
3
作者 姚登举 杨静 詹晓娟 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第1期137-141,共5页
提出了一种基于随机森林的封装式特征选择算法RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方... 提出了一种基于随机森林的封装式特征选择算法RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方面具有较好的性能。 展开更多
关键词 人工智能 随机森林 特征选择 封装式
下载PDF
中文文本分类中的特征选择研究 被引量:165
4
作者 周茜 赵明生 扈旻 《中文信息学报》 CSCD 北大核心 2004年第3期17-23,共7页
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同... 本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。 展开更多
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别区分词
下载PDF
特征选择方法综述 被引量:206
5
作者 姚旭 王晓丹 +1 位作者 张玉玺 权文 《控制与决策》 EI CSCD 北大核心 2012年第2期161-166,192,共7页
特征选择是模式识别的关键问题之一,特征选择结果的好坏直接影响着分类器的分类精度和泛化性能.首先分析了特征选择方法的框架;然后从搜索策略和评价准则两个角度对特征选择方法进行了分析和总结;最后分析了对特征选择的影响因素,并指... 特征选择是模式识别的关键问题之一,特征选择结果的好坏直接影响着分类器的分类精度和泛化性能.首先分析了特征选择方法的框架;然后从搜索策略和评价准则两个角度对特征选择方法进行了分析和总结;最后分析了对特征选择的影响因素,并指出了实际应用中需要解决的问题. 展开更多
关键词 特征选择 搜索策略 评价准则
原文传递
一种基于向量空间模型的多层次文本分类方法 被引量:75
6
作者 刘少辉 董明楷 +2 位作者 张海俊 李蓉 史忠植 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提... 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 展开更多
关键词 多层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类
下载PDF
多输入特征融合的组合支持向量机电力系统暂态稳定评估 被引量:137
7
作者 马骞 杨以涵 +2 位作者 刘文颖 齐郑 郭金智 《中国电机工程学报》 EI CSCD 北大核心 2005年第6期17-23,共7页
利用支持向量机(SVM)方法进行暂态稳定判别时,输入特征的选择是影响最终结果的最重要因素。传统启发式和试探式方法不能从根本上解决输入特征选择的问题。本文利用信息融合思想,在构造的具有不同输入特征的多组子分类器的基础上,对子分... 利用支持向量机(SVM)方法进行暂态稳定判别时,输入特征的选择是影响最终结果的最重要因素。传统启发式和试探式方法不能从根本上解决输入特征选择的问题。本文利用信息融合思想,在构造的具有不同输入特征的多组子分类器的基础上,对子分类器的结果在输出空间再进行信息融合,以提高分类准确率。文中从不同角度启发式的构造了 4,构成四组弱分类器。以这四组弱分类器为子分类器,再构造一个融合 SVM 对几种子分类器的结果以回归方式进行融合,作为最终判别结果。IEEE 39-BUS 和IEEE145-BUS 测试系统上进行的仿真表明,弱分类器的分类性能经过融合得到明显强化,融合后的结果比任何一种子分类器的结果以及一次包含所有输入特征的结果都更准确。该方法为在线快速进行暂态稳定计算提供了一条重要途径。 展开更多
关键词 暂态稳定评估 电力系统 特征融合 支持向量机(SVM) 多输入 输入特征 组合 暂态稳定计算 信息融合 分类器 特征选择 测试系统 启发式 构造 准确率 判别 种子
下载PDF
基于文本分类TFIDF方法的改进与应用 被引量:120
8
作者 张玉芳 彭时名 吕佳 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期76-78,共3页
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TF... TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。 展开更多
关键词 文本分类 特征选择 TFIDF 类别区分
下载PDF
实体关系自动抽取 被引量:115
9
作者 车万翔 刘挺 李生 《中文信息学报》 CSCD 北大核心 2005年第2期1-6,共6页
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法 ,Winnow和支持向量机 (SVM) ,在 2 0 0 4年ACE(AutomaticContentExtraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选... 实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法 ,Winnow和支持向量机 (SVM) ,在 2 0 0 4年ACE(AutomaticContentExtraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择 ,当选择每个实体的左右两个词为特征时 ,达到最好的抽取效果 ,Win now和SVM算法的加权平均F Score分别为 73 0 8%和 73 2 7%。可见在使用相同的特征集 ,不同的学习算法进行实体关系的识别时 ,最终性能差别不大。因此使用自动的方法进行实体关系抽取时 ,应当集中精力寻找好的特征。 展开更多
关键词 计算机应用 中文信息处理 实体关系抽取 ACE评测 特征选择
下载PDF
独立于语种的文本分类方法 被引量:52
10
作者 黄萱菁 吴立德 +1 位作者 石崎洋之 徐国伟 《中文信息学报》 CSCD 北大核心 2000年第6期1-7,共7页
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻... 文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。 展开更多
关键词 文本分类 特征抽取 机器学习 分类器 语种
下载PDF
特征选择方法综述 被引量:122
11
作者 李郅琴 杜建强 +3 位作者 聂斌 熊旺平 黄灿奕 李欢 《计算机工程与应用》 CSCD 北大核心 2019年第24期10-19,共10页
特征选择作为一个数据预处理过程,在数据挖掘、模式识别和机器学习中有着重要地位。通过特征选择,可以降低问题的复杂度,提高学习算法的预测精度、鲁棒性和可解释性。介绍特征选择方法框架,重点描述生成特征子集、评价准则两个过程;根... 特征选择作为一个数据预处理过程,在数据挖掘、模式识别和机器学习中有着重要地位。通过特征选择,可以降低问题的复杂度,提高学习算法的预测精度、鲁棒性和可解释性。介绍特征选择方法框架,重点描述生成特征子集、评价准则两个过程;根据特征选择和学习算法的不同结合方式对特征选择算法分类,并分析各种方法的优缺点;讨论现有特征选择算法存在的问题,提出一些研究难点和研究方向。 展开更多
关键词 特征选择 搜索策略 评价准则 特征选择分类
下载PDF
文本分类中的特征降维方法综述 被引量:79
12
作者 陈涛 谢阳群 《情报学报》 CSSCI 北大核心 2005年第6期690-695,共6页
文本分类的关键是对高维的特征集进行降维.降维的主要方法是特征选择和特征提取.本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围.
关键词 文本分类 特征降维 特征选择 特征提取
下载PDF
几种典型特征选取方法在中文网页分类上的效果比较 被引量:76
13
作者 单松巍 冯是聪 李晓明 《计算机工程与应用》 CSCD 北大核心 2003年第22期146-148,共3页
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使... 针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。 展开更多
关键词 机器学习 中文网页分类 特征选取 评测
下载PDF
基于随机森林算法的农耕区土地利用分类研究 被引量:112
14
作者 马玥 姜琦刚 +3 位作者 孟治国 李远华 王栋 刘骅欣 《农业机械学报》 EI CAS CSCD 北大核心 2016年第1期297-303,共7页
基于随机森林算法,采用多季节、多时相光谱信息、纹理信息和地形信息进行分类研究,选出最佳分类方案对农耕区土地利用信息进行提取,并利用随机森林算法对所有特征变量进行降维,将降维后的变量分别用于随机森林、支持向量机和最大似然分... 基于随机森林算法,采用多季节、多时相光谱信息、纹理信息和地形信息进行分类研究,选出最佳分类方案对农耕区土地利用信息进行提取,并利用随机森林算法对所有特征变量进行降维,将降维后的变量分别用于随机森林、支持向量机和最大似然分类法,分析不同分类方法对农耕区土地利用类型提取的适用性。研究结果表明:基于随机森林算法的多源信息综合分类方案进行土地利用信息提取效果最佳,总体精度85.54%,Kappa系数0.835 9;利用随机森林算法进行特征选择可以在有效降低数据维度的同时保证分类精度;3种分类方法中,随机森林算法总体分类精度81.08%,分别较支持向量机和最大似然法高9.46%和5.27%。利用随机森林分类法结合多源信息能够有效对农耕区土地利用类型进行分类,为土地类型的划分提供了快捷可行的方法。 展开更多
关键词 土地利用分类 农耕区 随机森林算法 多源信息 特征选择
下载PDF
特征选择算法研究综述 被引量:95
15
作者 毛勇 周晓波 +2 位作者 夏铮 尹征 孙优贤 《模式识别与人工智能》 EI CSCD 北大核心 2007年第2期211-218,共8页
特征选择是当前信息领域,尤其是模式识别领域的研究热点.本文从不同角度对特征选择算法进行分类,概述特征选择技术发展的各个分支及发展态势,指出理论研究和实际应用中所存在的一些困难和亟待解决的问题.然后从算法实用性角度出发,结合... 特征选择是当前信息领域,尤其是模式识别领域的研究热点.本文从不同角度对特征选择算法进行分类,概述特征选择技术发展的各个分支及发展态势,指出理论研究和实际应用中所存在的一些困难和亟待解决的问题.然后从算法实用性角度出发,结合机器学习的观点,探讨应用支持向量机技术进行特征选择的研究发展思路. 展开更多
关键词 特征选择 模式识别 机器学习 Wrapper方法
原文传递
基于VSM的文本相似度计算的研究 被引量:101
16
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似度 特征选择 词频—逆文档频率法 向量空间模型
下载PDF
基于邻域粗糙集的多标记分类特征选择算法 被引量:109
17
作者 段洁 胡清华 +2 位作者 张灵均 钱宇华 李德玉 《计算机研究与发展》 EI CSCD 北大核心 2015年第1期56-65,共10页
多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别.此类任务在文本分类、图像识别、基因功能分析等领域广泛存在.多标记分类任务往往由高维特征描述,存在大量无关和冗余的信息.目前已经提出了大量的单标记特征选择算法... 多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别.此类任务在文本分类、图像识别、基因功能分析等领域广泛存在.多标记分类任务往往由高维特征描述,存在大量无关和冗余的信息.目前已经提出了大量的单标记特征选择算法以应对维数灾难问题,但对于多标记的属性约简和特征选择却鲜有研究.将粗糙集应用于多标记数据的特征选择中,针对多标记分类任务,重新定义了邻域粗糙集的下近似和依赖度计算方法,探讨了这一模型的性质,进而构造了基于邻域粗糙集的多标记分类任务的特征选择算法,并给出了在公开数据上的实验结果.实验分析证明算法的有效性. 展开更多
关键词 多标记分类 特征选择 邻域粗糙集 依赖度
下载PDF
基于互信息的主成分分析特征选择算法 被引量:105
18
作者 范雪莉 冯海泓 原猛 《控制与决策》 EI CSCD 北大核心 2013年第6期915-919,共5页
主成分分析是一种常用的特征选择算法,经典方法是计算各个特征之间的相关,但是相关无法评估变量间的非线性关系.互信息可用于衡量两个变量间相互依赖的强弱程度,且不局限于线性相关,鉴于此,提出一种基于互信息的主成分分析特征选择算法... 主成分分析是一种常用的特征选择算法,经典方法是计算各个特征之间的相关,但是相关无法评估变量间的非线性关系.互信息可用于衡量两个变量间相互依赖的强弱程度,且不局限于线性相关,鉴于此,提出一种基于互信息的主成分分析特征选择算法.该算法计算特征间的互信息,以互信息矩阵的特征值作为评价准则确定主成分的个数,并衡量主成分分析特征选择的效果.通过实例对所提出方法和传统主成分分析方法进行比较,并以神经网络为分类器分析分类效果. 展开更多
关键词 互信息 主成分分析 特征选择
原文传递
Sentinel-2影像多特征优选的黄河三角洲湿地信息提取 被引量:104
19
作者 张磊 宫兆宁 +2 位作者 王启为 金点点 汪星 《遥感学报》 EI CSCD 北大核心 2019年第2期313-326,共14页
以北方典型河口湿地—黄河三角洲湿地为研究区,采用在特征选择和分类提取等方面具有明显优势的随机森林算法,对研究区内的湿地信息进行提取。首先基于多时相、光谱信息丰富的Sentinel-2数据生成4类不同的特征变量,包括光谱特征、植被指... 以北方典型河口湿地—黄河三角洲湿地为研究区,采用在特征选择和分类提取等方面具有明显优势的随机森林算法,对研究区内的湿地信息进行提取。首先基于多时相、光谱信息丰富的Sentinel-2数据生成4类不同的特征变量,包括光谱特征、植被指数和水体指数、红边指数、纹理特征;再根据以上特征构建6种不同的提取方案,对黄河三角洲湿地信息进行提取并验证不同方案的提取精度,旨在选择最佳方案改善湿地信息提取的效果。结果表明:(1)有效地使用多种特征变量是提高湿地信息提取的关键,就不同特征对湿地信息提取的贡献率而言,红边指数>植被指数和水体指数>光谱特征>纹理特征;(2)基于随机森林算法优选的特征变量提取效果最佳,总体精度高达90.93%,Kappa系数为0.90,表明随机森林算法可以有效地进行特征选择,在特征变量数据挖掘的同时,仍能保证湿地信息提取的精度,提高运行效率。本研究为湿地信息提取在数据源选择、特征选择和方法选择方面提供了一种新思路、方法和技术手段。 展开更多
关键词 河口湿地 信息提取 Sentinel-2 随机森林 特征选择 红边指数 多时相数据
原文传递
基于区分类别能力的高性能特征选择方法 被引量:83
20
作者 徐燕 李锦涛 +1 位作者 王斌 孙春明 《软件学报》 EI CSCD 北大核心 2008年第1期82-89,共8页
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之... 特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准. 展开更多
关键词 特征选择 文本分类 信息检索
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部