期刊文献+
共找到78篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于词聚类的中文文本主题抽取方法 被引量:17
1
作者 陈炯 张永奎 《计算机应用》 CSCD 北大核心 2005年第4期754-756,共3页
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按... 提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实 验结果表明,该方法具有较高的抽准率。 展开更多
关键词 主题抽取 词聚类 种子词 主题因子 信息论 词同现 chi统计
下载PDF
结合改进的CHI统计方法的TF-IDF算法优化 被引量:21
2
作者 马莹 赵辉 +2 位作者 李万龙 庞海龙 崔岩 《计算机应用研究》 CSCD 北大核心 2019年第9期2596-2598,2603,共4页
为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,... 为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。 展开更多
关键词 文本分类 chi统计 TF-IDF算法 特征选择
下载PDF
混合CHI和MI的改进文本特征选择方法 被引量:6
3
作者 王振 邱晓晖 《计算机技术与发展》 2018年第4期87-90,94,共5页
特征选择在文本分类技术中是一个重要的关键部分,特征选择的好坏直接决定最终的分类结果。卡方统计量(CHI-square statistic,CHI)和互信息(mutual information,MI)是特征选择模块经常使用的方法。针对卡方统计量方法不考虑词频的不足,... 特征选择在文本分类技术中是一个重要的关键部分,特征选择的好坏直接决定最终的分类结果。卡方统计量(CHI-square statistic,CHI)和互信息(mutual information,MI)是特征选择模块经常使用的方法。针对卡方统计量方法不考虑词频的不足,引入词频因子。考虑互信息方法倾向选择低频词的缺点,并研究特征词在不同类别文档内的分布情况对互信息方法的特征选择的影响,通过引入特征的词频因子和调节参数对卡方统计量方法和互信息方法进行改进,并混合改进后的卡方统计量方法和互信息方法,提出一种混合的特征选择算法(CHMI)。通过对CHI方法、MI方法、改进的CHI方法、改进的MI方法和CHMI方法进行实验对比,使用CHMI方法进行特征选择,使最终分类结果的查准率和F1值都有了提高,验证了CHMI方法的有效性。 展开更多
关键词 文本分类 特征选择 卡方统计 互信息 词频因子 调节参数
下载PDF
一种改进的CHI文本特征选择方法 被引量:5
4
作者 樊存佳 汪友生 王雨婷 《计算机与现代化》 2016年第11期7-11,63,共6页
特征选择是文本分类过程中非常重要的环节。CHI统计是一种经典的特征选择方法,针对CHI统计方法存在的不足,一方面,为了兼顾特征项的文档频和词频,本文在CHI中引入词频因子和类间方差;另一方面,为了排除在指定类中很少出现但在其他类中... 特征选择是文本分类过程中非常重要的环节。CHI统计是一种经典的特征选择方法,针对CHI统计方法存在的不足,一方面,为了兼顾特征项的文档频和词频,本文在CHI中引入词频因子和类间方差;另一方面,为了排除在指定类中很少出现但在其他类中普遍存在的特征项,降低人为选取比例因子带来的误差,本文在CHI中引入自适应比例因子。实验结果表明,与CHI统计方法相比,改进后的CHI特征选择方法提高了非平衡语料集上的分类准确度。 展开更多
关键词 chi统计 词频因子 类间方差 自适应比例因子
下载PDF
不均衡数据在股票研报分类中的应用 被引量:2
5
作者 彭敏 张凯 朱佳晖 《计算机应用研究》 CSCD 北大核心 2017年第3期769-772,780,共5页
股票研报是由金融行业分析师对股票相关新闻作出的分析和评价,它从专业角度分析此类新闻是否会对某股票的未来走势产生影响,并提出专业投资建议,往往比论坛分析更具权威性。然而,各类别研报数量之间的严重不均衡性致使常规的SVM分类效... 股票研报是由金融行业分析师对股票相关新闻作出的分析和评价,它从专业角度分析此类新闻是否会对某股票的未来走势产生影响,并提出专业投资建议,往往比论坛分析更具权威性。然而,各类别研报数量之间的严重不均衡性致使常规的SVM分类效果较差。为提高分类效果,提出一种新的不均衡数据分类方法。在文本特征项选择方面采用组合特征思想以选择更具语义信息的特征短语,并改进CHI统计以提高对少数类样本特征项的选择,然后设计一个基于SVM聚类的边界自适应层次欠采样算法对多数类样本进行层次欠采样。实验结果表明,该方法能够在不影响多数类分类的基础上对少数类的分类效果有较为明显的提升。 展开更多
关键词 不均衡数据 股票研报 chi统计 SVM算法 层次欠采样
下载PDF
音乐和歌词融合的歌曲情感分类研究 被引量:3
6
作者 钟将 程一峰 《计算机工程》 CAS CSCD 2012年第8期144-146,共3页
为更好地对歌词进行情感分类,提出一种改进的基于类间差别的CHI特征选择方法。该方法可单独用于歌词情感特征提取,将选取的特征应用于支持向量机分类器中,融合音频特征与利用改进CHI方法选择的歌词特征对歌曲进行情感分类。实验结果表明... 为更好地对歌词进行情感分类,提出一种改进的基于类间差别的CHI特征选择方法。该方法可单独用于歌词情感特征提取,将选取的特征应用于支持向量机分类器中,融合音频特征与利用改进CHI方法选择的歌词特征对歌曲进行情感分类。实验结果表明,融合后的特征可以取得比任何单一种类特征更好的分类效果。 展开更多
关键词 情感模型 歌曲情感分类 chi统计方法 支持向量机 基于差别的chi方法 特征融合
下载PDF
一种基于RBF神经网络的XML文本分类方法 被引量:3
7
作者 刘锋 唐佳 仲红 《计算机技术与发展》 2009年第8期34-36,共3页
为了快速有效地组织和分析海量的XML文本信息,XML文本的自动分类必不可少。文中提出了一种基于RBF神经网络的分类方法,并运用改进型的CHI统计量方法进行特征提取,对传统的加权公式进行了一些改进,再运用资源优化神经网络(RON)进行训练,... 为了快速有效地组织和分析海量的XML文本信息,XML文本的自动分类必不可少。文中提出了一种基于RBF神经网络的分类方法,并运用改进型的CHI统计量方法进行特征提取,对传统的加权公式进行了一些改进,再运用资源优化神经网络(RON)进行训练,做了必要的实验分析。实验结果表明该分离器有较高的分类质量,提高了分类的效率,有较高的分类准确性,满足了XML文本自动分类的要求。 展开更多
关键词 XML 文本分类 chi统计量 RON RBF神经网络
下载PDF
中文分词模型的领域适应性方法 被引量:59
8
作者 韩冬煦 常宝宝 《计算机学报》 EI CSCD 北大核心 2015年第2期272-281,共10页
字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力... 字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性. 展开更多
关键词 卡方统计量 边界熵 领域适应性 自举算法 中文分词 社会计算 社交网络
下载PDF
文本分类中改进型CHI特征选择方法的研究 被引量:39
9
作者 裴英博 刘晓霞 《计算机工程与应用》 CSCD 北大核心 2011年第4期128-130,194,共4页
分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上... 分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。 展开更多
关键词 文本分类 特征选择 chi统计 权值调整 分散度 集中度 频度
下载PDF
非线性时间序列的符号化分析方法研究 被引量:13
10
作者 金宁德 李伟波 《动力学与控制学报》 2004年第3期54-59,共6页
符号时间序列分析方法是近年来新兴的一种数据处理方法,已经被广泛的应用于各个领域.采用符号化分析方法能够从动力系统中快速有效地提取有用定量信息,计算简单快捷,而且能够有效的抑制噪声.本文采用三种统计量用于表征符号化时间序列... 符号时间序列分析方法是近年来新兴的一种数据处理方法,已经被广泛的应用于各个领域.采用符号化分析方法能够从动力系统中快速有效地提取有用定量信息,计算简单快捷,而且能够有效的抑制噪声.本文采用三种统计量用于表征符号化时间序列的特性,用Henon方程作为算例验证了该方法的可靠性,并且将此方法应用于垂直上升管中油水两相流流型分析,结果表明从符号时间序列计算的统计量对油水两相流过渡流型变化敏感. 展开更多
关键词 符号时间序列 符号动力学 混沌时间序列分析 统计量
下载PDF
基于改进卡方统计的微博特征提取方法 被引量:14
11
作者 徐明 高翔 +1 位作者 许志刚 刘磊 《计算机工程与应用》 CSCD 2014年第19期113-117,142,共6页
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量... 通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量的方法,改进权重计算效果。对上述方法利用经典KNN和SVM算法进行了测试,实验结果表明该方法提高了微博信息分类的准确率。 展开更多
关键词 微博分类 卡方统计量 特征选择 权值计算
下载PDF
文本分类中基于CHI和PCA混合特征的降维方法 被引量:9
12
作者 唐加山 段丹丹 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2022年第1期164-171,共8页
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component a... 中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。 展开更多
关键词 中文文本分类 特征降维 混合特征降维方法(chi-PCA) 卡方统计(chi)方法 主成分分析(PCA)
下载PDF
用于不完整数据的选择性贝叶斯分类器 被引量:11
13
作者 陈景年 黄厚宽 +1 位作者 田凤占 付树军 《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1324-1330,共7页
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多... 选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些. 展开更多
关键词 贝叶斯方法 分类 特征选择 不完整数据 X2统计量
下载PDF
基于机器学习的文本情感倾向性分析 被引量:13
14
作者 陈平平 耿笑冉 +1 位作者 邹敏 谭定英 《计算机与现代化》 2020年第3期77-81,92,共6页
为实现对网络上电影评论的情感倾向性分析,通过对电影影评数据进行爬取,获取热门的电影评论,利用文本预处理和机器学习算法,完成对数据的训练以及测试,最终构建最优情感分类模型。实验结果表明,在所有词与双词结合并进行jieba的TF-IDF... 为实现对网络上电影评论的情感倾向性分析,通过对电影影评数据进行爬取,获取热门的电影评论,利用文本预处理和机器学习算法,完成对数据的训练以及测试,最终构建最优情感分类模型。实验结果表明,在所有词与双词结合并进行jieba的TF-IDF及卡方统计的特征提取下,得到的效果较好,BP神经网络以及多项式贝叶斯算法比较适用于这类文本的分析,尤其以BP神经网络的效果最佳,准确率达到86.2%。 展开更多
关键词 情感倾向分析 jieba分词 机器学习 BP神经网络算法 卡方统计
下载PDF
气液两相流差压测量波动信号的符号序列统计分析 被引量:11
15
作者 金宁德 苗龄予 李伟波 《化工学报》 EI CAS CSCD 北大核心 2007年第2期327-334,共8页
将符号时间序列分析方法应用到两相流测量波动信号分析,并讨论了关键参数对符号统计量影响问题。在此基础上,利用垂直上升管中采集到的80组气液两相流差压动态波动信号,提取了时间不可逆转性Tfb及χf2b统计量。当气相表观速度小于0.02m.... 将符号时间序列分析方法应用到两相流测量波动信号分析,并讨论了关键参数对符号统计量影响问题。在此基础上,利用垂直上升管中采集到的80组气液两相流差压动态波动信号,提取了时间不可逆转性Tfb及χf2b统计量。当气相表观速度小于0.02m.s-1时,随着气相表观速度增加,泡状流随机可变的运动特征逐渐加剧,其动力学特性变得相对复杂;当气相表观速度大于0.02m.s-1时,在流型从泡状流向段塞流转变过程中,随着气相表观速度增大,流型演化的动力学特性逐渐变得相对简单;在流型从段塞流向混状流转变过程中,随着气相表观速度增加,混状流的动力学特性逐渐变得愈加复杂。研究结果表明,时间不可逆转性Tfb及χ2fb统计量两个符号是表征气液两相流流型的敏感特征量,考察这两个统计量随两相流流动参数变化规律有助于更好地理解两相流流型动力学特性。 展开更多
关键词 气液两相流 流型表征 符号时间序列分析 时间不可逆转性 xfb^2统计量
下载PDF
不均衡数据集上文本分类方法研究 被引量:11
16
作者 谢娜娜 房斌 吴磊 《计算机工程与应用》 CSCD 2013年第20期118-121,共4页
文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CH... 文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。 展开更多
关键词 特征选择 chi统计 文本分类 不均衡数据集 重取样
下载PDF
异地配置的主/被动雷达抗多假目标干扰 被引量:9
17
作者 李世忠 王国宏 +1 位作者 徐海全 吴巍 《火力与指挥控制》 CSCD 北大核心 2013年第5期10-13,共4页
针对多假目标欺骗干扰下异地配置的主/被动雷达传感器系统,分别基于角度统计量和距离统计量提出了三维情况下的主/被动雷达联合鉴别虚假目标算法。基于角度统计量的鉴别算法主要使用卡方检验的方法对主/被动雷达的角度量测进行比较以鉴... 针对多假目标欺骗干扰下异地配置的主/被动雷达传感器系统,分别基于角度统计量和距离统计量提出了三维情况下的主/被动雷达联合鉴别虚假目标算法。基于角度统计量的鉴别算法主要使用卡方检验的方法对主/被动雷达的角度量测进行比较以鉴别虚假目标;基于距离统计量的鉴别算法首先用交叉定位的方法确定目标的位置和距离,再与主动雷达的距离量测进行比较以鉴别虚假目标。最后通过仿真的方法分析了观测次数、虚假目标距离和被动雷达精度对算法鉴别虚假目标概率的影响,结果表明该算法可使主/被动雷达系统有效地鉴别假目标。 展开更多
关键词 距离多假目标欺骗干扰 被动雷达 卡方检验 交叉定位 鉴别
下载PDF
基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取 被引量:9
18
作者 杜若鹏 鲜国建 寇远涛 《数字图书馆论坛》 CSSCI 2019年第8期18-24,共7页
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CH... 针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。 展开更多
关键词 特征抽取 TF-IDF 卡方统计 文本分类 农业科技文献
下载PDF
文本分类中TF-IDF算法的改进研究 被引量:7
19
作者 吴宗卓 《计算技术与自动化》 2022年第2期84-86,共3页
文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法... 文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法在数据集中选择1000个特征,然后使用TF-IDF、TF-IDF-CF、LTC和TFC方法在一些常用的分类器如朴素贝叶斯、贝叶斯网络、KNN、SVM中进行实验。实验结果表明,这种方法可以取得很好的效果。 展开更多
关键词 文本分类 特征选择 chi平方统计 TFIDF 分类准确性
下载PDF
不均衡大数据集下的文本特征基因提取方法 被引量:7
20
作者 孙晶涛 张秋余 《电子科技大学学报》 EI CAS CSCD 北大核心 2018年第1期125-131,共7页
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然... 在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。 展开更多
关键词 chi统计选择方法 不均衡大数据集 独立成分分析 信息熵 文本特征基因提取
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部