期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
22
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
用于不完整数据的选择性贝叶斯分类器
被引量:
11
1
作者
陈景年
黄厚宽
+1 位作者
田凤占
付树军
《计算机研究与发展》
EI
CSCD
北大核心
2007年第8期1324-1330,共7页
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多...
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些.
展开更多
关键词
贝叶斯方法
分类
特征选择
不完整数据
x
2
统
计量
下载PDF
职称材料
认知诊断模型-资料拟合检验统计量及其性能
被引量:
5
2
作者
涂冬波
张心
+1 位作者
蔡艳
戴海琦
《心理科学》
CSSCI
CSCD
北大核心
2014年第1期205-211,共7页
本文将IRT常用资料-模型拟合检验统计量χ2和G2引入认知诊断领域,具体讨论了这两个统计量在认知诊断资料-模型拟合检验的可行性及其侦查效果,为研究者及实际应用者在认知诊断资料模型拟合检验中提供借鉴及方法学支持。
关键词
认知诊断
资料-模型拟合检验
x
2
统
计量
G
2
伊
统
计量
下载PDF
职称材料
基于交叉覆盖算法的文本分类
被引量:
5
3
作者
王倩倩
段震
张燕平
《计算机技术与发展》
2007年第6期113-115,共3页
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可...
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。
展开更多
关键词
文本分类
x
2
统
计量
交叉覆盖算法
下载PDF
职称材料
一种改进的X^2统计量方法
被引量:
1
4
作者
程传鹏
《中原工学院学报》
CAS
2010年第6期73-75,共3页
对文本特征提取中的统计量方法进行了介绍,并且指出了该方法在分类中的不足之处;在此基础上,提出了一种改进的特征选择方法,并把该方法应用到后续的文本分类中.分类实验结果表明,分类准确率得到了一定的提高.
关键词
文本分类
特征提取
x
2
统
计量
下载PDF
职称材料
文本分类中基于改进的词语权重算法的研究
被引量:
1
5
作者
侯艳钗
沈西挺
《微计算机信息》
2011年第6期211-213,共3页
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整...
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。
展开更多
关键词
中文文本
特征项
x
2
统
计量
下载PDF
职称材料
文本分类中特征提取方法的比较改进
被引量:
1
6
作者
王娟
《兰州工业学院学报》
2013年第5期22-24,共3页
介绍了IG(Information gain)信息增益,MI(Mutual information)互信息值,CHI(χ2统计法)、DF(Document frequency)文档频率4种常用的文本特征提取方法,然后针对CHI方法提出了改进方法,并对改进的方法进行了实验分析,结果表明改进的方法...
介绍了IG(Information gain)信息增益,MI(Mutual information)互信息值,CHI(χ2统计法)、DF(Document frequency)文档频率4种常用的文本特征提取方法,然后针对CHI方法提出了改进方法,并对改进的方法进行了实验分析,结果表明改进的方法提高了文本分类的正确率.
展开更多
关键词
文本分类
特征提取
x
2
统
计量
下载PDF
职称材料
一种改进的文本网页分类特征选择方法
被引量:
8
7
作者
李粤
李星
+1 位作者
刘辉
许静芳
《计算机应用》
CSCD
北大核心
2004年第7期119-121,共3页
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本...
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本网页数据集分类实验中 ,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针”
展开更多
关键词
文本网页分类
特征选择
x
^
2
统
计量
互信息量
联合特征选择
下载PDF
职称材料
长柄双花木分布群落中优势种群间联结性研究
被引量:
9
8
作者
肖宜安
何平
+2 位作者
李晓红
邓洪平
时明芝
《西南师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2003年第6期952-957,共6页
运用种间联结指数及2×2列联表的X2统计量分别测定了长柄双花木群落中物种总体关联性和群落中主要树种种对间的联结性.结果表明:群落物种总体表现出一定程度的正关联,群落处于比较稳定的阶段.群落中13种主要树种的78个种对中,有40...
运用种间联结指数及2×2列联表的X2统计量分别测定了长柄双花木群落中物种总体关联性和群落中主要树种种对间的联结性.结果表明:群落物种总体表现出一定程度的正关联,群落处于比较稳定的阶段.群落中13种主要树种的78个种对中,有40个种对表现出正关联,有37个种对表现出负关联,1个种对表现为相互独立的关系,正负关联种对数比例接近1∶1.而长柄双花木与其它12个物种之间有8对表现为正联结,4对表现为负联结,但均未达到显著水平.根据种间联结系数和群落结构,长柄双花木分布群落中的13个主要优势种分为3个生态种组.
展开更多
关键词
长柄双花木
分布群落
优势种群
关联性
x
^
2
统
计量
星座图
生态种组
种间联结
下载PDF
职称材料
基于模式聚合和决策树的文本分类规则抽取
被引量:
3
9
作者
王煜
王正欧
《情报科学》
CSSCI
北大核心
2006年第1期96-99,123,共5页
本文首先提出一种改进的χ2统计量,以此衡量词条对文本分类的贡献。然后根据模式聚合理论,将对各文本类分类贡献比例相近似的词条聚合为一个特征,建立出文本集的特征向量空间模型。此方法有效地降低了文本特征向量空间的维数。最后使用...
本文首先提出一种改进的χ2统计量,以此衡量词条对文本分类的贡献。然后根据模式聚合理论,将对各文本类分类贡献比例相近似的词条聚合为一个特征,建立出文本集的特征向量空间模型。此方法有效地降低了文本特征向量空间的维数。最后使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取可理解的分类规则的优势。
展开更多
关键词
规则抽取
模式聚合
x
^
2
统
计量
决策树
下载PDF
职称材料
统计频率算法在文本信息过滤系统中的应用
被引量:
4
10
作者
张帆
张俊丽
《图书情报工作》
CSSCI
北大核心
2009年第13期116-119,共4页
文本信息过滤技术中的一个重要问题是对文档进行特征选择,分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,不能说明词条和类别的相关性等缺点,进行改进,提出一种新的统计频率(Statistical Frequency,SF)算...
文本信息过滤技术中的一个重要问题是对文档进行特征选择,分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,不能说明词条和类别的相关性等缺点,进行改进,提出一种新的统计频率(Statistical Frequency,SF)算法,并将此算法应用到文本信息过滤系统中。实验结果表明,统计频率算法能够弥补上述不足,表现出良好的过滤效果。
展开更多
关键词
文本过滤
特征选择
x
^
2
统
计量
原文传递
中文网页分类中特征提取的研究
被引量:
2
11
作者
程传鹏
李钜
《中原工学院学报》
CAS
2005年第6期42-44,共3页
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结...
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结果表明,准确率得到了一定的提高.
展开更多
关键词
网页分类
特征提取
x
^
2
统
计量
中文网页
下载PDF
职称材料
基于统计频率的文本分类特征选择算法研究
被引量:
3
12
作者
张俊丽
赵乃瑄
冯君
《现代图书情报技术》
CSSCI
北大核心
2008年第11期44-48,共5页
通过分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency,SF)算法。实验结果表明,统计频率算法能够弥补这些不足,在...
通过分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency,SF)算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。
展开更多
关键词
文本分类
特征选择
KNN
x
^
2
统
计量
下载PDF
职称材料
对同异反态势排序在学生成绩分析中的作用的讨论
被引量:
3
13
作者
常振江
《辽宁师范大学学报(自然科学版)》
CAS
2002年第3期325-328,共4页
针对已有文献把集对分析中同异反态势排序应用到学生成绩分析中的做法 ,以Pearsonχ2 -统计量作为检验理论 ,对已有文献所用的例子进行了分析 ,得出了其成绩分布是服从Gaussian分布的 .指出了已有文献方法的不足 .
关键词
成绩分析
同异反态势排序
Gaussian分布
学生成绩
同异反联系数
教学评价
Pearson
x
^
2
-
统
计量
下载PDF
职称材料
覆盖算法下文本分类特征选择的研究
被引量:
2
14
作者
段震
王倩倩
+1 位作者
张燕平
张铃
《计算机技术与发展》
2008年第11期29-31,共3页
文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆...
文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。
展开更多
关键词
文本分类
x
^
2
统
计量
覆盖算法
特征选择
下载PDF
职称材料
有奖储蓄中奖号码的计算机分析
15
作者
王国钧
戴洪坤
《湖州师范学院学报》
1988年第6期73-76,共4页
本文根据K.Pearson X^2的检验法,对中国工商银行浙江省分行1981年1月~1987年12月所有的由摇奖机摇出的有奖储蓄的中奖号码,利用电子计算机进行了统计分析.运算结果肯定了中国工商银行浙江省分行目前的摇奖方法是可靠的.也就是说,每个...
本文根据K.Pearson X^2的检验法,对中国工商银行浙江省分行1981年1月~1987年12月所有的由摇奖机摇出的有奖储蓄的中奖号码,利用电子计算机进行了统计分析.运算结果肯定了中国工商银行浙江省分行目前的摇奖方法是可靠的.也就是说,每个月在全省的某一地、市、县轮流用不同的摇奖机、不同的号珠,由不同的操作人员摇出中奖号码的方法,是行得通的.同时也指出,广大储户完全没有必要去择号购奖券,甚至买好以后再去调换所谓“中意的奖券,因为相对于信度10%而言,我们肯定了假设H:0~9这十个号珠中的每一个被摇奖机摇出的概率是相等的.”
展开更多
关键词
皮尔逊定理
x
^
2
检验法
频数
假设
子样容量
x
^
2
统
计量
下载PDF
职称材料
音子配列学语种识别系统中特征选择方法的研究
被引量:
1
16
作者
梁春燕
杨琳
+2 位作者
汪俊杰
张建平
颜永红
《声学学报》
EI
CSCD
北大核心
2013年第2期208-214,共7页
将信息增益和加权log似然比特征选择方法应用于音子配列学语种识别系统中进行特征降维。在美国国家标准技术研究院2009年语种识别评测数据集上进行实验,分别使用信息增益和加权log似然比准则以及传统的互信息,X^2统计量方法对数量巨大...
将信息增益和加权log似然比特征选择方法应用于音子配列学语种识别系统中进行特征降维。在美国国家标准技术研究院2009年语种识别评测数据集上进行实验,分别使用信息增益和加权log似然比准则以及传统的互信息,X^2统计量方法对数量巨大的N-gram进行特征选择,从中选出最具有鉴别性的部分组成特征向量,并用分类器进行分类。结果显示,当根据信息增益和加权log似然比准则选取一定数量的特征时,系统性能与使用全部特征的基线系统相比略好;当选取的特征数量很少时,信息增益和加权log似然比方法的性能要优于传统的互信息和X^2统计量方法。实验表明,在音子配列学语种识别系统中,信息增益和加权log似然比方法均可以有效地去除冗余信息,降低特征向量的维数,并且能使系统性能得到一定的提高。
展开更多
关键词
特征选择
识别系
统
语种识别
似然比准则
x
^
2
统
计量
标准技术研究院
信息增益
N-GRAM
下载PDF
职称材料
关于X^2,T,F统计量的抽样分布
17
作者
吴本忠
熊怀陆
《安徽大学学报(自然科学版)》
CAS
1995年第4期27-30,50,共5页
文中给出了非中心x~2,t,F统计量分布密度的证明。
关键词
非中心
分布密度
统
计量
x
^
2
统
计量
下载PDF
职称材料
对X^2统计量的一种看法
18
作者
张尧庭
Afsar.,K
《高校应用数学学报(A辑)》
CSCD
北大核心
1992年第3期403-410,共8页
关键词
x
^
2
统
计量
统
计量
统
计分析
下载PDF
职称材料
选举模型中名额分配方法浅谈
19
作者
白波
赵展辉
《广西工学院学报》
CAS
2001年第4期88-91,共4页
本文通过对名额分配问题中两种常用方法“Hamilton方法”和“Huntington方法”的分析和比较 ,提出了评价名额分配的一个标准—— χ2统计量。进而给出了较 Huntington方法更加合理的新的名额分配方法—— χ2拟合法 ,标准量是 Wk=pk/ (2...
本文通过对名额分配问题中两种常用方法“Hamilton方法”和“Huntington方法”的分析和比较 ,提出了评价名额分配的一个标准—— χ2统计量。进而给出了较 Huntington方法更加合理的新的名额分配方法—— χ2拟合法 ,标准量是 Wk=pk/ (2 nk +1) 。
展开更多
关键词
Hamilton方法
Huntington方法
x
^
2
统
计量
选举模型
名额分配
x
^
2
拟合法
下载PDF
职称材料
x^2-统计量及其在生物科学中的应用
20
作者
王文植
梁淑云
《生物数学学报》
CSCD
北大核心
1992年第1期42-47,共6页
~~
关键词
x
^
2
统
计量
生物科学
生物
统
计
下载PDF
职称材料
题名
用于不完整数据的选择性贝叶斯分类器
被引量:
11
1
作者
陈景年
黄厚宽
田凤占
付树军
机构
北京交通大学计算机与信息技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第8期1324-1330,共7页
基金
国家自然科学基金项目(60503017
60673089)
文摘
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些.
关键词
贝叶斯方法
分类
特征选择
不完整数据
x
2
统
计量
Keywords
Bayesian method
classification
feature selection
incomplete data
chi-squared statistics
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
认知诊断模型-资料拟合检验统计量及其性能
被引量:
5
2
作者
涂冬波
张心
蔡艳
戴海琦
机构
江西师范大学心理学院
出处
《心理科学》
CSSCI
CSCD
北大核心
2014年第1期205-211,共7页
基金
国家自然科学基金(编号:31100756
31300876
+7 种基金
31160203
3136 0237)
教育部人文社科项目(编号:11YJC190002)
高等院校博士点基金项目(编号:20103604120001)
江西省社会科学规划重点项目(编号:13JY01)
江西省教育科学规划项目(编号:12YB088
13YB029)
江西师范大学青年英才培育资助计划等课题的资助
文摘
本文将IRT常用资料-模型拟合检验统计量χ2和G2引入认知诊断领域,具体讨论了这两个统计量在认知诊断资料-模型拟合检验的可行性及其侦查效果,为研究者及实际应用者在认知诊断资料模型拟合检验中提供借鉴及方法学支持。
关键词
认知诊断
资料-模型拟合检验
x
2
统
计量
G
2
伊
统
计量
Keywords
cognitive diagnosis, goodness-of-fit test,
x
2
statistics, G
2
statistics
分类号
B842 [哲学宗教—基础心理学]
下载PDF
职称材料
题名
基于交叉覆盖算法的文本分类
被引量:
5
3
作者
王倩倩
段震
张燕平
机构
安徽大学计算智能与信号处理重点实验室
出处
《计算机技术与发展》
2007年第6期113-115,共3页
基金
"九七三"计划国家重点基础研究(2004CB318108)
国家自然科学基金(60475017
+1 种基金
60135010)
安徽省自然科学基金(050420208)
文摘
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。
关键词
文本分类
x
2
统
计量
交叉覆盖算法
Keywords
te
x
t classification
x
^
2
statistic
cross cover algorithm
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种改进的X^2统计量方法
被引量:
1
4
作者
程传鹏
机构
中原工学院
出处
《中原工学院学报》
CAS
2010年第6期73-75,共3页
文摘
对文本特征提取中的统计量方法进行了介绍,并且指出了该方法在分类中的不足之处;在此基础上,提出了一种改进的特征选择方法,并把该方法应用到后续的文本分类中.分类实验结果表明,分类准确率得到了一定的提高.
关键词
文本分类
特征提取
x
2
统
计量
Keywords
web page classification
feature selection
x
2
statistics
分类号
TN391.07 [电子电信—物理电子学]
下载PDF
职称材料
题名
文本分类中基于改进的词语权重算法的研究
被引量:
1
5
作者
侯艳钗
沈西挺
机构
河北工业大学计算机科学与软件学院
出处
《微计算机信息》
2011年第6期211-213,共3页
文摘
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。
关键词
中文文本
特征项
x
2
统
计量
Keywords
Chinese te
x
t
feature items
x
2
statistic
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
文本分类中特征提取方法的比较改进
被引量:
1
6
作者
王娟
机构
兰州理工大学计算机与通信学院
兰州工业学院软件工程学院
出处
《兰州工业学院学报》
2013年第5期22-24,共3页
文摘
介绍了IG(Information gain)信息增益,MI(Mutual information)互信息值,CHI(χ2统计法)、DF(Document frequency)文档频率4种常用的文本特征提取方法,然后针对CHI方法提出了改进方法,并对改进的方法进行了实验分析,结果表明改进的方法提高了文本分类的正确率.
关键词
文本分类
特征提取
x
2
统
计量
Keywords
te
x
t categorization
feature selection
statistical magnitude
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的文本网页分类特征选择方法
被引量:
8
7
作者
李粤
李星
刘辉
许静芳
机构
清华大学电子工程系
出处
《计算机应用》
CSCD
北大核心
2004年第7期119-121,共3页
基金
国家自然科学基金资助项目 (90 1 0 4 0 0 2 )
文摘
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本网页数据集分类实验中 ,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针”
关键词
文本网页分类
特征选择
x
^
2
统
计量
互信息量
联合特征选择
Keywords
Web pages categorization
feature selection
x
2
statistics
mutual information
combined
x
2
feature selection
分类号
TP391.07 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
长柄双花木分布群落中优势种群间联结性研究
被引量:
9
8
作者
肖宜安
何平
李晓红
邓洪平
时明芝
机构
西南师范大学生命科学学院
井冈山师范学院生命科学系
聊城大学生命科学学院
出处
《西南师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2003年第6期952-957,共6页
基金
国家自然科学基金资助项目(30070080).
文摘
运用种间联结指数及2×2列联表的X2统计量分别测定了长柄双花木群落中物种总体关联性和群落中主要树种种对间的联结性.结果表明:群落物种总体表现出一定程度的正关联,群落处于比较稳定的阶段.群落中13种主要树种的78个种对中,有40个种对表现出正关联,有37个种对表现出负关联,1个种对表现为相互独立的关系,正负关联种对数比例接近1∶1.而长柄双花木与其它12个物种之间有8对表现为正联结,4对表现为负联结,但均未达到显著水平.根据种间联结系数和群落结构,长柄双花木分布群落中的13个主要优势种分为3个生态种组.
关键词
长柄双花木
分布群落
优势种群
关联性
x
^
2
统
计量
星座图
生态种组
种间联结
Keywords
association
x
^
2
-test
constellation figure
ecogroup of species
Disanthus cercidifolius. var. longipes H.T.Chang
分类号
Q948.122.1 [生物学—植物学]
下载PDF
职称材料
题名
基于模式聚合和决策树的文本分类规则抽取
被引量:
3
9
作者
王煜
王正欧
机构
河北大学数学与计算机学院
天津大学系统工程研究所
出处
《情报科学》
CSSCI
北大核心
2006年第1期96-99,123,共5页
基金
国家自然科学基金资助项目(60275020)
文摘
本文首先提出一种改进的χ2统计量,以此衡量词条对文本分类的贡献。然后根据模式聚合理论,将对各文本类分类贡献比例相近似的词条聚合为一个特征,建立出文本集的特征向量空间模型。此方法有效地降低了文本特征向量空间的维数。最后使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取可理解的分类规则的优势。
关键词
规则抽取
模式聚合
x
^
2
统
计量
决策树
Keywords
rule e
x
traction
pattern aggregation
x
^
2
statistic
decision tree
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
统计频率算法在文本信息过滤系统中的应用
被引量:
4
10
作者
张帆
张俊丽
机构
华中师范大学信息管理系
南京大学信息管理系
出处
《图书情报工作》
CSSCI
北大核心
2009年第13期116-119,共4页
基金
2006年国家社会科学基金项目"网络信息过滤研究"(项目编号:06BTQ024)研究成果之一
文摘
文本信息过滤技术中的一个重要问题是对文档进行特征选择,分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,不能说明词条和类别的相关性等缺点,进行改进,提出一种新的统计频率(Statistical Frequency,SF)算法,并将此算法应用到文本信息过滤系统中。实验结果表明,统计频率算法能够弥补上述不足,表现出良好的过滤效果。
关键词
文本过滤
特征选择
x
^
2
统
计量
Keywords
te
x
t categorization feature selection chi -square
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
中文网页分类中特征提取的研究
被引量:
2
11
作者
程传鹏
李钜
机构
中原工学院
出处
《中原工学院学报》
CAS
2005年第6期42-44,共3页
文摘
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结果表明,准确率得到了一定的提高.
关键词
网页分类
特征提取
x
^
2
统
计量
中文网页
Keywords
web page classification
feature selection
x
^
2
statistics
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计频率的文本分类特征选择算法研究
被引量:
3
12
作者
张俊丽
赵乃瑄
冯君
机构
南京工业大学图书馆
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第11期44-48,共5页
基金
江苏省教育厅高校哲学社会科学基金项目"江苏高校数字图书馆引进资源的绩效评价与发展战略研究"(项目编号:08SJB8700004)的研究成果之一
文摘
通过分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency,SF)算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。
关键词
文本分类
特征选择
KNN
x
^
2
统
计量
Keywords
Te
x
t categorization Feature selection KNN Chi - square
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
对同异反态势排序在学生成绩分析中的作用的讨论
被引量:
3
13
作者
常振江
机构
辽宁师范大学数学系
出处
《辽宁师范大学学报(自然科学版)》
CAS
2002年第3期325-328,共4页
文摘
针对已有文献把集对分析中同异反态势排序应用到学生成绩分析中的做法 ,以Pearsonχ2 -统计量作为检验理论 ,对已有文献所用的例子进行了分析 ,得出了其成绩分布是服从Gaussian分布的 .指出了已有文献方法的不足 .
关键词
成绩分析
同异反态势排序
Gaussian分布
学生成绩
同异反联系数
教学评价
Pearson
x
^
2
-
统
计量
Keywords
IDC state sort
Gaussion distribution
students' marks
分类号
G420 [文化科学—课程与教学论]
G40-051 [文化科学—教育学]
下载PDF
职称材料
题名
覆盖算法下文本分类特征选择的研究
被引量:
2
14
作者
段震
王倩倩
张燕平
张铃
机构
安徽大学计算智能与信号处理教育部重点实验室
出处
《计算机技术与发展》
2008年第11期29-31,共3页
基金
国家自然科学基金(60675031)
"九七三"计划国家重点基础研究(2004CB318108
2007BC311003)
文摘
文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。
关键词
文本分类
x
^
2
统
计量
覆盖算法
特征选择
Keywords
te
x
t classification
x
^
2
statistic
cover algorithm
feature selection
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
有奖储蓄中奖号码的计算机分析
15
作者
王国钧
戴洪坤
出处
《湖州师范学院学报》
1988年第6期73-76,共4页
文摘
本文根据K.Pearson X^2的检验法,对中国工商银行浙江省分行1981年1月~1987年12月所有的由摇奖机摇出的有奖储蓄的中奖号码,利用电子计算机进行了统计分析.运算结果肯定了中国工商银行浙江省分行目前的摇奖方法是可靠的.也就是说,每个月在全省的某一地、市、县轮流用不同的摇奖机、不同的号珠,由不同的操作人员摇出中奖号码的方法,是行得通的.同时也指出,广大储户完全没有必要去择号购奖券,甚至买好以后再去调换所谓“中意的奖券,因为相对于信度10%而言,我们肯定了假设H:0~9这十个号珠中的每一个被摇奖机摇出的概率是相等的.”
关键词
皮尔逊定理
x
^
2
检验法
频数
假设
子样容量
x
^
2
统
计量
Keywords
Pearson Theorem,
x
^
2
testing method, frequency:hypothesis, sample size,
x
^
2
statistic
分类号
F83 [经济管理—金融学]
下载PDF
职称材料
题名
音子配列学语种识别系统中特征选择方法的研究
被引量:
1
16
作者
梁春燕
杨琳
汪俊杰
张建平
颜永红
机构
中国科学院声学研究所中国科学院语言声学与内容理解重点实验室
出处
《声学学报》
EI
CSCD
北大核心
2013年第2期208-214,共7页
基金
国家自然科学基金(10925419
90920302
+7 种基金
61072124
11074275
11161140319
91120001)
中国科学院战略性先导科技专项(XDA06030100
XDA06030500)
国家863计划(2012AA012503)
中国科学院重点部署(KGZD-EW-103-2)资助项目
文摘
将信息增益和加权log似然比特征选择方法应用于音子配列学语种识别系统中进行特征降维。在美国国家标准技术研究院2009年语种识别评测数据集上进行实验,分别使用信息增益和加权log似然比准则以及传统的互信息,X^2统计量方法对数量巨大的N-gram进行特征选择,从中选出最具有鉴别性的部分组成特征向量,并用分类器进行分类。结果显示,当根据信息增益和加权log似然比准则选取一定数量的特征时,系统性能与使用全部特征的基线系统相比略好;当选取的特征数量很少时,信息增益和加权log似然比方法的性能要优于传统的互信息和X^2统计量方法。实验表明,在音子配列学语种识别系统中,信息增益和加权log似然比方法均可以有效地去除冗余信息,降低特征向量的维数,并且能使系统性能得到一定的提高。
关键词
特征选择
识别系
统
语种识别
似然比准则
x
^
2
统
计量
标准技术研究院
信息增益
N-GRAM
Keywords
Acoustics
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
关于X^2,T,F统计量的抽样分布
17
作者
吴本忠
熊怀陆
机构
安徽大学工商管理系
出处
《安徽大学学报(自然科学版)》
CAS
1995年第4期27-30,50,共5页
文摘
文中给出了非中心x~2,t,F统计量分布密度的证明。
关键词
非中心
分布密度
统
计量
x
^
2
统
计量
Keywords
noncenter, density function, twin noncenter.
分类号
O212.1 [理学—概率论与数理统计]
下载PDF
职称材料
题名
对X^2统计量的一种看法
18
作者
张尧庭
Afsar.,K
出处
《高校应用数学学报(A辑)》
CSCD
北大核心
1992年第3期403-410,共8页
关键词
x
^
2
统
计量
统
计量
统
计分析
分类号
O212.1 [理学—概率论与数理统计][理学—数学]
下载PDF
职称材料
题名
选举模型中名额分配方法浅谈
19
作者
白波
赵展辉
机构
柳州电大
广西工学院信息与计算科学系
出处
《广西工学院学报》
CAS
2001年第4期88-91,共4页
文摘
本文通过对名额分配问题中两种常用方法“Hamilton方法”和“Huntington方法”的分析和比较 ,提出了评价名额分配的一个标准—— χ2统计量。进而给出了较 Huntington方法更加合理的新的名额分配方法—— χ2拟合法 ,标准量是 Wk=pk/ (2 nk +1) 。
关键词
Hamilton方法
Huntington方法
x
^
2
统
计量
选举模型
名额分配
x
^
2
拟合法
Keywords
Hamilton method
Huntington method
χ
2
statistic quantity
分类号
D034.4 [政治法律—政治学]
O22 [理学—运筹学与控制论]
下载PDF
职称材料
题名
x^2-统计量及其在生物科学中的应用
20
作者
王文植
梁淑云
机构
西南农业大学
出处
《生物数学学报》
CSCD
北大核心
1992年第1期42-47,共6页
文摘
~~
关键词
x
^
2
统
计量
生物科学
生物
统
计
Keywords
x
^
2
-statistics, multinomial distribution, convergence in distribution.
分类号
Q-332 [生物学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
用于不完整数据的选择性贝叶斯分类器
陈景年
黄厚宽
田凤占
付树军
《计算机研究与发展》
EI
CSCD
北大核心
2007
11
下载PDF
职称材料
2
认知诊断模型-资料拟合检验统计量及其性能
涂冬波
张心
蔡艳
戴海琦
《心理科学》
CSSCI
CSCD
北大核心
2014
5
下载PDF
职称材料
3
基于交叉覆盖算法的文本分类
王倩倩
段震
张燕平
《计算机技术与发展》
2007
5
下载PDF
职称材料
4
一种改进的X^2统计量方法
程传鹏
《中原工学院学报》
CAS
2010
1
下载PDF
职称材料
5
文本分类中基于改进的词语权重算法的研究
侯艳钗
沈西挺
《微计算机信息》
2011
1
下载PDF
职称材料
6
文本分类中特征提取方法的比较改进
王娟
《兰州工业学院学报》
2013
1
下载PDF
职称材料
7
一种改进的文本网页分类特征选择方法
李粤
李星
刘辉
许静芳
《计算机应用》
CSCD
北大核心
2004
8
下载PDF
职称材料
8
长柄双花木分布群落中优势种群间联结性研究
肖宜安
何平
李晓红
邓洪平
时明芝
《西南师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2003
9
下载PDF
职称材料
9
基于模式聚合和决策树的文本分类规则抽取
王煜
王正欧
《情报科学》
CSSCI
北大核心
2006
3
下载PDF
职称材料
10
统计频率算法在文本信息过滤系统中的应用
张帆
张俊丽
《图书情报工作》
CSSCI
北大核心
2009
4
原文传递
11
中文网页分类中特征提取的研究
程传鹏
李钜
《中原工学院学报》
CAS
2005
2
下载PDF
职称材料
12
基于统计频率的文本分类特征选择算法研究
张俊丽
赵乃瑄
冯君
《现代图书情报技术》
CSSCI
北大核心
2008
3
下载PDF
职称材料
13
对同异反态势排序在学生成绩分析中的作用的讨论
常振江
《辽宁师范大学学报(自然科学版)》
CAS
2002
3
下载PDF
职称材料
14
覆盖算法下文本分类特征选择的研究
段震
王倩倩
张燕平
张铃
《计算机技术与发展》
2008
2
下载PDF
职称材料
15
有奖储蓄中奖号码的计算机分析
王国钧
戴洪坤
《湖州师范学院学报》
1988
0
下载PDF
职称材料
16
音子配列学语种识别系统中特征选择方法的研究
梁春燕
杨琳
汪俊杰
张建平
颜永红
《声学学报》
EI
CSCD
北大核心
2013
1
下载PDF
职称材料
17
关于X^2,T,F统计量的抽样分布
吴本忠
熊怀陆
《安徽大学学报(自然科学版)》
CAS
1995
0
下载PDF
职称材料
18
对X^2统计量的一种看法
张尧庭
Afsar.,K
《高校应用数学学报(A辑)》
CSCD
北大核心
1992
0
下载PDF
职称材料
19
选举模型中名额分配方法浅谈
白波
赵展辉
《广西工学院学报》
CAS
2001
0
下载PDF
职称材料
20
x^2-统计量及其在生物科学中的应用
王文植
梁淑云
《生物数学学报》
CSCD
北大核心
1992
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部