-
题名面向文本分类的基于最小冗余原则的特征选取
被引量:3
- 1
-
-
作者
张希娟
王会珍
朱靖波
-
机构
东北大学信息学院计算机软件与理论研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期56-60,共5页
-
基金
国家自然科学基金资助项目(60473140)
国家863高科技计划课题资助(2006AA01Z154)
+1 种基金
国家教育部新世纪优秀人才计划项目资助(NCET-05-0287)
国家985工程计划项目资助(985-2-DB-C03)
-
文摘
在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal RedundancyPrinciple,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。
-
关键词
计算机应用
中文信息处理
条件独立性假设
最小冗余原则
特征选取
文本分类
-
Keywords
computer application
Chinese information processing
conditional independence assumption
minimal redundancy principle
feature selection
text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名最大相关最小冗余两阶段文本特征选择方法
- 2
-
-
作者
冷婷
叶仁玉
徐思蓉
-
机构
安庆师范大学数理学院
-
出处
《安徽理工大学学报(自然科学版)》
CAS
2024年第3期83-89,共7页
-
基金
国家社会科学基金资助项目(21BTJ040)
安徽高校自然科学研究重点安徽省教育厅项目(KJ2019A0557)
安徽省研究生创新创业实践项目(2022cxcysj166)。
-
文摘
目的为解决传统卡方统计法(CHI)仅考虑文本特征与文本类别的相关性进行特征选择,未考虑特征之间的冗余性,导致文本分类的性能不佳的问题。方法使用最大相关最小冗余原则,对CHI法初次选择的特征子集,利用强相关低冗余思想有目的地筛选低冗余特征,提升文本特征选择效果,提出一种基于最大相关最小冗余的两阶段文本特征选择方法(CHI_impMI)。结果对复旦大学新闻文本语料进行分类,相比于CHI和CHI_MI特征选择方法,CHI_impMI方法的性能指标均为最优,文本分类效果最好。结论CHI_impMI方法在相关度与冗余度之间达到了很好的平衡,从而有效提升文本分类性能。
-
关键词
卡方统计方法
最大相关最小冗余原则
互信息
文本分类
特征选择
-
Keywords
Chi-Square statistics
the principle of maximum correlation and minimum redundancy
mutual information
text classification
feature selection
-
分类号
O212.4
[理学—概率论与数理统计]
TP391
[理学—数学]
-