基于偏斜数据集的文本分类特征选择方法研究被引量：4

Feature Selection for Skewed Text Categorization

下载PDF

导出

摘要对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果。该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异。然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数—相对类别差异(Relative Category Difference,RCD)。与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优。 The existing for feature selection methods are not appropriate for the skewed corpus in which most of sam- ples belong to a majority class and far fewer samples belong to a minority class. The reason is that these methods se- lect features without considering the relative distribution of each class. As a result, most of selected features using these methods come from the majority class, which tend to misclassify minority class samples. This paper analyzes the characters of the skewed corpus and finds two important factors which can influence feature selection on the skewed data： category distribution and category difference. The category distribution factor indicates category fre- quency difference in whole dataset, and the category difference factor indicates relative documents frequency differ- ence between classes. Then a new feature selection function called Relative Category Difference （RCD） is construc- ted based on the two factors. Experimental results show that the new feature selection method outperforms other methods for the skewed text categorization.

作者刘振岩孟丹王伟平王勇

机构地区中国科学院计算技术研究所中国科学院大学中国科学院信息工程研究所北京理工大学软件学院

出处《中文信息学报》 CSCD 北大核心 2014年第2期116-121,共6页 Journal of Chinese Information Processing

基金国家242信息安全计划项目(2010A007) 国家863项目(2011AA01A203) 国家自然科学基金(60903047 61272361) 中国科学院先导专项项目(XDA06030200)

关键词文本分类偏斜数据集特征选择类别差异 text categorization skewed dataset feature selection category difference

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
2How B C, Nara Yanan K. An Empirical Study of Fea- ture Selection for Text Categorization based on Term weightage[C]//Proeeedings of the IEEE/WIC/ACM International Conference on Web Intelligenee(WI'04), Beijing, 2004: 599-602. 被引量：1
3Yang Y, Pedersen J. A Comparative Study on Feature Selection in Text Categorization[C]//Proeeedings of the 14th International Conference on Machine Learn- ing, 1997 412-420. 被引量：1
4徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
5张爱华,靖红芳,王斌,徐燕.文本分类中特征权重因子的作用研究[J].中文信息学报,2010,24(3):97-104. 被引量：16
6Christopher D M, Prabhakar R, Hinrich S. Introduc- tion to Information Retrieval[M], 2008. 被引量：1
7代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
8Shoushan Li, Chengqing Zong. A New Approach to Feature Selection for Text Categorization [C]//Pro- ceedings of the IEEE International Conference on Nat- ural Language Processing and Knowledge Engineering (NLP-KE). Wuhan, 2005: 626-630. 被引量：1
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386

二级参考文献44

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38. 被引量：1
5[2]Y Yang,JO Pedersen.A comparative study on feature selection in text categorization.In:Proc of the 14th Int'lConf on Machine Learning (ICML-97).San Francisco:Morgan Kaufmann Publishers,1997.412-420 被引量：1
6[3]NV Chawla,N Japkowicz,A Kotcz.Editorial:Special issue on learning from imbalanced data sets.SIGKDD Explorations Newsletters,2004,6(1):1-6 被引量：1
7[4]D Mladenic,M Grobelnk.Feature selection for unbalanced class distribution and naive bayes.In:Proc of the 16th Int'lConf on Machine Learning (ICML'99).San Francisco:Morgan Kaufmann Publishers,1999.258-267 被引量：1
8[6]Bong,Chih How,K Narayanan.An empirical study of feature selection for text categorization based on term weightage.IEEE/WIC/ACM Int'lConf on Web Intelligence(WI'04),Beijing,2004 被引量：1
9[7]Shoushan Li,Chengqing Zong.A new approach to feature selection for text categorization.IEEE Int'lConf on Natural Language Processing and Knowledge Engineering (NLP-KE),Wuhan,2005 被引量：1
10[8]Castillo MDd,Serrano JI.A multistrategy approach for digital text categorization from imbalanced documents.SIGKDD Explorations Newsletter,2004,6(1):70-79 被引量：1

共引文献742

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
7张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
8王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
9蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
10黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.

同被引文献33

1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
2Wegener D, Mock W, Adranale D. Toolkit-based high-per- formance data mining of large data on MapReduce clusters [ C ]//IEEE International Conference on Data Mining Work- shops. 2009:296 - 301. 被引量：1
3Tan P N, Steinbach M, Kumar V. Introduction to Data Mining [ M]. 北京:机械工业出版社,2010:89-120. 被引量：1
4Pera M S, Ng Y K. A naive Bayes classifier for Web docu- ment summaries created by using word similarity and signifi- cant factors [ J ]. International Journal on Artificial Intelli- gence Tools,2010,19 (4) :465 - 486. 被引量：1
5Malik H H, Fradkin D, Moerchen F. Single pass text classifi-cation by direct feature weighting [ J ]. Knowledge and Infor- mation Systems,2011,28 ( 1 ) :79 - 98. 被引量：1
6Salton G, Clement T Y. On the construction of effective vo- cabularies for information retrieval [ C ]//Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval. 1973. 被引量：1
7How B C, Narayanan K. An empirical study of feature selec- tion for text categorization based on term weightage [ C ]// Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence. 2004:599 - 602. 被引量：1
8Chu C T, Kim S K, Lin Y A, et al. Map-reduce for machine learning on muhicore [ C ]//Proceedings of Neural Informa- tion Processing Systems Conference. 2006. 被引量：1
9刘赫,刘大有,裴志利,高滢.一种基于特征重要度的文本分类特征加权方法[J].计算机研究与发展,2009,46(10):1693-1703. 被引量：24
10邓维斌,王国胤,洪智勇.基于粗糙集的加权朴素贝叶斯邮件过滤方法[J].计算机科学,2011,38(2):218-221. 被引量：21

引证文献4

1赵文涛,孟令军,赵好好,韩炳权,成亚飞.分布式朴素贝叶斯算法在文本分类中的应用[J].测控技术,2016,35(6):50-55. 被引量：2
2秦恺.不完全语义认知过程中信息特征正确识别仿真[J].计算机仿真,2017,34(2):242-245. 被引量：6
3龚静,黄欣阳.文档分类中的多特征最大值法及其改进方法[J].计算机工程与设计,2017,38(8):2262-2268.
4叶敏,汤世平,牛振东.一种基于多特征因子改进的中文文本分类算法[J].中文信息学报,2017,31(4):132-137. 被引量：11

二级引证文献19

1石康乐,孟庆刚.基于贝叶斯推理的中医诊疗小数据构建设想[J].中华中医药学刊,2022,40(5):104-107. 被引量：3
2刘敏,李智彪,熊婷.异构数据库下不完全信息优化检测仿真研究[J].计算机仿真,2017,34(11):390-394. 被引量：1
3邹晓辉.朴素贝叶斯算法在文本分类中的应用[J].数字技术与应用,2017,35(12):132-133. 被引量：13
4齐国顺,尚方,韩冰,王孝余.电子公文分级助手的研制和应用[J].电力信息与通信技术,2018,16(4):34-39. 被引量：1
5宋呈祥,陈秀宏,牛强.文本分类中基于CHI改进的特征选择方法[J].微电子学与计算机,2018,35(9):74-78. 被引量：5
6王斌.基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现[J].电子设计工程,2018,26(17):171-174. 被引量：9
7王荣波,沈卓奇,黄孝喜,谌志群.面向中文短文本情感分析的改进特征选择算法[J].杭州电子科技大学学报（自然科学版）,2019,39(1):45-50. 被引量：4
8朱明,何永宁,吴博.广西农业信息地理匹配引擎设计与实现[J].南方农业学报,2019,50(1):201-207.
9林寒.基于多语言交互的英语翻译在线辅助系统设计[J].现代电子技术,2019,42(6):22-25. 被引量：15
10车蕾,杨小平,王良,梁天新,韩镇远.面向文本结构的混合分层注意力网络的话题归类[J].中文信息学报,2019,33(5):93-102. 被引量：4

1吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：16
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
3许丹丹,蔡立军,王勇.一种改进的少数类样本过抽样算法[J].计算机工程,2012,38(4):67-69. 被引量：2
4孙桂英.离线式10W开关电源的快速设计[J].软件,2011,32(3):124-126.
5刘爽,史国友.基于加权超球支持向量机算法的超文本分类研究[J].大连海事大学学报,2009,35(1):71-74. 被引量：6
6王亚东,殷战稳.基于差异度的旋转机械故障分类[J].河南城建学院学报,2012,21(3):57-60.
7刘芸,唐发根,林广艳.一种改进的近似支持向量机算法[J].北京航空航天大学学报,2007,33(9):1090-1093. 被引量：1
8Srinivas Velivala,Jonathan Muirhead,Sherif Hany,Joseph Davis.定制化版图设计师需要满足市场需求的新工具和功能[J].中国集成电路,2015,24(9):31-38.
9田博,覃正.基于最小二乘加权支持向量机的个人信用预测模型研究[J].运筹与管理,2008,17(4):89-95. 被引量：2
10刘爽,贾传荧,陈鹏.一种自动选择参数的加权支持向量机算法[J].计算机工程与应用,2006,42(2):64-66. 被引量：9

中文信息学报

2014年第2期

浏览历史

内容加载中请稍等...

基于偏斜数据集的文本分类特征选择方法研究被引量：4

参考文献9

二级参考文献44

共引文献742

同被引文献33

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于偏斜数据集的文本分类特征选择方法研究 被引量：4

参考文献9

二级参考文献44

共引文献742

同被引文献33

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于偏斜数据集的文本分类特征选择方法研究被引量：4