新的CDF文本分类特征提取方法被引量：11

New feature selection approach(CDF) for text categorization

下载PDF

导出

摘要对高维的特征集进行降维是文本分类过程中的一个重要环节。在研究了现有的特征降维技术的基础上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。 Reducing the high dimension of feature vectors is an essential part of text categorization. After studying current dimension reduction technique and analyzing some normal methods of feature selection, a new approach, named CDF, for feature selection was proposed by comprehensively taking account of concentration among classes, distribution in class and average frequency in class. Experiment takes K-Nearest Neighbor （KNN） as the evaluation classifier. Experimental results prove that CDF approach is simple and effective, and has better performance than conventional feature selection methods in dimension reduction.

作者熊忠阳蒋健张玉芳

机构地区重庆大学计算机学院

出处《计算机应用》 CSCD 北大核心 2009年第7期1755-1757,共3页 journal of Computer Applications

基金中国博士后科学基金资助项目(20070420711) 重庆市科委自然科学基金计划资助项目(2007BB2372)

关键词文本分类降维特征提取 K-最近邻分类算法评价函数 text categorization dimension reduction feature selection K-Nearest Neighbor （KNN） algorithm evaluation function

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
2李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
3刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4):14-15. 被引量：40
4YANG YIMING, LIU XIN. A re-examination of text categorization methods[ C]// Proceedings of 22nd Annum International ACM SI- GIR Conference on Research and Development in Information Retrieval: SIGIR'99. New York: ACM, 1999:42-49. 被引量：1
5BONG C H, NARAYANAN K. An empirical study of feature selection for text categorization based on term weightage[ C]// Proceedings of the 2004 IEEE/WIC/ACM International Conference on Web Intelligence. Washington, DC: IEEE Computer Society, 2004:599 - 602. 被引量：1
6QIU LIQING, ZHAO RUYI, ZHOU GANG, et al. An extensive empirical study of feature selection for text categorization[ C]//Proceedings of the 7th IEEE/ACIS International Conference on Computer and Information Science. Washington, DC: IEEE Computer Society, 2008:312 - 315. 被引量：1
7NOVOVICOVA J, MALIK A. Information-theoretic feature selection algorithms for text classification [ C]// Proceedings of IEEE International Joint Conference on Neural Networks. Washington, DC: IEEE Computer Society, 2005:3272 - 3277. 被引量：1
8YANG Y, PEDERSEN J Q. A comparative study on feature selection in text categorization[ C]//Proceedings of the 14th International Conference on Machine Learning: ICML'97. Nashville: Morgan Kaufmann Publishers, 1997: 412 - 420. 被引量：1
9申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
10GALAVOTTI L, SEBASTIANI F. Feature selection and negative evidence in automated text categorization[ C]//6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2000:73 -76. 被引量：1

二级参考文献21

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3James Auen.Natural Language Understandin[M].The Benjamin/Cummings Publishing Company, 1991-05. 被引量：1
4Apte C,Damerau F J,Weiss S M.Automated Learning of Decision Rules for Text Categorization[J].ACM Trans On Inform Syst,12(3): 233-251. 被引量：1
5Salton G,Buckley B.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management, 1998 ; 24(5 ) :513 -523. 被引量：1
6Larkey L S.A Patent Search and Classification System[C].In:proceedings of DL-99,4th ACM Conference on Digital Libraries Berkeley,CA,1999:179-187. 被引量：1
7Salton G,Lesk M E.Computer Evaluation of Indexing and Text Processing[J].Association for Computing Machinery, 1968 ; 15 ( 1 ) : 8-36. 被引量：1
8Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年被引量：1
9Yi-Ming Yang,Jan O Pederson.A Comparative Study on Feature Selection in Text Categorization[C].Proc.of 14th International Conference on Machine Learning (ICML-97),1997,412-420. 被引量：1
10T E Dunning.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics,1993,19(1),61-74. 被引量：1

共引文献565

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3周永健,郑玉明,廖湖声.基于模糊聚类的文本分类器[J].微电子学与计算机,2006,23(z1):137-140. 被引量：1
4张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
5张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
6刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
7于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
8王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
9徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
10袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.

同被引文献134

1吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
2徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
3陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
5马东霞,杨殿,郭立.矿业项目投资风险分析的实用方法及其应用[J].金属矿山,2005,34(8):5-6. 被引量：7
6唐雪梅,杨殿,唐军峰.模糊综合评判在矿业投资决策中的应用[J].中国矿业,2005,14(8):29-32. 被引量：6
7陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
8申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
9廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
10向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27

引证文献11

1王培涌,陈好刚,王树峰.一种改进的中文文本特征选择方法[J].现代计算机,2009,15(12):75-77.
2周雪芹,刘建舟,邵雄凯,廖力.中文文本分类中特征提取的方法[J].湖北工业大学学报,2010,25(2):60-62. 被引量：3
3熊忠阳,付玲玲,张玉芳.文本分类中基于概念映射的二次特征降维方法[J].计算机工程与应用,2012,48(1):166-169. 被引量：1
4张玉芳,王勇,刘明,熊忠阳.新的文本分类特征选择方法研究[J].计算机工程与应用,2013,49(5):132-135. 被引量：7
5成松松,艾丽蓉.基于平均词频的文本特征提取方法[J].计算机应用与软件,2013,30(10):243-245. 被引量：5
6程传鹏,苏安婕.一种短文本特征词提取的方法[J].计算机应用与软件,2014,31(6):162-164. 被引量：8
7胡东滨,李雪,徐丽华.基于文本挖掘的海外矿产资源开发项目动态风险评价特征选择算法研究[J].科技进步与对策,2014,31(11):81-86. 被引量：2
8张永军,刘金岭.一种改进的高效贝叶斯短信文本分类器[J].南京师范大学学报（工程技术版）,2014,14(3):70-74. 被引量：6
9张志飞,苗夺谦,聂建云,岳晓冬.否定句的情感不确定性度量及分类[J].计算机研究与发展,2015,52(8):1806-1816. 被引量：8
10张延祥,潘海侠.一种基于区分能力的多类不平衡文本分类特征选择方法[J].中文信息学报,2015,29(4):111-119. 被引量：7

二级引证文献49

1马甲林,刘金岭,金春霞.基于概念簇的文本分类算法[J].图书情报工作,2013,57(15):132-136. 被引量：2
2雷瑜,杨慧中.一种基于加权核Fisher准则的朴素贝叶斯分类器[J].江南大学学报（自然科学版）,2013,12(5):510-514.
3陈世梅,伍星,唐凡.基于BiLSTM-CRF模型的汉语否定信息识别[J].中文信息学报,2018,32(11):55-61. 被引量：2
4王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
5蔡永泉,晋月培,葛安生,赵凯.基于关联分类的中文短信分类[J].北京工业大学学报,2015,41(7):1020-1027. 被引量：4
6朱建林,彭鲸桥,杨小平,王倩.融入词和文本关系的文本表示模型研究[J].山西大学学报（自然科学版）,2015,38(3):392-398.
7黄贤英,陈红阳,刘英涛,熊李媛.一种新的微博短文本特征词选择算法[J].计算机工程与科学,2015,37(9):1761-1767. 被引量：17
8石雁,李朝锋.结合统计和词间关系的文本关键词计算方法[J].计算机技术与发展,2015,25(12):22-27.
9宋广宇,孙建军.基于中介度揭示学科热点与传统词频统计法结果比较研究——以链接分析领域为例[J].情报杂志,2016,35(3):137-141. 被引量：2
10郑诚,吴文岫,代宁.融合BTM主题特征的短文本分类方法[J].计算机工程与应用,2016,52(13):95-100. 被引量：11

1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
2张玉芳,王勇,刘明,熊忠阳.新的文本分类特征选择方法研究[J].计算机工程与应用,2013,49(5):132-135. 被引量：7
3杨帆,郭建华,谭海,王竞雪.灰度直方图与K-最近邻的影像分割算法[J].测绘科学,2017,42(3):7-11. 被引量：1
4王亮.一种模糊加权软子空间聚类[J].科技致富向导,2011(11):65-66.
5张锴赫.基于校园网下的多媒体网络教室的构建[J].辽宁教育行政学院学报,2006,23(5):171-172.
6苏力华,朱章华,白文华,.基于向量空间模型的文本分类特征权重算法研究[J].电脑知识与技术（过刊）,2010,0(33):9327-9329. 被引量：4
7李明江.结合类词频的文本特征选择方法的研究[J].计算机应用研究,2014,31(7):2024-2026. 被引量：6
8张艳华,王海涌,郑丽英.基于支持向量机的文本分类技术研究[J].甘肃科学学报,2006,18(3):72-74. 被引量：5
9滕敏,卫文学,滕宁.K-最近邻分类算法应用研究[J].软件导刊,2015,14(3):44-46. 被引量：11
10谢勤岚.结合类可分性和遗传算法的核ICA特征选择[J].武汉理工大学学报（交通科学与工程版）,2009,33(4):772-775. 被引量：2

计算机应用

2009年第7期

浏览历史

内容加载中请稍等...

新的CDF文本分类特征提取方法被引量：11

参考文献11

二级参考文献21

共引文献565

同被引文献134

引证文献11

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

新的CDF文本分类特征提取方法 被引量：11

参考文献11

二级参考文献21

共引文献565

同被引文献134

引证文献11

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

新的CDF文本分类特征提取方法被引量：11