文本分类中一种混合型特征降维方法被引量：11

Mixed Method of Reducing Feature in Text Classification

下载PDF

导出

摘要提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异信息对特征集进行初步选择。使用一种新的基于PCA的特征抽取方法对剩余特征集进行二次抽取,在最大限度减少信息损失的前提下实现了文本特征的有效降维。对文本的分类实验结果表明,该特征降维方法具有良好的分类效果。 A mixed method of reducing the text features based on feature selection and feature extraction is brought forward. The characteristics about feature selection and feature extraction are analyzed. Some features are chosen by using the sort distribution information. And a new way based on Principle Component Analysis（PCA） is used to extract the surplus features and realize the compression of features twice. In the precondition of the information loss least, the text feature decrease smart is completed. Test results show that this method has a better precision in the text categorization.

作者刘海峰王元元姚泽清张述祖

机构地区解放军理工大学指挥自动化学院解放军理工大学理学院

出处《计算机工程》 CAS CSCD 北大核心 2009年第2期194-196,共3页 Computer Engineering

基金国家自然科学基金资助项目(70571087)

关键词文本分类特征选择特征抽取主成分分析 text classification feature selection feature extraction Principle Component Analysis（PCA）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Cover T M. The Best Two Independent Measurements Are Not the Two Best[J]. 1EEE Transactions on Systems, Man, and Cybernetics, 1974, 4(1): 116-117. 被引量：1
2Makrehchi M, Kamel M S. Text Classification Using Small Number of Features[C]//Proc. of the 4th Int'l Conf. on Machine Learning and Data Mining in Pattern Recognition. [S. l.]: IEEE Press, 2005: 580- 589. 被引量：1
3陈治平,林亚平,彭雅,王雷,童调生.基于最小类差异的无关信息预处理算法[J].电子学报,2003,31(11):1750-1753. 被引量：10
4宋枫溪,刘树海,杨静宇,夏赛飞.最大散度差分类器及其在文本分类中的应用[J].计算机工程,2005,31(5):8-10. 被引量：8
5Jin Zhong, Yang Jingyu, Hu Zhongshan, et al. Face Recognition Based on Uncorrelated Discriminant Transformation[J]. Pattern Recognition, 2001, 34(7): 1405-1416. 被引量：1
6丁世飞,靳奉祥,王健,王孝莹.一种新的基于信息论的PCA特征压缩算法[J].小型微型计算机系统,2004,25(4):694-697. 被引量：7

二级参考文献18

1宋枫溪,陈才扣,刘树海,杨静宇.文本表示方式对线性支持向量机分类性能的影响[J].模式识别与人工智能,2004,17(2):161-166. 被引量：4
2姜旦.信息论[M].合肥：中国科技大学出版社,1987.14-96. 被引量：1
3Sebastiani F. Machine Learning in Automated Text Categorization.ACM Computing Surveys, 2002,34(1):1-47. 被引量：1
4Hsu C, Lin C. A Comparison of Methods for Multiclass Support Vector Machines. IEEE Transaction on Neural Networks, 2002,13(2). 被引量：1
5Aas K, Eikvil L. Text Categorization: A survey. Technical Report #941, Norwegian Computing Center, 1999. 被引量：1
6Lang K. Newsweeder: Learning to Filter Netnews. In Proceeding of the Twelfth International Conference on Machine Learning, 1995:331. 被引量：1
7Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. In Machine Learning: Proceedings of the Fourteenth International Confercnce (ICM L'97), 1997:412-420. 被引量：1
8Vapnik V. The Nature of Statistical Learning Theory. Springer-Verlag,New York, 1995. 被引量：1
9Yang Yiming. An Evaluation of Statistical Approaches to Tcxt Categorization. Information Retrieval,1999, 1(1-2):69-90. 被引量：1
10Joachims T. Text Categorization with Support Vector Machines:Learning with Many Relevant Features. Proc. 10th European Conference on Machine Learning(ECML), Springer-Verlag,1998. 被引量：1

共引文献20

1李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
2李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].厦门大学学报（自然科学版）,2005,44(B06):239-242. 被引量：3
3陈晓云,李荣陆,胡运发.基于最小词频阈值的文档特征选择[J].模式识别与人工智能,2006,19(4):531-537. 被引量：7
4梁宏胜,徐建民,成岳鹏.一种改进的朴素贝叶斯文本分类方法[J].河北大学学报（自然科学版）,2007,27(3):327-331. 被引量：6
5吴迪,张亚平,殷福亮,李明.基于类别分布差异和VPRS特征选择的文本分类方法[J].电子与信息学报,2007,29(12):2880-2884. 被引量：5
6刘海峰,王元元,张学仁,刘守生.基于散度差准则的文本特征降维研究[J].计算机应用研究,2008,25(7):1971-1973. 被引量：5
7杨圣洪,贾焰.非成熟领域的本体构建方法[J].计算机工程与应用,2008,44(24):153-155. 被引量：2
8刘海峰,姚泽清,刘守生,王倩.文本分类中基于核的非线性判别[J].应用科学学报,2008,26(6):627-631. 被引量：4
9刘海峰,姚泽清,张述祖,王元元.文本分类中一种基于核的最大散度差特征抽取方法[J].计算机应用研究,2009,26(1):102-104.
10刘海峰,王元元,姚泽清,张述祖.文本分类中基于散度差的线性特征抽取方法[J].计算机工程与设计,2009,30(7):1749-1752.

同被引文献71

1杨胜,顾钧.Feature selection based on mutual information and redundancy-synergy coefficient[J].Journal of Zhejiang University Science,2004,5(11):1382-1391. 被引量：7
2孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
3侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
4彭佳红,沈岳,张林峰.数据挖掘中的特征选择及其算法研究[J].计算机工程与设计,2005,26(5):1176-1178. 被引量：14
5董林,许禄.二维小波变换与子窗口因子分析法结合用于含噪声HPLC-DAD数据的解析[J].高等学校化学学报,2005,26(6):1039-1042. 被引量：4
6王晓龙,刘笑明,李同升.主成分分析法、聚类分析法在旅游观光农业空间分区中的应用——以西安市为例的研究[J].数理统计与管理,2005,24(4):6-13. 被引量：17
7朱远平,戴汝为.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):412-416. 被引量：24
8赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6
9牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384

引证文献11

1刘海峰,赵华,刘守生.一种基于位置的改进中文文本特征选择[J].图书情报工作,2009,53(21):102-105. 被引量：3
2刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3
3孟洋,赵方.基于信息熵理论的动态规划特征选取算法[J].计算机工程与设计,2010,31(17):3879-3881. 被引量：6
4刘海峰,刘守生,张学仁.聚类模式下一种优化的K-means文本特征选择[J].计算机科学,2011,38(1):195-197. 被引量：12
5王辉,张成锁,卓呈祥.一种改进的相对熵特征选择方法[J].计算机工程,2011,37(10):167-169. 被引量：1
6邱云飞,王建坤,李雪,邵良杉.基于线性组合文本特征选择方法[J].计算机应用研究,2011,28(6):2099-2101. 被引量：4
7周利兵.青海高原牦牛骨和牦牛角中微量元素的化学计量分析[J].西北农业学报,2011,20(5):59-63. 被引量：10
8吴敬桐,陈玉泉.童话故事概念关系的自动构建[J].计算机工程,2011,37(15):131-133.
9何庆,龚静.基于云计算的WAP日志处理和用户上网行为分析[J].科技资讯,2014,12(33):11-12.
10刘忠宝,赵文娟.融合全局和局部特征的文本特征提取方法研究[J].情报探索,2016(1):1-3. 被引量：2

二级引证文献43

1原福永,张晓彩,罗思标.基于信息熵的精确属性赋权K-means聚类算法[J].计算机应用,2011,31(6):1675-1677. 被引量：37
2刘海峰,庞秀梅,张学仁.一种聚类模式下基于密度的改进KNN算法[J].微电子学与计算机,2011,28(7):125-127. 被引量：5
3吴萍,姜懿庭.基于粗糙集和信息熵的入侵检测特征选择方法研究[J].云南民族大学学报（自然科学版）,2011,20(4):292-295. 被引量：2
4刘盛博,丁堃,王贤文,刘则渊.基于TF／IDF多因素改进算法的知识单元抽取研究[J].情报学报,2011,30(10):1037-1043. 被引量：1
5罗毅辉,熊曙初.一种基于群体增量学习算法的文本特征选择方法[J].图书情报工作,2011,55(24):102-105.
6姚旭,王晓丹,张玉玺,权文.特征选择方法综述[J].控制与决策,2012,27(2):161-166. 被引量：206
7孙凯,魏海平.一种改进的文本特征选择方法[J].科学技术与工程,2012,20(12):3002-3004.
8袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
9杨宇科,马洪江,周相兵.一种面向开源软件特征的开源软件选择方法研究[J].计算机与数字工程,2012,40(7):9-12.
10徐辉.基于混沌二进制粒子群优化的KNN文本分类算法[J].微电子学与计算机,2012,29(8):204-208. 被引量：2

1张栋冰,Peng Tai-le.一种基于遗传算法的特征选择和权重确定方法[J].怀化学院学报,2015,34(5):59-62. 被引量：5
2李建军,宋志章.基于混合智能算法的网页文本分类仿真研究[J].科技通报,2012,28(6):152-154. 被引量：5
3罗树,沈记全.基于优化AHP的虚拟机部署与调度策略[J].计算机工程与设计,2015,36(12):3375-3379. 被引量：2
4张以文,张铃,钱付兰,刘慧婷.云制造模式下云服务选择算法研究[J].小型微型计算机系统,2014,35(11):2390-2395. 被引量：5
5魏茂春,杨永金,翁石光.服装笔式绘图仪主传动轴设计[J].湖南工程学院学报（自然科学版）,2009,19(2):32-34.
6刘杨,胡仕成,初佃辉,徐晓飞.两阶段多供应商选择采购模型[J].计算机工程,2009,35(9):74-76. 被引量：2
7李萍,方喜波,黄志理.基于红外成像制导的末端瞄准点选择技术[J].红外与激光工程,2013,42(5):1131-1136. 被引量：4
8任芳玲,张亚楠.基于主成分分析法的用电量预测模型[J].徐州工程学院学报（自然科学版）,2016,31(2):50-53. 被引量：8
9马建新,孟庆岩,李响,孔祥浩,王春梅.玉米冠层最佳水分指数优选[J].遥感信息,2016,31(5):96-102. 被引量：1

计算机工程

2009年第2期

浏览历史

内容加载中请稍等...

文本分类中一种混合型特征降维方法被引量：11

参考文献6

二级参考文献18

共引文献20

同被引文献71

引证文献11

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

文本分类中一种混合型特征降维方法 被引量：11

参考文献6

二级参考文献18

共引文献20

同被引文献71

引证文献11

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

文本分类中一种混合型特征降维方法被引量：11