基于类别分布差异和特征熵的维吾尔语文本特征选择被引量：5

Feature selection based on class distribution difference and term entropy for Uyghur text

下载PDF

导出

摘要文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题,提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况,而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验,并与一些传统的特征选择方法进行了比较。从结果来看,本方法在所选特征数更少的情况下,达到了比其他方法更高的分类MacroF1值85.3%,比传统的IG和CHI等方法在MacroF1值上分别高出了4.3%和6.1%。 Text feature selection is the most important phase in automatic text categorization. In order to solve the high dimen- sionality and sparsness of text vector in Uyghur text categorization, this paper proposed the new Uyghur text feature selection method based on class distribution difference and term entropy. The propesed method not only considered the inter-class distri- bution of the term, but also considered the inner-class distribution of the term. It conducted the categorization experiments on the Uyghur text corpus using proposed method and compared with the traditional feature selection methods. The experimental results show that the categorization MacroF, value is reached 85.3% and achieves the improvement of 4.3% and 6. 1% re- spectivly comparing to IG and CHI.

作者阿力木江.艾沙吐尔根.依布拉音库尔班.吾布力瓦依提.阿不力孜艾山.吾买尔

机构地区新疆大学现代教育技术中心新疆大学信息科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2013年第10期2958-2961,共4页 Application Research of Computers

基金国家自然科学基金资助项目(61063026 61063043 61163028 61262060)

关键词特征选择文本分类特征熵支持向量机维吾尔语 feature selection text categorization term entropy SVM uyghur language

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1阿力木江·艾沙,吐尔根·依布拉音,艾山·吾买尔,马尔哈巴·艾力.基于机器学习的维吾尔文文本分类研究[J].计算机工程与应用,2012,48(5):110-112. 被引量：20
2阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
3玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
4FORMAN G. An extensive empirical study of feature selection metricsfor text classification); J]. Journal of Machine Learning Research,2003,3(1) :1289-1305. 被引量：1
5ROGATI M,YANG Yi-ming. High-performing feature selection fortext classification [ C] //Proc of the 11th ACM International Confe-rence on Information and Knowledge Management. New York : ACMPress, 2002 :659-661. 被引量：1
6YANG Yi-ming, PEDERSEN J 0. A comparative study on feature se-lection in text categorization [ C] //Proc of the 14th International Con-ference on Machine Learning. [ S. 1.] : Morgan Kaufmann Publish-ers ,1997 :412-420. 被引量：1
7代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
8周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
9徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
10吴迪,张亚平,殷福亮,李明.基于类别分布差异和VPRS特征选择的文本分类方法[J].电子与信息学报,2007,29(12):2880-2884. 被引量：5

二级参考文献89

1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
2王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
5张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
6谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
7赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
8宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
9许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
10徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234

共引文献1026

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：7
2刘辉,曾鹏飞,巫乔顺,陈甫刚.基于改进遗传算法的转炉炼钢过程数据特征选择[J].仪器仪表学报,2019,40(12):185-195. 被引量：16
3席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
4龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
5田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
6骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
7吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：2
8李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
9王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：2
10陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2

同被引文献43

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
2刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
3Pei Zhili,Shi Xiaohu,Maurizio Marchese,Liang Yanchun.An enhanced text categorization method based on improved text frequency approach and mutual information algorithm[J].Progress in Natural Science:Materials International,2007,17(12):1494-1500. 被引量：2
4Lewis D D.An evaluation of phrasal and clustered representations on a text categorization task[C]//Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 92).New York,NY,USA:ACM Press,1992:37-50. 被引量：1
5Tan C M,Wang Y F,Lee C D.The use of Bigrams to enhance text categorization[J].Information Processing and Management,2002,38(4):529-546. 被引量：1
6Bekkerman R,Allan J.Using Bigrams in text categorization[R].2005. 被引量：1
7Caropreso M F,Matwin S,Sebastiani F.A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization[C]//Chin A G.Text Databases and Document Management:Theory and Practice,2001:78-102. 被引量：1
8Forman G.An extensive empirical study of feature selection metrics for text classification[J].Journal of Machine Learning Research,2003,3(1). 被引量：1
9Church,Ward K,Hanks P.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29. 被引量：1
10Joachims T.Text categorization with support vector machines:learning with many relevant features[C]//European Conference on Machine Learning.[S.l.]:Springer Verlag,1998:137-142. 被引量：1

引证文献5

1阿力木江.艾沙,库尔班.吾布力,吐尔根.依布拉音.维吾尔文Bigram文本特征提取[J].计算机工程与应用,2015,51(3):216-221. 被引量：3
2巫红霞.基于改进Shapley权力指数的特征选择算法[J].西南师范大学学报（自然科学版）,2017,42(11):62-71. 被引量：2
3阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.基于类别信息和特征熵的文本特征权重计算[J].计算机应用研究,2019,36(11):3237-3239. 被引量：4
4阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.Centroid和EM结合的半监督文本分类[J].计算机工程与设计,2019,40(11):3118-3123.
5阿力木江.艾沙.基于Rapid Miner的维吾尔文文本预处理及分类实验设计[J].中国教育技术装备,2017,0(12):24-27. 被引量：1

二级引证文献10

1如先姑力.阿布都热西提,贺一峰,亚森.艾则孜.基于文本分类的维吾尔文数字取证研究[J].现代电子技术,2016,39(10):9-13. 被引量：1
2赵旭东,亚森.艾则孜.基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案[J].电子设计工程,2016,24(16):109-112. 被引量：3
3阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
4李孟丽,张俊容.求解合作对策解的带有正不定临界项的对称交替方向法[J].西南师范大学学报（自然科学版）,2019,44(5):13-18.
5塞麦提·麦麦提敏,司马义·阿不都热依木.维吾尔语停用词抽取方法研究[J].计算机工程,2019,45(10):288-292.
6阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.Centroid和EM结合的半监督文本分类[J].计算机工程与设计,2019,40(11):3118-3123.
7王靖,柳青,张德海,赵华,杨云.基于多语义因子分层聚类的文本特征提取方法[J].计算机应用研究,2020,37(10):2951-2955. 被引量：2
8徐嘉康,张晨,王柳静,张贵军.非均权-动态规划地址匹配算法设计与实现[J].小型微型计算机系统,2022,43(3):530-535.
9刘辉,张振康,王韩林,晏飞扬.基于词频和信息熵改进的卡方特征选择[J].计算机仿真,2022,39(7):492-496.
10徐宁,喇磊.基于XGBoost的新零售优惠券使用行为预测[J].西南师范大学学报（自然科学版）,2019,44(3):101-105. 被引量：3

1阿丽亚·艾尔肯,哈力旦·阿布都热依木.KNN和SVM分类器对维吾尔文文本分类性能的比较研究[J].新疆大学学报（自然科学维文版）,2015,36(2):59-65. 被引量：1
2詹川,卢显良,周旭,侯孟书,袁连海.基于贝叶斯公式的垃圾邮件过滤方法[J].计算机科学,2005,32(2):73-75. 被引量：11
3生海迪,段会川,孔超.基于语义短语的空间金字塔词袋模型图像分类方法[J].小型微型计算机系统,2015,36(4):877-881. 被引量：8
4冯进丽,杨红菊.基于BoC-BoF特征的图像检索方法研究[J].计算机科学,2015,42(4):297-301. 被引量：5
5阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
6李永可,吴悠,张太红,冯向萍,吴向前.维文垃圾网页多元线性回归识别研究[J].新疆大学学报（自然科学版）,2012,29(2):218-222. 被引量：1
7何燕,哈力旦.阿布都热依木,阿丽亚.艾尔肯,吴冰冰.一种新的维吾尔文文本分类特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(3):42-46. 被引量：1
8阿力木江·艾沙,吐尔根·依布拉音,艾山·吾买尔,马尔哈巴·艾力.基于机器学习的维吾尔文文本分类研究[J].计算机工程与应用,2012,48(5):110-112. 被引量：20
9阿力木江·艾沙,吐尔根·依布拉音,库尔班·吾布力,李哲.基于短语的维吾尔文文本分类[J].计算机应用,2012,32(10):2923-2926. 被引量：5
10陈洋,哈力旦.阿布都热依木,伊力亚尔.达吾提,亚力青.阿里玛斯.基于加权改进贝叶斯算法的维吾尔文文本分类[J].计算机工程与设计,2014,35(6):1999-2003. 被引量：5

计算机应用研究

2013年第10期

浏览历史

内容加载中请稍等...

基于类别分布差异和特征熵的维吾尔语文本特征选择被引量：5

参考文献15

二级参考文献89

共引文献1026

同被引文献43

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于类别分布差异和特征熵的维吾尔语文本特征选择 被引量：5

参考文献15

二级参考文献89

共引文献1026

同被引文献43

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于类别分布差异和特征熵的维吾尔语文本特征选择被引量：5