文档分类中的多特征最大值法及其改进方法

Maximum multiple-feature method and its improved method for document classification

下载PDF

导出

摘要为在每个文档类别中选择更多的特征,解决至少一个特征法(ALOF)的特征不足问题,提出文档特征最大值法(MFT)和改进的文档特征最大值法(IMFT)。按照数据处理方式决定选择特征的数量,MFT法解析所有文档,确保训练集中每个文档都用最终特征矢量来表示,IMFT法只分析特征评估函数中特征值高的文档以选择较少的特征,减少选择不相关特征的概率。实验考虑3个文档分类数据库和3个评估函数,实验结果表明,与ALOF法和模糊关联聚类(FRC)法相比,提出的两种方法的F1测度更高,分类效果更好,评估函数对最终的分类结果具有重要影响,不同的特征数会左右最终结果。 To select more features in document classification to work on less-feature problem of at least one feature （ALOF） method, maximum feature-f text （MFT） and improved maximum feature-f text （IMFT） were proposed. The number of selected features was determined in accordance with the data processing. All documents were analyzed in MFT method to ensure that each document in the training set was represented in the final feature vectors. Whereas IMFT analyzed only the documents with high FEF valued features to select less features, and it therefore reduced the probability of selection of irrelevant features. Three data- bases of document classification and three evaluation functions were considered in the experiment. Compared with the ALOF method and method of fuzzy correlation clustering （FRC）, F1 measurements of the two proposed methods are much higher, and the classification effect is better. Experimental results also show that, the evaluation function has an important influence on the final classification results, and the number of features also affects the final results.

作者龚静黄欣阳 GONG Jing HUANG Xin-yang(Department of Information Technology, Hunan Polytechnic of Environment and Bilology, Hengyang 421001,China College of Computer Science and Technology, University of South China, Hengyang 421001, China)

机构地区湖南环境生物职业技术学院信息技术系南华大学计算机学院

出处《计算机工程与设计》北大核心 2017年第8期2262-2268,共7页 Computer Engineering and Design

基金湖南省教育厅基金项目(12C1056)

关键词文档分类评估函数特征最大值 F1测度特征数 document classification evaluation function maximum feature-f F1 measurement number of features

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1华秀丽,朱巧明,李培峰.语义分析与词频统计相结合的中文文本相似度量方法研究[J].计算机应用研究,2012,29(3):833-836. 被引量：42
2吴陈,汤莹.基于选择迁移的bagging文本分类算法[J].计算机工程与设计,2015,36(7):1808-1812. 被引量：4
3张玉芳,王勇,刘明,熊忠阳.新的文本分类特征选择方法研究[J].计算机工程与应用,2013,49(5):132-135. 被引量：7
4李侃,周世斌,刘玉树.统计流形扩散核的文本分类方法[J].模式识别与人工智能,2012,25(2):339-345. 被引量：3
5罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25
6马治涛..文本分类停用词处理和特征选择技术研究[D].西安电子科技大学,2014:
7刘振岩,孟丹,王伟平,王勇.基于偏斜数据集的文本分类特征选择方法研究[J].中文信息学报,2014,28(2):116-121. 被引量：4
8徐明明,张立军,张潇.综合评价指标体系的优良标准及测度方法[J].统计与决策,2015,31(3):18-21. 被引量：5
9张倩..基于半监督学习的中文短文本分类研究[D].西安电子科技大学,2014:

二级参考文献73

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计算[C]//全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88. 被引量：6
5COELHO T A S, CALADO P P, SOUZA L V, et al. Image retrieval using multiple evidence ranking [ J]. IEEE Trans on Knowledge and Data Engineering, 2004,16 ( 4 ) :408-417. 被引量：1
6KO Y, PARK J, SEO J. Improving text categorization using the im- portance of sentences [ J ]. Information Processing and Manage- ment,2004,40(1) :65-79. 被引量：1
7THEOBALD M, SIDDHARTH J. SpotSigs: robust and efficient near duplicate detection in large Web collection [ C ]//Proc of the 31 st An- nual International,ACM SIGIR Conference on Research and Develop- ment in Information Retrieval. New York:ACM Press,2008:563-570. 被引量：1
8PATWARDHAN S, BANERJEE S, PEDERSEN T. Using measures of semantic relatedness for word sense disambiguation [ C ]//Proc of the 4th International Conference on Intelligent Text Processing and Com- putational Linguistics. 2003:301-308. 被引量：1
9MILLER G. WordNet: a lexical database for English[ J]. Communi- cations of the ACM,1995,38( 11 ) :39-41. 被引量：1
10SALTON G. The SMART retrieval system-experiments in automatic document processing [ M ]. Upper Saddle River: Prentice-Hall, 1971 : 207-214. 被引量：1

共引文献81

1杜华.文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例[J].现代教育技术,2012,22(9):65-69. 被引量：17
2白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
3雷瑜,杨慧中.一种基于加权核Fisher准则的朴素贝叶斯分类器[J].江南大学学报（自然科学版）,2013,12(5):510-514.
4周由,戴牡红.语义分析与TF-IDF方法相结合的新闻推荐技术[J].计算机科学,2013,40(11A):267-269. 被引量：11
5詹志建,杨小平.基于语言网络和语义信息的文本相似度计算[J].计算机工程与应用,2014,50(5):33-38. 被引量：11
6王庆福,常广炎.基于TF-IDF优化算法在文本分类中的应用研究[J].电脑编程技巧与维护,2014(10):11-12. 被引量：2
7张伟,简刚.基于不均衡文本数据的集成分类方法设计[J].电信技术研究,2018,0(4):55-64.
8邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：31
9王蕾.文字云图在英语阅读教学中的应用研究[J].读与写（教育教学刊）,2014,11(6):52-52. 被引量：1
10黄贤英,张金鹏,刘英涛,赵明军.基于词项语义映射的短文本相似度算法[J].计算机工程与设计,2015,36(6):1514-1518. 被引量：11

1袁迪波,戴永,陈统乾.不规范书写坐姿的多类特征融合与识别[J].计算机工程与设计,2017,38(2):528-533. 被引量：7
2陈贻品.云存储中数据完整性保护的关键技术[J].电脑迷,2017(3).
3常宝宝.基于深度学习的图解码依存分析研究进展[J].山西大学学报（自然科学版）,2017,40(3):442-453.
4邵欣,王峰,张建新,汤晓华,张兴会.一种可越障的抛投机器人设计[J].实验室研究与探索,2017,36(6):47-50. 被引量：4
5李莉,贾志凯,张瑜.基于数据融合的动车组健康状态评估[J].铁路计算机应用,2017,26(7):15-20. 被引量：3

计算机工程与设计

2017年第8期

浏览历史

内容加载中请稍等...

文档分类中的多特征最大值法及其改进方法

参考文献9

二级参考文献73

共引文献81

相关作者

相关机构

相关主题

浏览历史