期刊文献+

基于特征聚合与最大熵的文本分类算法 被引量:2

TEXT CLASSIFICATION BASED ON MAXIMUM ENTROPY AND FEATURE AGGREGATION
下载PDF
导出
摘要 网络信息浩如烟海又纷繁芜杂,从中掌握最有效的信息是信息处理的一大目标,而文本分类是组织和管理数据的有力手段。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,具有对许多问题的处理都可以达到较好的结果的优势,将最大熵模型引入到中文文本分类的研究中,并通过使用一种特征聚合的算法改进特征选择的有效性。实验表明与Bayes、KNN和SVM这三种性能优越的算法相比,基于最大熵的文本分类算法可取得较之更优的分类精度。 The Internet has become the main source for people to get various information. Text classification has become the key technology in document data organization and processing. Maximum Entropy Model, a probability estimation technique widely used for a variety of natural language tasks, is used for text classification. A feature aggregation algorithm is used to select efficient feature. The experimental results show that compared with Bayes, KNN and SVM, the proposed text classification algorithm achieves better performance.
作者 陈光 刘宗田
出处 《计算机应用与软件》 CSCD 北大核心 2008年第3期263-264,277,共3页 Computer Applications and Software
关键词 文本分类 最大熵模型 特征选取 Text classification Maximum entropy model Feature selection
  • 相关文献

参考文献6

  • 1Yang Y, Liu X. A re-examination of text categorization methods. In 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval ( SIGIR'99 ), Berkeley ACM Press, 1999:42-49. 被引量:1
  • 2Adwait R. Maximum entropy models for natural language ambiguity resolution [ PhD dissertation]. University of Pennsylvania, 1995. 被引量:1
  • 3Kamal N ,John L, Andrew M. Using maximum entropy for text classification. In : Proceedings of the IJCAI-99 Workshop on Information Filtering, Stockholm, Sweden, 1999. 被引量:1
  • 4Hsu C W, Lin C J. A comparison of, methods for multi-class Support Vector Machines, IEEE Transactions on Neural Networks, 2002,13 (2) :415-425. 被引量:1
  • 5Yang Y. An evaluation Of statistical approaches to text categorization. Information Retrieval, 1999, 1 ( 1 ) :76-88. 被引量:1
  • 6黄萱菁,吴立德,郭以昆,刘秉伟.现代汉语熵的计算及语言模型中稀疏事件的概率估计[J].电子学报,2000,28(8):110-112. 被引量:7

二级参考文献5

共引文献6

同被引文献20

引证文献2

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部