基于特征聚合与最大熵的文本分类算法被引量：2

TEXT CLASSIFICATION BASED ON MAXIMUM ENTROPY AND FEATURE AGGREGATION

下载PDF

导出

摘要网络信息浩如烟海又纷繁芜杂,从中掌握最有效的信息是信息处理的一大目标,而文本分类是组织和管理数据的有力手段。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,具有对许多问题的处理都可以达到较好的结果的优势,将最大熵模型引入到中文文本分类的研究中,并通过使用一种特征聚合的算法改进特征选择的有效性。实验表明与Bayes、KNN和SVM这三种性能优越的算法相比,基于最大熵的文本分类算法可取得较之更优的分类精度。 The Internet has become the main source for people to get various information. Text classification has become the key technology in document data organization and processing. Maximum Entropy Model, a probability estimation technique widely used for a variety of natural language tasks, is used for text classification. A feature aggregation algorithm is used to select efficient feature. The experimental results show that compared with Bayes, KNN and SVM, the proposed text classification algorithm achieves better performance.

作者陈光刘宗田

机构地区上海大学计算机工程与科学学院

出处《计算机应用与软件》 CSCD 北大核心 2008年第3期263-264,277,共3页 Computer Applications and Software

关键词文本分类最大熵模型特征选取 Text classification Maximum entropy model Feature selection

分类号 TP391.12 [自动化与计算机技术—计算机应用技术] TP391 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1Yang Y, Liu X. A re-examination of text categorization methods. In 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval ( SIGIR'99 ), Berkeley ACM Press, 1999:42-49. 被引量：1
2Adwait R. Maximum entropy models for natural language ambiguity resolution [ PhD dissertation]. University of Pennsylvania, 1995. 被引量：1
3Kamal N ,John L, Andrew M. Using maximum entropy for text classification. In : Proceedings of the IJCAI-99 Workshop on Information Filtering, Stockholm, Sweden, 1999. 被引量：1
4Hsu C W, Lin C J. A comparison of, methods for multi-class Support Vector Machines, IEEE Transactions on Neural Networks, 2002,13 (2) :415-425. 被引量：1
5Yang Y. An evaluation Of statistical approaches to text categorization. Information Retrieval, 1999, 1 ( 1 ) :76-88. 被引量：1
6黄萱菁,吴立德,郭以昆,刘秉伟.现代汉语熵的计算及语言模型中稀疏事件的概率估计[J].电子学报,2000,28(8):110-112. 被引量：7

二级参考文献5

1吴军,王作英.汉语信息熵和语言模型的复杂度[J].电子学报,1996,24(10):69-71. 被引量：14
2冯志伟，中文信息学报，1998年，12卷，1期，63页被引量：1
3吴立德，大规模中文文本处理，1997年被引量：1
4徐秉铮，华南理工大学学报，1989年，17卷，3期被引量：1
5石贵青，电子学报，1984年，12卷，4期，94页被引量：1

共引文献6

1塞麦提·麦麦提敏.基于统计的维吾尔文信息熵的估计[J].电脑知识与技术,2009,5(2):1014-1015. 被引量：2
2黄永文,何中市,王海燕.基于时间序列分析的动态分布平滑方法[J].电子学报,2008,36(B12):147-151.
3张志强,张太红,吴倩,于志敏.基于语言模型的一种音字转换高效解码算法[J].智能计算机与应用,2016,6(5):38-41.
4完么扎西,尼玛扎西.现代藏文信息熵及其属性[J].西藏大学学报（社会科学版）,2017,32(2):51-57. 被引量：2
5完么扎西.现代藏语信息熵的估算及语言模型的复杂度[J].电子技术与软件工程,2020(17):213-215.
6杨欣月.基于语言差异的弹幕文化研究——以英语和汉语为例[J].文化创新比较研究,2021,5(36):15-19. 被引量：1

同被引文献20

1何志文,李夕海,刘代志,张斌.基于相关性分析的特征选择方法研究[J].核电子学与探测技术,2005,25(6):729-732. 被引量：10
2王娟,慈林林,姚康泽.特征选择方法综述[J].计算机工程与科学,2005,27(12):68-71. 被引量：64
3高寅生.安全漏洞库设计与实现[J].微电子学与计算机,2007,24(3):99-101. 被引量：9
4YE Fei,LUO Jing-qing,L Jiu-ming.Radar Emitter Signal Fractal Feature Based on Wavelet Transform[C]∥ Proceedings of 2006 CIE International Conference on Radar,Shanghai:1546-1549. 被引量：1
5BAZAA A, ARTHUR J D. Towards a taxonomy of vulnerabilities[C] // Proceedings of the 40th Annual Hawaii International Conference on System Sciences. Piscataway: IEEE Press, 2007:163a-173a. 被引量：1
6TUPPER M. A comparison of word frequency and n-gram based vulnerability categorization using SOM[EB/OL].[2014-01-12]. http://web.cs.dal.ca/-tupper/CDMP2008.pdf. 被引量：1
7CHEN Z, ZHANG Y, CHEN Z. A categorization framework for common computer vulnerabilities and exposures [J]. The Computer Journal, 2010,53(5):551-580. 被引量：1
8SCHOLKOPF B, BURGES C, VAPNIK V. Extracting support data for a given task [C] // Proceedings of the First International Conference on Knowledge Discovery and Data mining. Madison: AAAI Press,1995:252-257. 被引量：1
9支晓斌,范九伦.一种广义模糊补运算和相应的广义模糊熵[J].模糊系统与数学,2008,22(1):96-102. 被引量：9
10唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35

引证文献2

1叶菲,俞志富.一种基于模糊熵的特征选择算法[J].现代防御技术,2010,38(6):147-150.
2张鹏,谢晓尧.基于熵的二叉树多类支持向量机的漏洞分类[J].计算机应用,2014,34(11):3283-3286. 被引量：4

二级引证文献4

1马旸,强小辉,蔡冰,王林汝.大规模网络中基于集成学习的恶意域名检测[J].计算机工程,2016,42(11):170-176. 被引量：4
2陈晔.关于软件设计可靠性自动化测试仿真研究[J].计算机仿真,2017,34(6):281-284. 被引量：10
3汪荣.基于层次模型的浏览器漏洞精确分类挖掘方案[J].控制工程,2018,25(7):1267-1271. 被引量：4
4兰昆,朱治丞,张宇光.定量和定性相结合的物联网漏洞分类方法研究[J].通信技术,2020,53(2):461-468.

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2高燕,张维维,张艳红,谢燕萍,苏凝,谢燕萍,苏凝.最大熵模型在最长地点实体识别中的应用[J].广东石油化工学院学报,2012,22(4):40-42. 被引量：1
3李学相.改进的最大熵权值算法在文本分类中的应用[J].计算机科学,2012,39(6):210-212. 被引量：8
4何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
5方巍,黄黎,崔志明.基于最大熵分类器的Deep Web查询接口自动判定[J].计算机工程与应用,2008,44(21):133-137. 被引量：1
6黄华,李爱平,徐立云.面向加工中心的工艺方案优化技术[J].同济大学学报（自然科学版）,2010,38(1):118-123. 被引量：4
7李剑峰.一种基于运动特征聚合的三维织物模拟算法[J].科技通报,2012,28(10):131-133. 被引量：1
8张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文文本分类的改进KNN算法[J].东北大学学报（自然科学版）,2003,24(3):229-232. 被引量：60
9张学谦,王自强,郜凤敏.基于分布距离的特征聚类方法[J].计算机工程与应用,2011,47(29):137-139.
10郭冲,王振宇.面向细粒度意见挖掘的情感本体树及自动构建[J].中文信息学报,2013,27(5):75-83. 被引量：11

计算机应用与软件

2008年第3期

浏览历史

内容加载中请稍等...

基于特征聚合与最大熵的文本分类算法被引量：2

参考文献6

二级参考文献5

共引文献6

同被引文献20

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于特征聚合与最大熵的文本分类算法 被引量：2

参考文献6

二级参考文献5

共引文献6

同被引文献20

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于特征聚合与最大熵的文本分类算法被引量：2