-
题名基于词频分类器集成的文本分类方法
被引量:22
- 1
-
-
作者
姜远
周志华
-
机构
南京大学软件新技术国家重点实验室
南京大学计算机科学与技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第10期1681-1687,共7页
-
基金
国家自然科学基金项目(60505013)
江苏省自然科学基金创新人才基金项目(BK2005412)~~
-
文摘
提出了一种基于词频分类器集成的文本分类方法·词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器·虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器·在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务·在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果·
-
关键词
文本分类
机器学习
集成学习
词频分类器
ADABOOST
-
Keywords
text classification
machine learning
ensemble learning
term frequency classifier
AdaBoost
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名改进词频分类器集成的文本分类算法
被引量:2
- 2
-
-
作者
梁晓娜
于红
范丽民
骆桂爽
-
机构
大连水产学院信息工程学院
-
出处
《智能系统学报》
2010年第2期177-180,共4页
-
基金
辽宁省教育厅基金资助项目(05L090)
大连市青年基金资助项目(2005J22JH038)
大连水产学院博士启动基金资助项目(sybs200712)
-
文摘
互联网容纳了海量的文本信息,文本分类系统能够在给定的类别下,自动将文本分门别类,更好地帮助人们挖掘有用信息.介绍了基于词频分类器集成文本分类算法.该算法计算代价小,分类召回率高,但准确率较低,分析了导致准确率低的原因,在此基础上提出了基于改进词频分类器集成的文本分类算法,改进后的算法在文本权重更新方面做了参数调整,使得算法的准确率有显著提高,最后用实验验证了改进后算法的性能.实验结果表明,基于改进词频分类器集成的文本分类算法不仅提高了分类的准确性,而且表现出较好的稳定性.
-
关键词
文本分类
集成学习
词频分类器
ADABOOST
-
Keywords
text classification
ensemble learning
term frequency classifier
AdaBoost
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-