摘要
论文在研究各种分类算法的基础上,总结了分类系统的一般流程和框架,设计并实现了一个适应性很强的可扩展的分类系统THTC。它利用面向对象技术构造,采用了一些常用的设计模式。实验证明,该系统性能与同类算法相当,能够兼容各种不同的算法和适应不同的文档,具有较强的可扩展性。
In this paper,we first summarize the common process and architecture of text categorization systems,and then design and implement an extensible text categorization system THTC.This system is built with Object-Oriented technology.In building this system,we adopt some good design patterns.The experiment shows that the THTC system has compatible performance with similar system and high extensibility.
出处
《计算机工程与应用》
CSCD
北大核心
2004年第30期102-106,共5页
Computer Engineering and Applications
基金
国家863高技术研究发展计划项目:面向领域的数据分析与挖掘技术研究(编号:2002AA444120)
关键词
文本分类
面向对象
设计模式
可扩展性
text categorization,Object-Oriented,design pattern,extensibility