摘要
该文讨论了文本聚类所涉及的关键技术和方法,这些技术包括文本表示模型,特征约减,聚类技术,聚类结果的衡量等。文章详细分析了已有技术和方法的优缺点,提出将语义和次序信息结合,使用图表示文章,基于文章的图表示模型,设计新的文本相似度量方法以及聚类结果的衡量标准。
This article discusses techniques and methods related with document clustering.These techniques include:text representation,feature reduction,clustering methodologies,evaluation methods for document clustering.The paper analyzes previous methods for document clustering,and proposes graph based text representation model.Document similarity method based on graph model and new document clustering evaluation methods should also be developed.
出处
《电脑知识与技术(过刊)》
2009年第7X期5487-5489,共3页
Computer Knowledge and Technology
关键词
文本
聚类
图
document
clustering
graph