期刊文献+

一种基于段落同现频率的加权方法 被引量:3

A Feature Value Weighted Method Based on Paragraph Co-occurrence Frequency
原文传递
导出
摘要 聚类算法的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所以怎样把现有的一些经典聚类算法有效地应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高10%左右的文本聚类效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。 The research on clustering algorithms has already become a focus. So how to apply these classical clustering algorithms to text clustering is a very important issue. This paper presents a feature value weighted method based on semantic analysis by using Paragraph Co-occurrence Frequency(PCF). Experiment indicates that the semantic analysisbased feature value weighted method could improve the text clustering result by 10% and the PCF threshold has a great influence on the text clustering result.
出处 《信息安全与通信保密》 2009年第12期57-59,63,共4页 Information Security and Communications Privacy
基金 上海科委科技攻关基金资助项目(编号:08511501902)
关键词 特征向量模型 段落同现频率 特征向量加权 vector space model(VSM) paragraph co-occurrence frequency(PCF) feature value weighted
  • 相关文献

参考文献4

二级参考文献2

  • 1Waxman B M. Routing of Multipoint Connections[J]. IEEE Journal of Selected Areas in Communication (JSAC), 1988, 6(9): 1617-1622. 被引量:1
  • 2Doar M. Multicast in the Asynchronous Transfer Mode Environment [D]. PhD thesis, Cambridge: University of Cambridge, 1993. 被引量:1

共引文献8

同被引文献19

引证文献3

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部