期刊文献+

基于群体智能的半结构化藏文文本聚类算法 被引量:7

A Semi-Structured Tibetan Text Clustering Algorithm Based on Swarm Intelligence
下载PDF
导出
摘要 将群体智能技术应用于半结构化的藏文Web文本聚类,提出基于群体智能的半结构化藏文Web文本聚类算法(SCAST).充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响,SCAST算法首先运用向量空间模型表示藏文文本信息,将藏文文本和智能蚁群随机放置于一个文本向量空间中.然后智能蚂蚁随机选择藏文文本,计算藏文文本在当前局部区域内的相似性,获得拾起或者放下文本的概率,进而决定是否"拾起","移动","放下"藏文文本.最后通过多次迭代训练,将藏文文本按其相似性聚集在一起,得到最终聚类结果.大量真实藏文Web文本数据上的实验结果表明,相较于传统的k-means聚类算法,基于群体智能的藏文文本聚类算法在聚类准确率上平均提高约8.0%. To apply swarm intelligence techniques to structured Tibetan text clustering algorithm based into a full consideration of accuracy and efficiency cluster semi-structured Tibetan Web texts, a on swarm Intelligence (SCAST) is proposed. of Tibetan text clustering, a vector space model semi- Taking is used to express Tibetan texts, and the Tibetan texts and intelligent ants are randomly put in a two dimensional text vector space. Then, intelligent ants randomly select a Tibetan text, calculate the similarity between this text and others in the local area, and compute the probability of pick-up operation or drop-down operation to determine whether to pick up, move, or drop down the text. Finally, Tibetan texts are accurately clustered according to their similarities by iterative training of the proposed algorithm. The experimental results on real Tibetan Web text datasets show that the proposed algorithm is more accurate than the traditional k-means clustering algorithm with average increase of 8.0%.
出处 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期663-671,共9页 Pattern Recognition and Artificial Intelligence
基金 国家自然科学基金项目(No.61165013 61100045) 教育部人文社会科学研究青年基金项目(No.14YJCZH046) 高等学校博士学科点专项科研基金项目(No.20110184120008) 中国博士后科学基金特别项目(No.201104697) 中央高校基本科研业务费专项资金项目(No.2682013BR023) 四川省科技创新苗子工程项目(No.2012ZZ059)资助
关键词 群体智能 藏文 聚类分析 群体相似度 Swarm Intelligence, Tibetan Text, Clustering Analysis, Swarm Similarity
  • 相关文献

参考文献15

二级参考文献129

共引文献427

同被引文献54

引证文献7

二级引证文献30

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部