-
题名基于自适应簇中心选择的文本聚类算法研究
被引量:1
- 1
-
-
作者
翟东海
聂洪玉
崔静静
杜佳
-
机构
西南交通大学信息科学与技术学院
西藏大学工学院
-
出处
《成都信息工程学院学报》
2013年第6期617-622,共6页
-
基金
国家语委"十二五"科研规划资助项目(YB125-49)
教育部科学技术研究重点资助项目(212167)
+1 种基金
中央高校基本科研业务费专项资金科技创新资助项目(SWJTU12CX096)
国家级大学生创新创业训练计划资助项目(201210694017)
-
文摘
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。
-
关键词
海量数据挖掘
初始簇中心
文档距离
K-MEANS算法
-
Keywords
data mining
initial cluster center
document distances
K-means algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名WWW业务访问特性分布研究
被引量:12
- 2
-
-
作者
郝沁汾
祝明发
郝继升
-
机构
中国科学院计算技术研究所智能中心
延安大学数学与计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第10期1172-1180,共9页
-
文摘
WWW业务表现为一系列的访问序列 .而 Web Server和 Proxy Server的日志很好地记录了这种访问序列的过程及特性 .WWW业务的特性研究是 Web Server、Web中间件研究和人工合成 Web负载的基础 .分析了一个 Web Server和两个 Proxy Server的日志 ,重点研究了 Web页面请求的概率分布、Web静态文档大小的概率分布 (含传输文档 )、Web静态文档的访问距离的概率分布 ,并将分析结果同相关文献的结果进行了对比 ,同时通过试验证实了在使用 Size作为 Web缓存替换依据时 ,还应该考虑 Web文档的访问频率 .
-
关键词
WWW
访问特性
概率分布
WEB
缓存替换算法
计算机网络
-
Keywords
WWW access characteristics, Web page request distribution, Web static document size distribution, Web static document access distance distribution, Web cache replacement algorithm
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-