-
题名基于大数据计算框架的分布式新闻聚类系统设计
被引量:9
- 1
-
-
作者
卢献华
王洪俊
-
机构
北京信息科技大学
北京拓尔思信息技术股份有限公司
-
出处
《计算机科学》
CSCD
北大核心
2019年第S11期220-223,共4页
-
文摘
对海量的互联网新闻进行快速热点聚类是一个重要的研究方向。针对大规模文本聚类的几个关键问题(相似度计算、分布式聚类、聚类结果概要生成),文中设计并实现了一个基于Spark计算框架的分布式新闻聚类系统。该系统采用GPU加速的深度相似度算法进行新闻文本的相似度计算,得到新闻之间的相似关系,并采用图聚类算法进行新闻聚类,最后采用标题压缩技术形成热点描述,生成最终的聚类结果。实验结果证明,文中提出的系统具有较高的执行效率和良好的可扩展性,可以有效地处理大规模新闻的热点聚类任务。
-
关键词
分布式图聚类
深度相似度计算
GPU加速
标题压缩
大数据
-
Keywords
Distributed graph clustering
Depth similarity calculation
GPU acceleration
Title compression
Big data
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名分布式图聚类及其在电子商务数据挖掘中的应用
- 2
-
-
作者
赵颖
-
机构
郑州幼儿师范高等专科学校
-
出处
《电脑知识与技术(过刊)》
2015年第1X期14-15,共2页
-
文摘
在科技发达的今天,网络信息技术日渐进步。电子商务发展迅猛,收到了许多国家的重视与青睐。分布式图聚类是与之相联系的事情的内部与外部事件进行连接,形成分布式分析图。而数据挖掘是根究我们对已知的客户资料,包括客户的家庭信息,钱财状况,情感属性等等进行数据中和,从而达到想要从中了解到的真实状况。根据想要在电子商务上推出的一系列产品中做出更适合大众想要,更受大众喜爱的产品。在电子商务数据挖掘中,电子商家网站还可以从中获得灵感,制作出更被社会所欣赏的东西。电子商务挖掘中的分布式图聚类是受很多个国家的电子商务所青睐的数据反馈信息的一个研究方法。在电子商务数据挖掘中有很多问题,比如说客户的人数众多,无法正确完整的分析,再或者是商品的种类复杂等等。虽然数据挖掘在大多数情况下都是用电脑完成的,但是也有一定的局限。很难正确的分析出客户与商家的正确的联系。该文主要介绍的是分布式图聚类在其电子商务数据挖掘的应用。分布式图聚类是相对于一般图聚类的来说它是比较清晰可观地反映出数据之间的联系的一种图聚类,也是目前来说应用比较广的图聚类。
-
关键词
数据挖掘
图聚类
分布式图聚类
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-