期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于大数据计算框架的分布式新闻聚类系统设计 被引量:9
1
作者 卢献华 王洪俊 《计算机科学》 CSCD 北大核心 2019年第S11期220-223,共4页
对海量的互联网新闻进行快速热点聚类是一个重要的研究方向。针对大规模文本聚类的几个关键问题(相似度计算、分布式聚类、聚类结果概要生成),文中设计并实现了一个基于Spark计算框架的分布式新闻聚类系统。该系统采用GPU加速的深度相... 对海量的互联网新闻进行快速热点聚类是一个重要的研究方向。针对大规模文本聚类的几个关键问题(相似度计算、分布式聚类、聚类结果概要生成),文中设计并实现了一个基于Spark计算框架的分布式新闻聚类系统。该系统采用GPU加速的深度相似度算法进行新闻文本的相似度计算,得到新闻之间的相似关系,并采用图聚类算法进行新闻聚类,最后采用标题压缩技术形成热点描述,生成最终的聚类结果。实验结果证明,文中提出的系统具有较高的执行效率和良好的可扩展性,可以有效地处理大规模新闻的热点聚类任务。 展开更多
关键词 分布式图聚类 深度相似度计算 GPU加速 标题压缩 大数据
下载PDF
一种有效的基于GraphX的分布式结构化图聚类算法 被引量:3
2
作者 时生乐 赵宇海 +2 位作者 李源 印莹 王国仁 《计算机科学与探索》 CSCD 北大核心 2018年第10期1571-1582,共12页
结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需... 结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需要大量的磁盘I/O开销,极大增加了算法的运行时间。针对以上问题,主要工作和贡献点如下:(1)提出两个削减规则,第一个削减规则用来减少邻接顶点之间相似性计算次数,第二个削减规则通过非精确计算邻接顶点间的相似性来减少计算时间。(2)提出一种基于Spark中GraphX的结构化图聚类算法GXDSGC,该算法在运行期间不需要大量的磁盘I/O开销。(3)通过在大量真实数据集和合成数据集上的实验,证实提出的GXDSGC算法的有效性。GXDSGC算法比基于Hadoop中MapReduce框架的算法快30多倍,能够显著提高结构化图聚类在大图数据分析中的效率。 展开更多
关键词 SPARK graphX 分布式计算 图聚类 社区结构
下载PDF
DisHAP:基于层次亲和聚类的分布式大图划分算法 被引量:2
3
作者 柳菁 李琪 《电子学报》 EI CAS CSCD 北大核心 2021年第10期2002-2011,共10页
平衡图划分是改善并行图计算性能的关键.一个良好的划分算法应保证划分后的子图在负载均衡的前提下,减少子图之间的交互边(切割边)规模,从而减少网络通信.对此,本文设计一种基于层次亲和聚类的分布式大图划分算法(DisHAP).该算法采用亲... 平衡图划分是改善并行图计算性能的关键.一个良好的划分算法应保证划分后的子图在负载均衡的前提下,减少子图之间的交互边(切割边)规模,从而减少网络通信.对此,本文设计一种基于层次亲和聚类的分布式大图划分算法(DisHAP).该算法采用亲和聚类的思想,将图初始划分为规模相等的k个子图;再将结果映射成顶点序列,以线性嵌入顺序处理节点,通过局部交换策略优化割边率;最后将DisHAP应用在MapReduce框架中,使用多种真实及理论图数据,与现有的大图划分算法做比较分析.以Twitter图为例,划分2,4,8,16,32个子区,相较于现有的大图划分算法(LDG,BLP,Spinner,Fennel,ParMetis及PSA-MIR算法),割边率减少1.7%~30.2%,说明了该算法的优越性.同时该算法具有良好的可扩展性,划分的子区数量及图的规模对划分时间具有较低的影响. 展开更多
关键词 分布式大图划分 层次聚类 局部优化 分布式图计算 平衡划分
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部