期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于大数据计算框架的分布式新闻聚类系统设计
被引量:
9
1
作者
卢献华
王洪俊
《计算机科学》
CSCD
北大核心
2019年第S11期220-223,共4页
对海量的互联网新闻进行快速热点聚类是一个重要的研究方向。针对大规模文本聚类的几个关键问题(相似度计算、分布式聚类、聚类结果概要生成),文中设计并实现了一个基于Spark计算框架的分布式新闻聚类系统。该系统采用GPU加速的深度相...
对海量的互联网新闻进行快速热点聚类是一个重要的研究方向。针对大规模文本聚类的几个关键问题(相似度计算、分布式聚类、聚类结果概要生成),文中设计并实现了一个基于Spark计算框架的分布式新闻聚类系统。该系统采用GPU加速的深度相似度算法进行新闻文本的相似度计算,得到新闻之间的相似关系,并采用图聚类算法进行新闻聚类,最后采用标题压缩技术形成热点描述,生成最终的聚类结果。实验结果证明,文中提出的系统具有较高的执行效率和良好的可扩展性,可以有效地处理大规模新闻的热点聚类任务。
展开更多
关键词
分布式图聚类
深度相似度计算
GPU加速
标题压缩
大数据
下载PDF
职称材料
一种有效的基于GraphX的分布式结构化图聚类算法
被引量:
3
2
作者
时生乐
赵宇海
+2 位作者
李源
印莹
王国仁
《计算机科学与探索》
CSCD
北大核心
2018年第10期1571-1582,共12页
结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需...
结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需要大量的磁盘I/O开销,极大增加了算法的运行时间。针对以上问题,主要工作和贡献点如下:(1)提出两个削减规则,第一个削减规则用来减少邻接顶点之间相似性计算次数,第二个削减规则通过非精确计算邻接顶点间的相似性来减少计算时间。(2)提出一种基于Spark中GraphX的结构化图聚类算法GXDSGC,该算法在运行期间不需要大量的磁盘I/O开销。(3)通过在大量真实数据集和合成数据集上的实验,证实提出的GXDSGC算法的有效性。GXDSGC算法比基于Hadoop中MapReduce框架的算法快30多倍,能够显著提高结构化图聚类在大图数据分析中的效率。
展开更多
关键词
SPARK
graph
X
分布式计算
图聚类
社区结构
下载PDF
职称材料
DisHAP:基于层次亲和聚类的分布式大图划分算法
被引量:
2
3
作者
柳菁
李琪
《电子学报》
EI
CAS
CSCD
北大核心
2021年第10期2002-2011,共10页
平衡图划分是改善并行图计算性能的关键.一个良好的划分算法应保证划分后的子图在负载均衡的前提下,减少子图之间的交互边(切割边)规模,从而减少网络通信.对此,本文设计一种基于层次亲和聚类的分布式大图划分算法(DisHAP).该算法采用亲...
平衡图划分是改善并行图计算性能的关键.一个良好的划分算法应保证划分后的子图在负载均衡的前提下,减少子图之间的交互边(切割边)规模,从而减少网络通信.对此,本文设计一种基于层次亲和聚类的分布式大图划分算法(DisHAP).该算法采用亲和聚类的思想,将图初始划分为规模相等的k个子图;再将结果映射成顶点序列,以线性嵌入顺序处理节点,通过局部交换策略优化割边率;最后将DisHAP应用在MapReduce框架中,使用多种真实及理论图数据,与现有的大图划分算法做比较分析.以Twitter图为例,划分2,4,8,16,32个子区,相较于现有的大图划分算法(LDG,BLP,Spinner,Fennel,ParMetis及PSA-MIR算法),割边率减少1.7%~30.2%,说明了该算法的优越性.同时该算法具有良好的可扩展性,划分的子区数量及图的规模对划分时间具有较低的影响.
展开更多
关键词
分布式大图划分
层次聚类
局部优化
分布式图计算
平衡划分
下载PDF
职称材料
题名
基于大数据计算框架的分布式新闻聚类系统设计
被引量:
9
1
作者
卢献华
王洪俊
机构
北京信息科技大学
北京拓尔思信息技术股份有限公司
出处
《计算机科学》
CSCD
北大核心
2019年第S11期220-223,共4页
文摘
对海量的互联网新闻进行快速热点聚类是一个重要的研究方向。针对大规模文本聚类的几个关键问题(相似度计算、分布式聚类、聚类结果概要生成),文中设计并实现了一个基于Spark计算框架的分布式新闻聚类系统。该系统采用GPU加速的深度相似度算法进行新闻文本的相似度计算,得到新闻之间的相似关系,并采用图聚类算法进行新闻聚类,最后采用标题压缩技术形成热点描述,生成最终的聚类结果。实验结果证明,文中提出的系统具有较高的执行效率和良好的可扩展性,可以有效地处理大规模新闻的热点聚类任务。
关键词
分布式图聚类
深度相似度计算
GPU加速
标题压缩
大数据
Keywords
distributed
graph
clustering
Depth
similarity
calculation
GPU
acceleration
Title
compression
Big
data
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
一种有效的基于GraphX的分布式结构化图聚类算法
被引量:
3
2
作者
时生乐
赵宇海
李源
印莹
王国仁
机构
东北大学计算机科学与工程学院
出处
《计算机科学与探索》
CSCD
北大核心
2018年第10期1571-1582,共12页
基金
国家自然科学基金Nos.61272182
61332014
+1 种基金
中央高校基本科研业务费专项资金N150402002
N150404008~~
文摘
结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需要大量的磁盘I/O开销,极大增加了算法的运行时间。针对以上问题,主要工作和贡献点如下:(1)提出两个削减规则,第一个削减规则用来减少邻接顶点之间相似性计算次数,第二个削减规则通过非精确计算邻接顶点间的相似性来减少计算时间。(2)提出一种基于Spark中GraphX的结构化图聚类算法GXDSGC,该算法在运行期间不需要大量的磁盘I/O开销。(3)通过在大量真实数据集和合成数据集上的实验,证实提出的GXDSGC算法的有效性。GXDSGC算法比基于Hadoop中MapReduce框架的算法快30多倍,能够显著提高结构化图聚类在大图数据分析中的效率。
关键词
SPARK
graph
X
分布式计算
图聚类
社区结构
Keywords
Spark
graph
X
distributed
computing
graph
clustering
community
structures
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
DisHAP:基于层次亲和聚类的分布式大图划分算法
被引量:
2
3
作者
柳菁
李琪
机构
绍兴文理学院计算机科学与工程系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2021年第10期2002-2011,共10页
基金
国家自然科学基金青年科学基金(No.62002226)。
文摘
平衡图划分是改善并行图计算性能的关键.一个良好的划分算法应保证划分后的子图在负载均衡的前提下,减少子图之间的交互边(切割边)规模,从而减少网络通信.对此,本文设计一种基于层次亲和聚类的分布式大图划分算法(DisHAP).该算法采用亲和聚类的思想,将图初始划分为规模相等的k个子图;再将结果映射成顶点序列,以线性嵌入顺序处理节点,通过局部交换策略优化割边率;最后将DisHAP应用在MapReduce框架中,使用多种真实及理论图数据,与现有的大图划分算法做比较分析.以Twitter图为例,划分2,4,8,16,32个子区,相较于现有的大图划分算法(LDG,BLP,Spinner,Fennel,ParMetis及PSA-MIR算法),割边率减少1.7%~30.2%,说明了该算法的优越性.同时该算法具有良好的可扩展性,划分的子区数量及图的规模对划分时间具有较低的影响.
关键词
分布式大图划分
层次聚类
局部优化
分布式图计算
平衡划分
Keywords
distributed
large-scale
graph
partitioning
hierarchical
clustering
local
optimization
distributed
graph
computation
balanced
partitioning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于大数据计算框架的分布式新闻聚类系统设计
卢献华
王洪俊
《计算机科学》
CSCD
北大核心
2019
9
下载PDF
职称材料
2
一种有效的基于GraphX的分布式结构化图聚类算法
时生乐
赵宇海
李源
印莹
王国仁
《计算机科学与探索》
CSCD
北大核心
2018
3
下载PDF
职称材料
3
DisHAP:基于层次亲和聚类的分布式大图划分算法
柳菁
李琪
《电子学报》
EI
CAS
CSCD
北大核心
2021
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部