期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于标准编码的有向标记频繁子图挖掘算法
1
作者
马晓培
陈慧萍
卞
昊
穹
《科学技术与工程》
北大核心
2012年第20期5060-5065,共6页
针对大部分频繁子图挖掘算法,基于无向图而不适用于更具有实际意义的有向图的挖掘的现状,通过对无向图挖掘算法gSpan中编码结构的扩展,采用改进的规范形式,使编码适用于有向图领域。并使用针对有向图的DADI++存储结构来存储图集,简化了...
针对大部分频繁子图挖掘算法,基于无向图而不适用于更具有实际意义的有向图的挖掘的现状,通过对无向图挖掘算法gSpan中编码结构的扩展,采用改进的规范形式,使编码适用于有向图领域。并使用针对有向图的DADI++存储结构来存储图集,简化了数据访问操作的代价。另外在挖掘中使用Hash表存储同构图的Hash地址和支持度,避免对图集的重复扫描和直接的同构测试。在实际数据集上运行的实验结果表明提出的Dspan算法是正确的,并比FFSM算法效率更高。
展开更多
关键词
有向图挖掘
频繁子图
子图同构
标准编码
DADI++
下载PDF
职称材料
HDFS存储和优化技术研究综述
被引量:
36
2
作者
金国栋
卞
昊
穹
+1 位作者
陈跃国
杜小勇
《软件学报》
EI
CSCD
北大核心
2020年第1期137-161,共25页
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量...
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.
展开更多
关键词
HDFS
分布式文件系统
存储系统优化
数据分析
下载PDF
职称材料
Spark上的等值连接优化
被引量:
12
3
作者
卞
昊
穹
陈跃国
+1 位作者
杜小勇
高彦杰
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第5期263-270,280,共9页
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差...
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
展开更多
关键词
大数据分析
等值连接
内存计算
下载PDF
职称材料
题名
基于标准编码的有向标记频繁子图挖掘算法
1
作者
马晓培
陈慧萍
卞
昊
穹
机构
河海大学计算机及信息学院
江苏省输配电装备技术重点实验室
出处
《科学技术与工程》
北大核心
2012年第20期5060-5065,共6页
文摘
针对大部分频繁子图挖掘算法,基于无向图而不适用于更具有实际意义的有向图的挖掘的现状,通过对无向图挖掘算法gSpan中编码结构的扩展,采用改进的规范形式,使编码适用于有向图领域。并使用针对有向图的DADI++存储结构来存储图集,简化了数据访问操作的代价。另外在挖掘中使用Hash表存储同构图的Hash地址和支持度,避免对图集的重复扫描和直接的同构测试。在实际数据集上运行的实验结果表明提出的Dspan算法是正确的,并比FFSM算法效率更高。
关键词
有向图挖掘
频繁子图
子图同构
标准编码
DADI++
Keywords
digraph mining the frequent subgraph subgraph isomorphism canonical code DA- DI ++
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
HDFS存储和优化技术研究综述
被引量:
36
2
作者
金国栋
卞
昊
穹
陈跃国
杜小勇
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息学院
大数据系统软件国家工程实验室(北京理工大学)
出处
《软件学报》
EI
CSCD
北大核心
2020年第1期137-161,共25页
基金
国家重点研发计划(2018YFB1004401)
国家自然科学基金(U1711261,61432006,61732014)。
文摘
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.
关键词
HDFS
分布式文件系统
存储系统优化
数据分析
Keywords
HDFS
distributed file system
storage system optimization
data analysis
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Spark上的等值连接优化
被引量:
12
3
作者
卞
昊
穹
陈跃国
杜小勇
高彦杰
机构
数据工程与知识工程教育部重点实验室(中国人民大学)
中国人民大学信息学院
出处
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第5期263-270,280,共9页
基金
中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)(10XNI018)
文摘
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
关键词
大数据分析
等值连接
内存计算
Keywords
Spark
SQL
big data analysis
equi-join
in-memory computation
分类号
TP392 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于标准编码的有向标记频繁子图挖掘算法
马晓培
陈慧萍
卞
昊
穹
《科学技术与工程》
北大核心
2012
0
下载PDF
职称材料
2
HDFS存储和优化技术研究综述
金国栋
卞
昊
穹
陈跃国
杜小勇
《软件学报》
EI
CSCD
北大核心
2020
36
下载PDF
职称材料
3
Spark上的等值连接优化
卞
昊
穹
陈跃国
杜小勇
高彦杰
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2014
12
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部