Spark环境下基于频繁边的大规模单图采样算法被引量：3

A Sampling Algorithm Based on Frequent Edges in Single Large-Scale Graph Under Spark

下载PDF

导出

摘要随着社交网络的流行,对其进行频繁子图挖掘的需求越来越强烈.大数据时代的到来,社交网络规模不断扩大,频繁子图挖掘工作变得愈发困难.在实际应用中,往往并不需要精确地挖掘出频繁子图,采样的方法在保证一定准确率的前提下能够显著提高频繁子图挖掘的效率.现有采样算法大多是根据节点的度进行采样,不适用于频繁子图挖掘.提出了一种基于频繁边的采样算法DIMSARI(distributed Monte Carlo sampling algorithm based on random jump and graph induction),在蒙特卡罗算法的基础上增加了根据频繁边进行随机跳的操作,并对其结果进行了图感应操作,进一步增加了算法的准确性,并在理论上证明了该方法的无偏性.实验结果显示:使用DIMSARI算法采样后进行频繁子图挖掘,准确性比现有其他的采样算法有较大的提高,在不同的采样率下采样后的子图的节点度都保持更小的归一化均方偏差. With the popularity of social networks, the demand for its frequent subgraph mining becomes more intense. With the arrival of the era of big data, social networks have been expanding and frequent subgraph mining becomes increasingly difficult. In fact, it does not require to mine frequent subgraphs exactly in application, so sampling methods are adopted to improve the efficiency of mining frequent subgraphs under certain accuracy. Most existing sampling algorithms are not fit for frequent subgraph mining because they use vertex transfer or compute the topology of the original graph first which will take a lot of time. In this paper, we propose a new sampling algorithm named DIMSARI （distributed Monte Carlo sampling algorithm based on random jump and graph induction） based on frequent edge,and it runs on a distributed framework named Spark. This algorithm is created on the basis of the Monte Carlo algorithm meanwhile adding random jump. The results are added by subgraph induction step to promote the accuracy of the algorithm and prove that the algorithm is unbiased. The experiments show that the accuracy of frequent subgraph mining using DIMSARI algorithm has been greatly improved and at the same time the proposed algorithm only spends a little more time than other algorithms. The apex of sampling at different sampling rates after subgraphs has maintained a lower normalized mean square error.

作者李龙洋董一鸿严玉良陈华辉钱江波

机构地区宁波大学信息科学与工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2017年第9期1966-1978,共13页 Journal of Computer Research and Development

基金国家自然科学基金项目(61572266 61472194) 浙江省自然科学基金项目(Y16F020003) 宁波市自然科学基金项目(2017A610114)~~

关键词采样频繁子图大规模单图频繁边 SPARK sample frequent subgraph single large-scale graph frequent edge Spark

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1王栋,李振宇,谢高岗.在线社会网络无偏采样技术[J].计算机研究与发展,2016,53(5):949-967. 被引量：5
2严玉良,董一鸿,何贤芒,汪卫.FSMBUS:一种基于Spark的大规模频繁子图挖掘算法[J].计算机研究与发展,2015,52(8):1768-1783. 被引量：21

二级参考文献76

1汪卫,周皓峰,袁晴晴,楼宇波,施伯乐.基于图论的频繁模式挖掘[J].计算机研究与发展,2005,42(2):230-235. 被引量：17
2李先通,李建中,高宏.一种高效频繁子图挖掘算法[J].软件学报,2007,18(10):2469-2480. 被引量：35
3Borgelt C, Berthold M R, Patterson D E. Molecular fragment mining for drug discovery [G] //Symbolic and Quantitative Approaches to Reasoning with Uncertainty. Berlin: Springer, 2005 : 1002-1013. 被引量：1
4Guralnik V, Karypis G. A scalable algorithm for clustering sequential data [C] //Proc of the 1st IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2001:179-186. 被引量：1
5Yan X, Yu P S, Han J. Graph indexing: A frequent structure-based approach [C] //Proc of the 17th ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2004: 335-346. 被引量：1
6Liu Y, Jiang X, Chen H, et al. Mapreduce-based pattern finding algorithm applied in motif detection for prescription compatibility network [G] //Advanced Parallel Processing Technologies. Berlin: Springer, 2009: 341-355. 被引量：1
7Shahrivari S, Jalili S. Distributed discovery of /requent subgraphs of a network using MapReduce [OL]. [2015-03- 25]. http://link, springer, corn/article/10. 1007/s00607-015 0446 9. 被引量：1
8Elseidy M, Abdelhamid E, Skiadopoulos S, et al. GRAMI: Frequent subgraph and pattern mining in a single large graph [C] //Proc of the 40th Int Conf on Very Large Data Bases. Berlin: Springer, 2014:517-528. 被引量：1
9Bhuiyan M A, A1 Hasan M. An iterative MapReduce based frequent subgraph mining algorithm [J]. IEEE Trans on Knowledge and Data Engineering, 2013, 27(3): 608-620. 被引量：1
10Lu W, Chen G, Tung A K H, et al. Efficiently extracting frequent subgraphs using mapreduce [C] //Proc of the 1st IEEE Int Conf on Big Data. Piscataway, NJ: IEEE, 2013: 639-647. 被引量：1

共引文献24

1赵卫红.海洋中胶体研究的新进展[J].海洋与湖沼,2000,31(2):221-229. 被引量：11
2岑凯伦,于红岩,杨腾霄.大数据下基于Spark的电商实时推荐系统的设计与实现[J].现代计算机,2016,22(16):61-69. 被引量：22
3王丽娜,余荣威,付楠,鞠瑞,徐鹏志.基于大数据分析的APT防御方法[J].信息安全研究,2015,1(3):230-237. 被引量：8
4杨枢,邱昱炎,石波.区域心电监护物联网云计算平台关键技术研究[J].中国医疗器械杂志,2016,40(5):341-343. 被引量：2
5廖彬,张陶,于炯,国冰磊,刘继.基于二维划分的杰卡德相似系数批量计算效率优化[J].计算机科学,2017,44(1):219-225. 被引量：2
6张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
7郑诗敏,秦小麟,刘亮,周倩.云环境下的突发关键字查询算法[J].计算机科学,2017,44(3):10-15.
8黄林昊,郭昆.基于并行决策树的微博互动数预测[J].福建工程学院学报,2017,15(3):294-300.
9张鹏,段磊,秦攀,左劼,唐常杰,元昌安,彭舰.基于Spark的Top-k对比序列模式挖掘[J].计算机研究与发展,2017,54(7):1452-1464. 被引量：7
10崔景洋.图数据挖掘研究[J].太原师范学院学报（自然科学版）,2018,17(1):38-40. 被引量：3

同被引文献13

1谢玓,尚学群,王淼,张延园.解决数据样本不平衡性的频繁子图挖掘算法[J].计算机工程与应用,2008,44(36):146-149. 被引量：5
2朱新玲.马尔科夫链蒙特卡罗方法研究综述[J].统计与决策,2009,25(21):151-153. 被引量：32
3方伟,孙俊,谢振平,须文波.量子粒子群优化算法的收敛性分析及控制参数研究[J].物理学报,2010,59(6):3686-3694. 被引量：116
4雷珂,何威.基于数据挖掘技术的软件缺陷检测方法研究[J].电子世界,2012(15):112-114. 被引量：2
5张成虎,尹为.基于数据流频繁子图挖掘的可疑金融交易动态识别[J].系统工程,2013,31(7):1-7. 被引量：4
6屠黎阳,杜俊强,接标,张道强.基于判别性子图重构的轻微肝性脑病分类[J].模式识别与人工智能,2016,29(9):832-839. 被引量：3
7古平,杨炀.面向不均衡数据集中少数类细分的过采样算法[J].计算机工程,2017,34(2):241-247. 被引量：20
8朱鹏宇,鲍培明,吉根林.用户频繁通信关系的并行挖掘算法研究[J].计算机科学,2018,45(2):103-108. 被引量：1
9肖飞,王悦,梅逸男,白璐,崔丽欣.基于出行模式子图的城市功能区域发现方法[J].计算机科学,2018,45(12):268-278. 被引量：5
10朱雪冰,周安民,左政.基于家族行为频繁子图挖掘的恶意代码检测[J].信息安全研究,2019,5(2):105-113. 被引量：3

引证文献3

1张海鹏,张扬帆,孙俊.基于Lévy分布的柔软自适应演化采样算法[J].计算机应用研究,2019,36(7):1994-1997. 被引量：2
2吴成凤.频繁子图挖掘算法的应用分类[J].电脑知识与技术,2020,16(29):40-41.
3丁际文,孔晓旺,张岩峰,于戈.一种面向大数据的水塘采样分布式算法[J].控制工程,2022,29(2):356-361. 被引量：2

二级引证文献4

1石美凤,杨海,陈媛,肖诗川,廖鑫,何颖.基于局部并行搜索的分布式约束优化算法框架[J].计算机应用研究,2022,39(8):2376-2380. 被引量：1
2张少丰,李书琴.引入精英反向学习和柯西变异的混沌蜉蝣算法[J].计算机工程与设计,2024,45(1):187-196. 被引量：3
3张丹丹,吕颍颍,黄鑫.非关系型分布式大数据多分辨率采集系统设计[J].自动化与仪器仪表,2023(10):139-143.
4宁滔.海量大数据定向采样有差别挖掘算法仿真[J].现代电子技术,2024,47(9):164-168.

1方旺盛,王慧,罗叶珍,胡中栋.基于信号强度的井下无线传感器网络蒙特卡罗移动节点定位算法[J].兵工自动化,2017,36(8):91-96. 被引量：3
2鲁丽.基于出租车轨迹的城市居民移动模型相关研究[J].电脑知识与技术,2017,13(2X):252-254. 被引量：1
3陈雪娇,陈芸芝.单窗算法在福建毗邻海域海表温度反演的适用性分析[J].遥感技术与应用,2017,32(4):773-779. 被引量：1

计算机研究与发展

2017年第9期

浏览历史

内容加载中请稍等...

Spark环境下基于频繁边的大规模单图采样算法被引量：3

参考文献2

二级参考文献76

共引文献24

同被引文献13

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Spark环境下基于频繁边的大规模单图采样算法 被引量：3

参考文献2

二级参考文献76

共引文献24

同被引文献13

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Spark环境下基于频繁边的大规模单图采样算法被引量：3