Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统被引量：11

Goldfish:A Large Scale Semantic Data Store and Query System Based on Boolean Matrix Factorization

下载PDF

导出

摘要随着互联网应用的迅猛发展和语义网技术研究的深入,语义数据呈现出爆炸性增长趋势.一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此以提供更好的服务;另一方面,语义数据的爆炸性增长,对大数据环境下的语义数据的存储与查询技术提出了新的挑战.传统的基于关系型数据库的语义数据与查询系统已难以满足大规模语义数据的存储与查询需求.该文针对大规模RDF数据的存储与查询问题,以OpenRDF Sesame框架为基础,采用分布式分层式存储架构,提出并实现了属性表存储结构来进行语义数据的存储.在此基础上,针对布尔矩阵分解算法在对大规模语义数据构造属性表较慢的问题,基于Spark分布式计算框架提出并实现了并行化频繁项集挖掘算法求解大规模矩阵分解,以加速属性表的构造过程.并且,在查询层增加了基于哈希转换等查询优化.最后,基于该文所提出的索引结构和优化方法设计实现了原型系统Goldfish,并在大规模合成和真实数据集上进行了实验对比.结果表明,Goldfish原型系统比Rainbow系统查询性能平均提升约6倍,比Jena-HBase查询性能平均提升约500倍,比基于MapReduce的RDF查询系统SHARD性能平均提升约1200倍. With the rapid development of the Internet applications and the semantic web technology, the amount of the semantic data is exploding. On one hand, it is significant to store and query semantic data efficiently, as many applications can provide better services based on this. On the other hand, the rapid increase of the semantic data brings new challenges on efficient storing and querying semantic data in big data era. The traditional ways for semantic data management is to store and query the data in relational database management systems. As the data increases, the traditional ways can hardly handle big data. To address this problem, this paper proposed a distributed hierarchical storage architecture to store and query large-scale semantic data based on the OpenRDF Sesame framework. The RDF storage mechanism is optimized by adopting the attribute tame to replace the RDF triple store. Considering the big semantic data, a parallel frequent item set mining algorithm with Spark framework is proposed to generate the index of the attribute table. Moreover, a layer of optimized hash conversion is proposed to avoid wasting time in frequent hash table search during query stage. To evaluate the efficiency of the proposed approach in this paper, we implement a prototype system called Goldfish, and conduct a comparison use large-scale synthetic dataset and real dataset. Experiment results show that Goldfish is around 8 times faster than Rainbow, 500 times faster than Jena-HBase and 1200 times faster than the MapReduce based RDF querying system SHARD.

作者顾荣仇红剑杨文家胡伟袁春风黄宜华 GU Rong QIU Hong-Jian YANG Wen-Jia HU Wei YUAN Chun-Feng HUANG Yi-Hua(State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093 Collaborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210093)

机构地区南京大学计算机软件新技术国家重点实验室江苏省软件新技术与产业化协同创新中心

出处《计算机学报》 EI CSCD 北大核心 2017年第10期2212-2230,共19页 Chinese Journal of Computers

基金国家自然科学基金专项基金(61223003) 国家自然科学基金(61370019) 江苏省科技支撑计划项目(BE2014131)资助~~

关键词大规模RDF存储矩阵分解分层式存储大数据语义网 SPARK large scale RDF store matrix factorization hierarchical storage big data semantic web Spark

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1李栋.Alzheimer病的研究现状[J].国外医学（遗传学分册）,2001,24(4):224-227. 被引量：6
2张连城,张玉莲,张权.从肾藏精论治老年痴呆[J].中医杂志,2011,52(17):1456-1458. 被引量：46
3曹会波,李永祥,韦正祥.补肾活血化痰法拟方联合西药治疗血管性痴呆疗效观察[J].中医药临床杂志,2011,23(12):1037-1038. 被引量：12
4韦华军.加服自拟益肾健脑通络汤治疗血管性痴呆24例[J].广西中医药,2011,34(4):14-15. 被引量：3
5唐学敏,张运克,周英武,张书文.补肾益气活血法治疗血管性痴呆病经验[J].中医杂志,2013,54(11):968-969. 被引量：21
6魏翠柏,田金洲,贾建平.老年痴呆中医病因病机理论的认识与思考[J].中华中医药杂志,2005,20(8):496-498. 被引量：82

二级参考文献58

1李亚明,张春燕.神病与痴呆剖辨──试析林水淼论治Alzheimer病的学术思想[J].上海中医药大学学报,1999,13(4):17-19. 被引量：6
2王四平,王文智,李士懋.试论痰瘀是血管性痴呆的基本病机[J].中国中医基础医学杂志,2004,10(10):1-2. 被引量：41
3夏翔,柳玉瑾,邰杏芳,朱承谟,黄抗初,张敏,黄飞华,俞丽华,王根发,周永炜,丁钰熊,边毓土,王家冲.回春饮治疗老年期痴呆的临床观察和实验研究[J].上海中医药大学上海市中医药研究院学报,1996,10(1):22-26. 被引量：5
4华刚.地黄饮子加减治疗老年痴呆症26例[J].四川中医,2004,22(12):36-36. 被引量：16
5王昌俊,吕继端,刘庆芳.益智灵为主治疗老年痴呆51例[J].中国医药学报,1993,8(1):33-34. 被引量：24
6段从存,王怀印.补肾健脑汤为主治疗老年性痴呆症30例[J].安徽中医学院学报,1994,13(3):28-28. 被引量：16
7李航,熊璟,周全荣.肾虚证现代研究进展[J].中国中西医结合肾病杂志,2005,6(4):246-248. 被引量：11
8张壮,闫彦芳,韦颖,林海,崔巍,王硕仁,牛福玲,朱陵群.党参皂苷L1抗缺氧缺糖再给氧诱导大鼠皮质神经细胞凋亡的作用[J].中国中医基础医学杂志,2005,11(5):341-344. 被引量：21
9王万兴.陈宝贵治疗老年期脑血管性痴呆经验[J].中医杂志,2005,46(8):579-580. 被引量：2
10王静,热孜万.痰瘀同治治疗血管性痴呆[J].新疆中医药,2005,23(5):3-5. 被引量：12

共引文献154

1钱红月,肖移生,侯吉华,姜劼琳,欧阳厚淦.黄精配伍抗老年痴呆研究进展[J].亚太传统医药,2021,17(4):181-184. 被引量：5
2刘雅心,孙菊光.益智方在血管性痴呆防治中的意义[J].世界最新医学信息文摘,2021(10):273-274.
3Alzheimer病患者线粒体DNA点突变的研究[J].上海精神医学,2006,18(2):91-93.
4果茵茵,李平.高效液相色谱法测定醒脑益智颗粒中淫羊藿苷的含量[J].中国药师,2006,9(10):903-904. 被引量：4
5崔德芝,张恭新,朱振铎.老年性痴呆的中医理论探讨[J].山东中医杂志,2006,25(10):655-657. 被引量：34
6陈民.老年痴呆肾虚痰瘀病机浅析[J].中医药学刊,2006,24(10):1807-1808. 被引量：6
7宋立公,刘娟,郝军.2001—2005中医药治疗血管性痴呆文献分析与思考[J].光明中医,2007,22(2):55-57.
8邓家刚,郝二伟,郭宏伟,柳俊辉.老年性痴呆复方用药规律探讨[J].山东中医杂志,2007,26(6):363-365. 被引量：22
9栗晓东,庞勇,冼丽萍.中医药治疗血管性痴呆概况[J].中国药物应用与监测,2007,4(6):47-50.
10周友龙,贾建平.穴位埋线治疗阿尔茨海默病临床观察[J].中国针灸,2008,28(1):37-40. 被引量：13

同被引文献74

1张峰,秦志光,刘锦德.基于入侵事件预测的网络安全预警方法[J].计算机科学,2004,31(11):77-79. 被引量：11
2叶明华.保险欺诈心理动因分析[J].中国保险,2007(8):60-61. 被引量：2
3苏玉珍,热希.林业病虫害防治工作中的问题及对策[J].内蒙古林业调查设计,2007,30(6):71-72. 被引量：23
4寇月,申德荣,李冬,聂铁铮.一种基于语义及统计分析的DeepWeb实体识别机制[J].软件学报,2008,19(2):194-208. 被引量：18
5龙国平,范东睿.LU分解在Godson-Tv1众核体系结构上的并行化研究[J].计算机学报,2009,32(11):2157-2167. 被引量：2
6吕艳辉.RDF(S)模型到关系数据库模式的转换[J].计算机工程,2011,37(9):65-67. 被引量：1
7于戈,谷峪,鲍玉斌,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767. 被引量：98
8李珺,张贵,谭三清.林业信息共享中云计算应用[J].湖南林业科技,2012,39(3):10-14. 被引量：5
9周海炜,郑爱翔,胡兴球.多学科视角下的国际河流合作开发国外研究及比较[J].资源科学,2013,35(7):1363-1372. 被引量：13
10冯健,倪明,赵建波.一种基于分布式平台Hadoop的矩阵相乘算法[J].计算机系统应用,2013,22(12):149-154. 被引量：1

引证文献11

1张春波,徐翠娟,李晓会.大数据环境下的数据存储与查询[J].数码世界,2018,0(2):56-56.
2饶志宏,刘杰,陈剑锋.面向网络监测预警的海量知识存储研究[J].计算机工程,2018,44(3):138-143. 被引量：6
3孙广婷,李丹,周唯唯,张俊杰,牛萌,邹佳旭.云计算下Spark并行Apriori算法林业病虫害防治研究[J].森林工程,2018,34(4):45-51. 被引量：4
4王晓鹏.多用户环境下多线程数据库编程备份方法仿真[J].计算机仿真,2018,35(8):210-213. 被引量：1
5谢泽宇,施国良,杨汉钰,潘奕慧.国际淡水争端领域分面本体构建与应用[J].情报杂志,2018,37(11):192-196. 被引量：2
6刘建.基于频繁项集挖掘的数据库超文本查询算法研究[J].数字技术与应用,2019,37(4):119-120. 被引量：2
7张曙光.基于矩阵分解的大数据集域隐私匹配算法[J].电子技术与软件工程,2019(17):153-154.
8潘珊珊.非集中式元数据存储结构优化设计仿真[J].计算机仿真,2019,36(10):396-399. 被引量：2
9杨程,陆佳民,冯钧.分布式环境下大规模资源描述框架数据划分方法综述[J].计算机应用,2020,40(11):3184-3191. 被引量：5
10张巍巍,吴恒亮.大数据技术在财产保险反欺诈中的应用研究综述[J].中国管理信息化,2021,24(15):143-145. 被引量：3

二级引证文献28

1李芝茹,李全罡,樊冬温,张北航,张福娟,曲哲,王俊.气象因素变化与虫害发生的灰色关联分析[J].森林工程,2019,35(4):51-57. 被引量：3
2武红敢,王成波,常原飞.松材线虫病死松树云服务管理的探究[J].林业资源管理,2019(5):68-75. 被引量：6
3王丽红,武树军,韩国宝,张小平,王耀.小乘黑杨树栽培与病虫害防治技术分析[J].绿色科技,2019,0(21):131-132. 被引量：8
4谢亚飞.电力骨干通信网的预警方法研究[J].集成电路应用,2019,36(12):30-31.
5张亚运.城市轨道交通客流量监测仪极限预警方法研究[J].自动化与仪器仪表,2020(5):121-125. 被引量：2
6韩烨,周利均.基于群体智能技术的漏洞挖掘机理研究[J].通信技术,2020,53(6):1465-1472.
7张胜祥,石超,姜欣,张迎.基于大数据技术的信息频繁项集挖掘研究[J].自动化与仪器仪表,2020(11):42-45. 被引量：5
8田润林.基于多元状态估计的供热管道外施负载预警方法研究[J].区域供热,2021(1):1-7. 被引量：1
9潘威,夏翠娟,张光伟,孙涛.历史地理信息化与图情研究融合的必要性与可行性--以“数字历史黄河”为中心的考察[J].图书情报知识,2021,38(3):50-60. 被引量：8
10林鑫,龙存钰,罗宇.面向政府开放数据的分面检索研究[J].图书情报工作,2021,65(16):130-137. 被引量：5

1周露.VIVO技术在语义网平台中的应用及其实现方式研究[J].江苏科技信息,2017,34(29):57-59.
2王鸿绪.布尔矩阵的不定方程及其应用[J].辽阳石油化专学报,1990,6(1):1-12.
3伊崇信,戴洪才.一种求布尔矩阵全体广义逆的新算法[J].齐齐哈尔轻工业学院学报,1990,6(2):51-57.
4张洪谦.布尔矩阵的特征值和特征向量[J].济南大学学报（社会科学版）,1996,7(2):52-55.
5陈健良,孟小峰.ORACLE查询优化技术分析[J].计算机研究与发展,1991,28(12):50-58.
6石树刚,郑振楣.分布式数据库的实用化[J].微型计算机,1989,9(3):1-6.
7王舜智.浅析分布式数据库查询优化[J].民营科技,2013(3):8-8. 被引量：1
8吴京慧,汪秉文.提高数据库运行效率的有效途径[J].计算机与现代化,2001(1):10-14. 被引量：3
9郭冬生,张峰昌,孙中伟,史方凯,班效金.现代发动机油底壳设计思路[J].内燃机与配件,2017(15):9-10. 被引量：2
10戴洪才.布尔矩阵全体广义逆的一个简便求法[J].辽阳石油化专学报,1989,5(2):6-9.

计算机学报

2017年第10期

浏览历史

内容加载中请稍等...

Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统被引量：11

参考文献6

二级参考文献58

共引文献154

同被引文献74

引证文献11

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统 被引量：11

参考文献6

二级参考文献58

共引文献154

同被引文献74

引证文献11

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统被引量：11