基于Spark SQL的分布式全文检索框架的设计与实现被引量：5

Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL

下载PDF

导出

摘要随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。 With the development of information technology,big data has generated great value in various fields.Huge data storage and rapid analysis have become new challenges.The traditional relational database is difficult to meet the needs of big data storage and analysis because of its shortcomings in terms of performance,scalability and high cost.Spark SQL is a data analysis tool based on Spark,which is a big data processing framework.Spark SQL currently supports the TPC-DS benchmark and has become an alternative solution to the traditional data warehouse under the background of big data.Full-text search,as a kind of effective method of text search,can be used in combination with general query operation to provide richer queries and analysis operations.Spark SQL doesn’t support full-text search now.In order to meet the needs of traditional business migration and existing business,this paper proposed a Spark SQL distributed text retrieval framework,covering the design and implementation of 4 modules including SQL grammar,SQL translation framework,full-text search parallelism and search optimization.The results of experiment show that,under the two search optimization strategies,index construction time and query time of this framework are reduced to 0.6%/0.5%and 1%/10%respectively compared with the traditional database,and index storage volume is reduced to 55.0%.

作者崔光范许利杰刘杰叶丹钟华 CUI Guang-fan;XU Li-jie;LIU Jie;YE Dan;ZHONG Hua(University of Chinese Academy of Sciences,Beijing 100049,China;Institute of Software,Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院大学中国科学院软件研究所

出处《计算机科学》 CSCD 北大核心 2018年第9期104-112,145,共10页 Computer Science

基金北京市科技重大项目(D171100003417002)资助

关键词 SPARK SQL 全文检索翻译转换框架检索并行化检索优化 Spark SQL Full-text search Translation framework Search parallelism Search optimization

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：311
2孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2378
3程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：735

二级参考文献184

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
3Nature. Big Data [EB/OL]. [2012-10-02]. http,//www. nature, com/news/specials/bigdata/index, html. 被引量：1
4Bryant R E, Katz R H, Lazowska E D. Big-Data computing : Creating revolutionary breakthroughs in commerce, science, and society [R]. [2012-10-02]. http:// www. cra. org/ccc/docs/init/Big_Data, pdf. 被引量：1
5Science. Special online collection: Dealing with data [EB/OL]. [2012-10-02]. http://www, sciencemag, org/site/ special/data/, 2011. 被引量：1
6Agrawal D, Bernstein P, Bertino E, et al. Challenges and opportunities with big data A community white paper developed by leading researchers across the United States [R/OL]. [2012-10-02]. http://cra, org/ccc/docs/init/bigdata whitepaper, pdf. 被引量：1
7Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity [R/OL]. [ 2012-10-02 ]. http://www, mekinsey, corn/ Insights]MGI[Research/Teehnology _ and _ Innovation]Big _ data The next frontier for innovation. 被引量：1
8World Economic Forum. Big data, big impact: New possibilities for international development [R/OL]. [2012- 10-02]. http://www3, weforum, org/docs/WEF TC MFS BigDataBigImpact_Briefing 2012. pdf. 被引量：1
9Big Data Across the Federal Government [EB/OL]. [2012-10-02]. http://www, whitehouse, gov/sites/default/ files/microsites/ostp/big_data fact sheet_final_ 1. pdf. 被引量：1
10UN Global Pulse. Big Data for Development:Challenges Opportunities [R/OL]. [ 2012-10-02 ]. http://www. unglobalpulse, org/proj ects/BigDataforDevelopment. 被引量：1

共引文献3254

1韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009.
2李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
3孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
4闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
5叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68.
6郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
7刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
8吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：27
9刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1
10肖楠,陈红梅.从融媒体到智媒体:一种技术驱动下的传媒经济发展路径[J].新闻知识,2020(9):19-22. 被引量：3

同被引文献60

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2378
2吴斌,刘心光.一种基于改进的链式MapReduce的并行ETL应用[J].电信科学,2013,29(12):1-8. 被引量：2
3乐鹏,吴昭炎,上官博屹.基于Spark的分布式空间数据存储结构设计与实现[J].武汉大学学报（信息科学版）,2018,43(12):2295-2302. 被引量：21
4申建建,曹瑞,苏承国,程春田,李秀峰,吴洋,周彬彬.水火风光多源发电调度系统大数据平台架构及关键技术[J].中国电机工程学报,2019,39(1):43-55. 被引量：53
5程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：735
6苏琪,龚俭,苏艳珺.基于抽样流记录的RTT估计[J].软件学报,2014,25(10):2346-2361. 被引量：2
7韩立,刘正捷,李晖,余晨晔,张军,陈媛嫄.基于情境感知的远程用户体验数据采集方法[J].计算机学报,2015,38(11):2234-2246. 被引量：23
8杨东华,李宁宁,王宏志,李建中,高宏.基于任务合并的并行大数据清洗过程优化[J].计算机学报,2016,39(1):97-108. 被引量：47
9刘黎志,吴云韬.环境空气质量监测大数据存储模式研究[J].环境科学与技术,2016,39(5):123-128. 被引量：4
10丁祥武,解书亮,李继云.基于Spark的并行ETL[J].计算机工程与设计,2017,38(9):2580-2585. 被引量：7

引证文献5

1彭贝,刘黎志,杨敏,张晨跃.基于Hive的空气质量大数据查询优化方法[J].武汉工程大学学报,2020,42(4):467-472. 被引量：1
2李光明,李垚周,李颀.Spark平台下日志清洗系统设计[J].计算机工程与设计,2020,41(12):3580-3587. 被引量：2
3段瑞永.基于DCMM的集团级全域数据管理与共享平台研究与应用[J].电力大数据,2021,24(8):68-75. 被引量：4
4冯世杰,马超,张铁刚,郭舒扬,王国仕.基于原生分布式架构的数据库构建研究[J].信息技术,2022,46(4):188-192. 被引量：4
5秦慧娟.基于SQL的教育资源数据库索引自动推荐模型[J].自动化技术与应用,2022,41(10):117-120.

二级引证文献11

1张菁楠.基于Spark的大数据清洗框架设计与实现[J].科学技术创新,2021(22):109-110. 被引量：2
2陈新房,刘义卿.分布式系统数据仓库工具Hive的工作原理及应用[J].科学技术创新,2021(36):104-107. 被引量：3
3肖祥武.智慧发电企业数据中台架构及数字化应用[J].电力大数据,2022,25(5):69-76. 被引量：3
4张健.数据库在分布式应用软件中的应用与设计[J].软件,2023,44(2):165-167.
5刘维嘉.基于集成学习的电力设备运行全流程数据共享方法[J].电力大数据,2023,26(3):37-43.
6崔仕颖,张金涛,孙乾,封二强,申笑宁.软件故障数据库构建研究与应用[J].航空标准化与质量,2023(3):47-50.
7何毅平,黄媛,湛茂溪,陈庚.基于网络爬虫的招聘信息可视化系统设计与实现[J].长江工程职业技术学院学报,2023,40(3):24-28. 被引量：1
8王静,王鹏.基于数字孪生的高校智慧图书馆数据治理模型研究[J].图书馆学研究,2023(11):41-50. 被引量：2
9苏一君.企业数据治理标准化方案研究[J].科技与创新,2024(3):156-158. 被引量：1
10申皓.区域医疗数据灾备中心研究与探讨[J].互联网周刊,2024(6):26-28.

1张根俞,张猛,朱炳寅,席志刚.中科院电子所6#楼结构设计[J].建筑结构,2017,47(S1):221-224.
2黄博,冯鹏,刘晓源.浅谈数据库表间检索优化方法[J].现代化农业,2018(1):54-55.
3黄惠南,潘苗.大数据分布式全文检索系统的设计与实现[J].计算机产品与流通,2017,0(8):152-152. 被引量：1
4陈秀琪.从话轮转换角度探析《奥赛罗》中伊阿古的话语策略及剧中的人物关系和人物性格[J].宿州学院学报,2017,32(10):70-72. 被引量：5
5谷歌英国：近半数英国人认为语音搜索是未来趋势[J].广告大观（理论版）,2017,0(5):111-112.
6阮奎,程巧燕.地方高校公共体育改革的问题及其应对策略[J].玉林师范学院学报,2018,39(2):104-108.
7胡杰,郭乔进,陈彬.基于Lucene全文检索技术的优化探讨[J].计算机时代,2017(11):16-19. 被引量：1
8黄莺.基于相关反馈的特征融合图像检索优化策略初探[J].数字图书馆论坛,2018(2):45-51.
9黄宇栋.浅析Lucene在站内文本检索中的应用[J].金融科技时代,2017,25(12):57-59. 被引量：1
10张红兵,葛新路.金融业务上云的思考与总结[J].金融电子化,2018(9):104-105.

计算机科学

2018年第9期

浏览历史

内容加载中请稍等...

基于Spark SQL的分布式全文检索框架的设计与实现被引量：5

参考文献3

二级参考文献184

共引文献3254

同被引文献60

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Spark SQL的分布式全文检索框架的设计与实现 被引量：5

参考文献3

二级参考文献184

共引文献3254

同被引文献60

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Spark SQL的分布式全文检索框架的设计与实现被引量：5