基于字段嵌入的数据库自然语言查询接口被引量：3

Natural Language Interface for Databases with Content-based Table Column Embeddings

下载PDF

导出

摘要将自然语言转化成数据库可以执行的查询语句,是目前智能交互和人机对话系统的核心难题,也是新型供电列车大数据运用支撑平台对接应用平台及建立城轨列车个性化运维系统的难点。现有的基于神经网络的方法没有充分利用数据表的丰富信息,影响了查询的准确率。针对数据表内容作为输入的情况下,如何提升自然语言查询接口的查询准确率的问题,文中创新地提出了基于数据表内容的字段嵌入方法,利用数据表中每个字段存储的内容对字段进行嵌入表示,并据此提出了新的模型嵌入层结构;此外,提出了一种基于数据表内容的数据增强方法,通过用数据表相同字段中的其他记录去代替查询语句中的属性值,来产生新的训练样本。最后,针对提出的字段嵌入表示和数据增强方法,在WikiSQL数据集上进行了对比实验。实验结果显示,相比当前效果最好的模型,单独使用这两种方法时能够提升0.6%~0.8%的查询准确率,共同使用时则能够提升接近1%的查询准确率,证明所提字段嵌入和数据增强方法对查询准确率有一定的提升作用。 Converting natural language into query statements that can be executed in database is the core problem of intelligent interaction and human-computer dialogue system,and is also the urgent need of personalized operation and maintenance system for urban rail trains.At the same time,it is the difficulty of docking the bottom application platform with the support platform for large data application of the new power supply train.The existing neural network-based methods don’t utilizing semantic-rich table content or utilize it partially,which limits the improvement of the execution accuracy.This paper studies how to improve the query accuracy of natural language query interfaces when table content is included in the inputs.Aiming at this problem,this paper proposes a table column embedding method based on table content which embeds the table columns by utilizing the content stored in each table column.Based on the method,this paper proposes a new structure of embedding layer.This paper also proposes a method of data augmentation by utilize table content.It generates new training samples by replacing attribute values in queries with other records in the same column of the table.This paper finally conducts experiments on WikiSQL dataset for the proposed methods of column embedding and data augmentation.The experimental results show that,on the basis of the state-of-the-art methods,the two methods can improve the query accuracy by 0.6%~0.8%when they are used separately and nearly 1%when they are used together.Therefore,it proves that the methods of column embedding and data augmentation proposed in this paper can achieve good improvements on execution accuracy.

作者田野寿黎但陈珂骆歆远陈刚 TIAN Ye;SHOU Li-dan;CHEN Ke;LUO Xin-yuan;CHEN Gang(College of Computer Science and Technology,Zhejiang University,Hangzhou 310027,China;Key Laboratory of Big Data Intelligent Computing of Zhejiang Province,Hangzhou 310027,China)

机构地区浙江大学计算机科学与技术学院浙江省大数据智能计算重点实验室

出处《计算机科学》 CSCD 北大核心 2020年第9期60-66,共7页 Computer Science

基金国家重点研发计划(2017YFB1201001) 国家自然科学基金(61672455) 浙江省自然科学基金(LY18F020005)。

关键词数据库查询自然语言处理 SQL 词嵌入 Database query Natural language processing SQL Word embedding

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献28

1吴宗大,曹忠升,王元珍.可视化多媒体查询语言的设计与实现[J].华中科技大学学报（自然科学版）,2008,36(7):45-47. 被引量：4
2吴宗大,曹忠升,王元珍,黄达文.多媒体查询语言UMQL语法分析器的设计与实现[J].小型微型计算机系统,2010,31(2):271-275. 被引量：2
3申建建,曹瑞,苏承国,程春田,李秀峰,吴洋,周彬彬.水火风光多源发电调度系统大数据平台架构及关键技术[J].中国电机工程学报,2019,39(1):43-55. 被引量：55
4卢成浪,刘明雍,吴宗大,张钰凡.有效多媒体查询代数的设计与实现[J].西北工业大学学报,2014,32(6):899-905. 被引量：2
5林炳花.大数据技术在电力通信网的研究与应用[J].电力大数据,2018,21(5):31-35. 被引量：21
6吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：77
7卢成浪,吴宗大,李桂玲.基于MPEG-7视频检索系统的设计与实现[J].西北大学学报（自然科学版）,2018,48(3):369-375. 被引量：3
8崔光范,许利杰,刘杰,叶丹,钟华.基于Spark SQL的分布式全文检索框架的设计与实现[J].计算机科学,2018,45(9):104-112. 被引量：5
9刘杰,王桂玲,左小将.基于可变时间窗口的增量数据抽取模型[J].计算机科学,2018,45(11):204-209. 被引量：4
10杜小勇,卢卫,张峰.大数据管理系统的历史、现状与未来[J].软件学报,2019,30(1):127-141. 被引量：63

引证文献3

1段瑞永.基于DCMM的集团级全域数据管理与共享平台研究与应用[J].电力大数据,2021,24(8):68-75. 被引量：4
2卢成浪,尤卫军,吴宗大.视频查询语言SVQL语法分析模型[J].西北工业大学学报,2022,40(5):1065-1070.
3刘喜平,舒晴,何佳壕,万常选,刘德喜.基于自然语言的数据库查询生成研究综述[J].软件学报,2022,33(11):4107-4136. 被引量：3

二级引证文献7

1肖祥武.智慧发电企业数据中台架构及数字化应用[J].电力大数据,2022,25(5):69-76. 被引量：5
2刘维嘉.基于集成学习的电力设备运行全流程数据共享方法[J].电力大数据,2023,26(3):37-43. 被引量：1
3王静,王鹏.基于数字孪生的高校智慧图书馆数据治理模型研究[J].图书馆学研究,2023(11):41-50. 被引量：12
4陈海宇.基于深度模块训练的数据库查询效率预测研究[J].成都工业学院学报,2024,27(1):42-46.
5苏一君.企业数据治理标准化方案研究[J].科技与创新,2024(3):156-158. 被引量：1
6舒晴,刘喜平,谭钊,李希,万常选,刘德喜,廖国琼.基于依存关系图注意力网络的SQL生成方法[J].浙江大学学报（工学版）,2024,58(5):908-917.
7周敏,曾达,杨祥.属性关联模型下大数据集群查询仿真[J].计算机仿真,2024,41(3):524-527.

1李志,黑丽,庞江鑫,李雪锋,王艳,周欢欢,李雯娟,顾新生.武当中药夏枯草治疗桥本甲状腺炎作用机制的网络药理学研究[J].湖北医药学院学报,2020,39(4):327-333. 被引量：5
2侯丽仙,李艳玲,林民,李成城.融合多约束条件的意图和语义槽填充联合识别[J].计算机科学与探索,2020,14(9):1545-1553. 被引量：8
3刘教民,刘艳晖,朱叶.基于单模型集成的年龄估计框架[J].河北工业大学学报,2020,49(4):40-46.
4曹金超,黄滔,陈刚,吴晓凡,陈珂.自然语言生成多表SQL查询语句技术研究[J].计算机科学与探索,2020,14(7):1133-1141. 被引量：17
5韩泽平,李艳,黎毓光,吕钰冰,何思华,何金花.生物信息学分析长链非编码RNA在结肠癌中的调控网络[J].浙江医学,2020,42(16):1699-1705. 被引量：3
6张俊杰.Incorporating Technology into English Language Learners’Classroom—A Case Study of Using Wiki,Podcast,and Computer Graphic Organizer as Tools[J].海外英语,2020(15):267-268.
7冯安然,王旭仁,汪秋云,熊梦博.基于PCA和随机树的数据库异常访问检测[J].计算机科学,2020,47(9):94-98. 被引量：12

计算机科学

2020年第9期

浏览历史

内容加载中请稍等...

基于字段嵌入的数据库自然语言查询接口被引量：3

同被引文献28

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于字段嵌入的数据库自然语言查询接口 被引量：3

同被引文献28

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于字段嵌入的数据库自然语言查询接口被引量：3