期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
自然语言生成多表SQL查询语句技术研究 被引量:17
1
作者 曹金超 黄滔 +2 位作者 陈刚 吴晓凡 陈珂 《计算机科学与探索》 CSCD 北大核心 2020年第7期1133-1141,共9页
自然语言生成SQL查询不仅是构建智能数据库查询系统的一个重要组成部分,亦是新型供电轨道交通系统混合时态大数据个性化运维的难点之一。目前利用深度学习模型的方法专注于数据库中单表SQL查询生成,无法解决数据库中多表SQL查询生成。... 自然语言生成SQL查询不仅是构建智能数据库查询系统的一个重要组成部分,亦是新型供电轨道交通系统混合时态大数据个性化运维的难点之一。目前利用深度学习模型的方法专注于数据库中单表SQL查询生成,无法解决数据库中多表SQL查询生成。针对这个问题,采用一种基于SQL语句模板填充的方法,将序列生成问题转化为多个分类问题,在训练深度学习模型的过程中充分利用SQL子句不同预测成分之间的依赖关系。在FROM子句的多表JOIN路径生成方面,将其建模为斯坦纳树问题,采用一种全局最优的算法来进行求解。在一个开放的文本生成SQL数据集Spider上对模型和算法进行实验验证,实验结果表明该方法能有效地提升多表SQL查询生成的查询匹配准确率。 展开更多
关键词 自然语言 SQL查询生成 多表 模板填充 深度学习
下载PDF
基于多维数据集的异常子群发现技术 被引量:11
2
作者 张静恬 伍赛 +2 位作者 陈刚 寿黎但 陈珂 《计算机学报》 EI CSCD 北大核心 2019年第8期1671-1685,共15页
非频繁项集是未被标准化的频繁项集产生算法(如APRIORI以及FP-Growth算法)提取的所有项集.在数据集上挖掘有意义的非频繁项集是数据挖掘的重要工作之一.目前,基于传统数据集的非频繁项集挖掘研究主要集中在负相关、负模式以及间接关联... 非频繁项集是未被标准化的频繁项集产生算法(如APRIORI以及FP-Growth算法)提取的所有项集.在数据集上挖掘有意义的非频繁项集是数据挖掘的重要工作之一.目前,基于传统数据集的非频繁项集挖掘研究主要集中在负相关、负模式以及间接关联等方面,且主要是对整个数据集上的性质进行分析,而没有对数据集的切片进行分析.该文提出了一种新的模式,试图找到符合如下条件的特定子群,其描述的数据集切片上存在某些特殊项集,这些项集在整个数据集上并非频繁项集,但是在该数据集切片上却是频繁项集.根据用户要求自动找出这些异常子群以及其对应项集的算法在数据分析中有着十分重要的意义.该文提出的解决方案由两部分组成:候选产生阶段以及查询交互阶段.前者是一个脱机处理的过程,而后者则是在线实时反馈的过程.在候选产生阶段,该文提出了一种基于多维数据集高效产生频繁项集以及显著子群并有效建立索引的算法.根据索引,在查询交互阶段,该文提出的算法框架可以快速准确地返回给定查询对应的异常子群以及对应项集.基于多个真实数据集的实验表明,该文提出的方案可以根据用户要求实时返回有意义的异常子群以及对应项集.此外,该文提出的算法在多维数据集上的挖掘效率比UTMTU算法提升了数倍. 展开更多
关键词 频繁项集挖掘 子群发现 多维数据集 数据挖掘 异常检测
下载PDF
一种基于实体时间敏感度的知识表示方法 被引量:5
3
作者 田满鑫 寿黎但 +2 位作者 陈珂 江大伟 陈刚 《软件工程》 2020年第1期1-6,共6页
在知识图谱(KnowledgeGraph)中,知识表示方法旨在通过一种低维稠密的向量表示方法来高效地挖掘不同实体、关系之间复杂语义关系,在知识问答、信息检索等领域有着重要意义。然而,现有的绝大多数的知识表示方法忽略了时间因素,无法表示应... 在知识图谱(KnowledgeGraph)中,知识表示方法旨在通过一种低维稠密的向量表示方法来高效地挖掘不同实体、关系之间复杂语义关系,在知识问答、信息检索等领域有着重要意义。然而,现有的绝大多数的知识表示方法忽略了时间因素,无法表示应用中随时间变化的动态知识。针对该问题,本文提出一种基于实体时间敏感度的知识表示方法。该方法将时间信息以不同程度融入不同类型的实体向量表示中,然后进行实体和关系之间语义挖掘。实验结果表明,这种基于实体时间敏感度的表示方法能够明显提高知识图谱的时态知识补全和预测任务性能。 展开更多
关键词 知识图谱 表示学习 时态知识 复杂关系 知识补全
下载PDF
卓越IT工程师系列教材 源自实践 服务教学 被引量:4
4
作者 程钟慧 陈珂 +2 位作者 陈刚 徐世泽 傅丁莉 《软件工程》 2020年第1期7-11,共5页
东软集团董事长刘积仁教授推荐这是一套来自实践者的作品。对中国IT教育和软件产业实践应用更紧密结合愿景的期待,驱动了东软的员工组织起来完成了这套作品。他们力图将自己在教育和研发中的收获传播给自己的同事、IT教育和软件产业的同... 东软集团董事长刘积仁教授推荐这是一套来自实践者的作品。对中国IT教育和软件产业实践应用更紧密结合愿景的期待,驱动了东软的员工组织起来完成了这套作品。他们力图将自己在教育和研发中的收获传播给自己的同事、IT教育和软件产业的同行,并与在蓬勃发展中的中国软件产业分享;他们企盼着中国未来的软件工程师们在一个更贴近实用化的环境中学习和掌握技术的价值。东软为他们的行动而感动和自豪。 展开更多
关键词 强化学习 协同训练 命名实体识别
下载PDF
基于字段嵌入的数据库自然语言查询接口 被引量:3
5
作者 田野 寿黎但 +2 位作者 陈珂 骆歆远 陈刚 《计算机科学》 CSCD 北大核心 2020年第9期60-66,共7页
将自然语言转化成数据库可以执行的查询语句,是目前智能交互和人机对话系统的核心难题,也是新型供电列车大数据运用支撑平台对接应用平台及建立城轨列车个性化运维系统的难点。现有的基于神经网络的方法没有充分利用数据表的丰富信息,... 将自然语言转化成数据库可以执行的查询语句,是目前智能交互和人机对话系统的核心难题,也是新型供电列车大数据运用支撑平台对接应用平台及建立城轨列车个性化运维系统的难点。现有的基于神经网络的方法没有充分利用数据表的丰富信息,影响了查询的准确率。针对数据表内容作为输入的情况下,如何提升自然语言查询接口的查询准确率的问题,文中创新地提出了基于数据表内容的字段嵌入方法,利用数据表中每个字段存储的内容对字段进行嵌入表示,并据此提出了新的模型嵌入层结构;此外,提出了一种基于数据表内容的数据增强方法,通过用数据表相同字段中的其他记录去代替查询语句中的属性值,来产生新的训练样本。最后,针对提出的字段嵌入表示和数据增强方法,在WikiSQL数据集上进行了对比实验。实验结果显示,相比当前效果最好的模型,单独使用这两种方法时能够提升0.6%~0.8%的查询准确率,共同使用时则能够提升接近1%的查询准确率,证明所提字段嵌入和数据增强方法对查询准确率有一定的提升作用。 展开更多
关键词 数据库查询 自然语言处理 SQL 词嵌入
下载PDF
面向室内空间的语义轨迹提取框架 被引量:1
6
作者 骆歆远 陈欣 +2 位作者 寿黎但 陈珂 吴妍静 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第3期186-193,共8页
利用海量位置数据分析用户行为,挖掘用户的潜在价值越来越受到人们的关注。室外环境中已有较成熟的解决方案。针对室内空间中WiFi定位数据的精确度、鲁棒性不足等问题,对面向室内空间的语义轨迹提取方法进行了研究,能在减少错误、压缩... 利用海量位置数据分析用户行为,挖掘用户的潜在价值越来越受到人们的关注。室外环境中已有较成熟的解决方案。针对室内空间中WiFi定位数据的精确度、鲁棒性不足等问题,对面向室内空间的语义轨迹提取方法进行了研究,能在减少错误、压缩原始位置数据的同时,增强轨迹的表达能力,使得更深入的室内时空数据挖掘成为可能。该文基于室内空间建模、数据清洗、事件提取和语义增强4个模块的框架提出了室内语义轨迹计算的方法,在真实数据集和模拟数据集上进行实验,结果表明:该方法能从存在误差和缺失的室内定位数据中,准确有效地挖掘和提取出含有语义信息的轨迹数据,为上层的应用分析所用。 展开更多
关键词 室内定位 室内空间模型 语义轨迹 密度聚类
原文传递
基于循环神经网络的数据库查询开销预测 被引量:18
7
作者 毕里缘 伍赛 +3 位作者 陈刚 寿黎但 陈珂 胡天磊 《软件学报》 EI CSCD 北大核心 2018年第3期799-810,共12页
在数据库负载管理、性能调优过程中,开销预测模型是提高其效率的关键技术.首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销;其次,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中... 在数据库负载管理、性能调优过程中,开销预测模型是提高其效率的关键技术.首先,由于数据库系统的复杂性和计算机资源的竞争,很难精确地估计不同操作的开销;其次,现有的研究大多没有真正预测查询的执行时间,而是预测了类似查询优化器中开销模型生成的开销;由于查询计划结构的复杂性,现有研究更多地使用了笼统的查询信息,而很少利用查询计划中操作层面的信息,并依据这些信息来获得开销模型.为了减少负载管理的复杂性,提出了基于循环神经网络的精细模型来预测查询开销,以查询计划中的操作行为及其实际运行时间作为特征提取的来源.特别地,考虑到查询计划结构的复杂性,采用一种特殊的循环神经网络——长短期记忆(long-short term memory,简称LSTM).给一个特定的查询计划,在该计划实际执行之前,模型就能产生其预测的执行时间区间.这会比现有数据库的查询优化器产生的开销预估结果(任意单位)更具有参考性,也优于需要在执行开始之后才能预测的查询进度指示器.所提方法预测查询执行时间,可以解决数据库负载管理中的关键问题.通过实验验证,模型的正确率高于71%,在一定程度上证明了方法的可行性. 展开更多
关键词 数据库负载管理 查询开销预测 查询计划 循环神经网络 长短期记忆
下载PDF
基于关键词和关键句抽取的用户评论情感分析 被引量:10
8
作者 喻影 陈珂 +2 位作者 寿黎但 陈刚 吴晓凡 《计算机科学》 CSCD 北大核心 2019年第10期19-26,共8页
情感分析的一项主要研究任务是根据文档内容对其情感极性(即正类和负类)进行判断。在判断文档的情感极性时,不同的词语和句子具有不同的情感贡献度,因此如何从整个文档中准确地提取与情感分类更相关的词语和句子,从而提升分类性能,成为... 情感分析的一项主要研究任务是根据文档内容对其情感极性(即正类和负类)进行判断。在判断文档的情感极性时,不同的词语和句子具有不同的情感贡献度,因此如何从整个文档中准确地提取与情感分类更相关的词语和句子,从而提升分类性能,成为了一个重要问题。在有监督实验中,基于依存句法关系分析句子的逻辑结构,提取出了与表达情感更相关的词语进行加权,提高了分类性能。在半监督实验中,使用基于中文评论的关键句抽取和分类器融合算法,对整篇文档中包含更多情感词和总结意味的关键句进行了抽取,充分考虑了句子的情感词属性、位置属性、标点符号属性和关键词属性,并且使用分类器融合算法,让置信度最高的子分类器决定分类效果。在大众点评网和头条新闻的数据集上将所提算法与已有的经典算法进行对比,发现所提方法的性能更高,从而证明了基于依存句法分析的关键词抽取和基于特征的中文关键句抽取算法的有效性。 展开更多
关键词 情感分析 依存分析 关键句抽取 半监督学习 协同训练
下载PDF
面向局域检索的时变图数据存储与查询模型 被引量:8
9
作者 赵萍 寿黎但 +2 位作者 陈珂 陈刚 吴晓凡 《计算机科学》 CSCD 北大核心 2019年第10期186-194,共9页
时变图数据是实体间相互关联、实体属性和实体间关系会发生频繁变化的图结构数据,适用于电子商务的商品与用户关系表示、包含时间维度的知识图谱构建、企业组织架构管理等场景。针对建立时变图数据通用存储检索方案的挑战,文中提出了一... 时变图数据是实体间相互关联、实体属性和实体间关系会发生频繁变化的图结构数据,适用于电子商务的商品与用户关系表示、包含时间维度的知识图谱构建、企业组织架构管理等场景。针对建立时变图数据通用存储检索方案的挑战,文中提出了一种面向局域检索的模型方案,基于图数据库高效的关系检索能力以及分布式键值数据库在存储与查询方面的优势,实现了通用的可提供丰富表达能力的图数据历史存储检索系统。实验证明,所提方案在历史属性存储上具备显著的优势。 展开更多
关键词 图数据库 时变数据 版本控制 数据查询
下载PDF
关于主动学习下的知识图谱补全研究 被引量:7
10
作者 陈钦况 陈珂 +2 位作者 伍赛 寿黎但 陈刚 《计算机科学与探索》 CSCD 北大核心 2020年第5期769-782,共14页
知识图谱补全任务研究如何补全知识图谱中的缺失关系。知识图谱补全任务有许多广泛的应用,例如可以应用到轨道交通运维知识库中以支撑轨道交通的系统设计、运维优化。现有的算法在用于现实的大规模知识图谱时时间开销巨大,并且无法很好... 知识图谱补全任务研究如何补全知识图谱中的缺失关系。知识图谱补全任务有许多广泛的应用,例如可以应用到轨道交通运维知识库中以支撑轨道交通的系统设计、运维优化。现有的算法在用于现实的大规模知识图谱时时间开销巨大,并且无法很好地利用知识图谱外部的数据信息。针对以上两点局限性,提出了一种基于主动学习的知识图谱补全框架。该框架结合主动学习的思想,利用链接预测预先筛选缺失知识图谱中最有可能产生链接的前k对实体对,然后充分考虑知识图谱内部信息和外部信息,采用内外部数据相结合的方式实现知识图谱的缺失补全。基于Freebase和DBpedia数据集,针对已有的工作进行了对比实验,实验结果表明提出的增强链接预测算法(ELP)效果更好,并且具有主动学习能力;提出的内部数据和外部数据相结合的关系验证方法能更有效地验证三元组。 展开更多
关键词 主动学习 知识图谱补全 链接预测 关系验证
下载PDF
基于树状模型的复杂自然语言查询转SQL技术研究 被引量:3
11
作者 赵猛 陈珂 +2 位作者 寿黎但 伍赛 陈刚 《软件学报》 EI CSCD 北大核心 2022年第12期4727-4745,共19页
自然语言查询转SQL(NL2SQL)是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面,从而实现基于数据库的自然问答.复杂查询的NL2SQ... 自然语言查询转SQL(NL2SQL)是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面,从而实现基于数据库的自然问答.复杂查询的NL2SQL是当前数据库学术界的研究热点,主流方法采用序列到序列(Seq2seq)的编解码方式对问题进行建模.然而,已有的工作大多基于英文场景,面向中文领域实际应用时,中文特殊的口语化表达导致复杂查询转化困难;此外,现有工作难以正确输出包含复杂计算表达式的查询子句.针对上述问题,提出一种树状模型取代序列表示,将复杂查询自顶向下分解为多叉树,树结点代表SQL的各组成元素,采用深度优先搜索来预测生成SQL语句.在Du SQL中文NL2SQL竞赛的两个官方测试集中,该方法分别取得了第1名和第2名的成绩,验证了其有效性. 展开更多
关键词 自然语言查询转SQL 语义解析 自然语言处理
下载PDF
查询结果可用性研究综述 被引量:2
12
作者 柳晴 高云君 《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1198-1212,共15页
数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有... 数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有的数据库系统既不能向用户解释为什么会得到这样的结果,也无法给出有效的建议以帮助用户得到满意的查询结果.查询结果可用性研究正是针对当前数据库系统的这一不足而展开.在数据库可用性的视角之上,以查询结果为中心,对当前查询结果可用性工作的最新动态进行了综述.梳理了当前查询结果可用性相关研究中问题的类型及其特点,并从Causality&Responsibility问题、Why-not&Why问题、Why-few&Why-many问题这3个方面对该领域的研究工作现状进行了分类、介绍和总结.最后对该研究领域未来可能的研究方向进行了展望,为相关研究提供参考. 展开更多
关键词 数据库可用性 why-not问题 why问题 causality与responsibility why-few问题 why-many问题
下载PDF
ALERT:基于Radix Tree的工作负载自适应学习型索引 被引量:1
13
作者 陈井爽 陈珂 +2 位作者 寿黎但 江大伟 陈刚 《软件学报》 EI CSCD 北大核心 2022年第12期4688-4703,共16页
学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适... 学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适应学习型索引ALERT.ALERT使用Radix Tree来管理不定长的分段,段内采用具有最大误差界的线性插值模型进行预测.同时,ALERT使用一种高效的插入缓冲来降低数据插入更新的代价.针对点查询和范围查询提出两种自适应重组优化方法,通过对工作负载进行感知,动态地调整插入缓冲的组织结构.经实验验证,ALERT与业界流行的学习型索引相比,构建时间平均降低了81%,内存占用平均降低了75%,在保持了优秀读性能的同时,使插入延迟平均降低了50%;此外,ALERT使用自适应重组优化能有效感知查询工作负载特征,与不使用自适应重组优化相比,查询延迟平均降低了15%. 展开更多
关键词 学习型索引 自适应索引 机器学习 数据库
下载PDF
关系数据库中聚合代数约束的高效发现算法——AAC-Hunter
14
作者 张效伟 江大伟 +1 位作者 陈珂 陈刚 《计算机应用》 CSCD 北大核心 2021年第3期636-642,共7页
针对如何更好地维护关系数据库的数据完整性以及帮助审计员找出违规的报销记录的问题,提出了自动发现聚合代数约束(AAC)的算法AAC-Hunter。AAC是一种定义在数据库中两列的聚合结果之间的模糊约束,作用于大多数而非全部记录上。AAC-Hunte... 针对如何更好地维护关系数据库的数据完整性以及帮助审计员找出违规的报销记录的问题,提出了自动发现聚合代数约束(AAC)的算法AAC-Hunter。AAC是一种定义在数据库中两列的聚合结果之间的模糊约束,作用于大多数而非全部记录上。AAC-Hunter首先枚举连接、分组和代数表达式来产生候选AAC,然后分别计算这些候选AAC的值域集合,最后输出AAC结果。但该方法无法应对海量数据带来的性能挑战,因此AAC-Hunter提出了一套启发式规则减小候选约束空间规模以及基于中间结果复用和消除平凡候选AAC的两个优化策略来加速候选AAC的值域集合计算。实验结果表明了对比不使用启发式规则和优化策略的基线算法,AAC-Hunter在TPC-H和European Soccer数据集上分别减小了95.68%和99.94%的约束发现空间,分别缩短了96.58%和92.51%的运行时间。可见AAC-Hunter具备有效性,能够提升审计应用的效率和能力。 展开更多
关键词 约束发现 聚合代数约束 关系数据库 数据驱动 审计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部