期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
面向电力业务对话系统的意图识别数据集 被引量:15
1
作者 廖胜兰 殷实 +3 位作者 陈小平 张波 欧阳昱 张衡 《计算机应用》 CSCD 北大核心 2020年第9期2549-2554,共6页
针对供电营业厅客服机器人的智能对话系统,构建了一个较大规模的电力业务用户意图数据集。该数据集包括了9577条用户问询语句及其标注类别。首先对从供电营业厅采集到的真实语音数据进行清洗、处理和过滤。为了使数据能够驱动意图分类... 针对供电营业厅客服机器人的智能对话系统,构建了一个较大规模的电力业务用户意图数据集。该数据集包括了9577条用户问询语句及其标注类别。首先对从供电营业厅采集到的真实语音数据进行清洗、处理和过滤。为了使数据能够驱动意图分类相关的深度学习模型的研究,专业人员根据电力业务背景知识对数据进行高质量的标注和扩充。标注中根据电力业务定义了35种业务类别标签。为了测试该数据集的实用性和有效性,采用了多个意图分类经典模型进行实验,并将得到的意图分类模型嵌入到对话系统中。经典的文本分类模型循环卷积神经网络(Text-RCNN)在该数据集上可得到87.1%的准确率。实验结果表明该数据集可以有效驱动电力业务相关对话系统的研究,提升用户的满意度。 展开更多
关键词 意图识别 文本分类 中文数据集 对话系统 服务机器人 电力业务
下载PDF
多目标情感分类中文数据集构建及分析研究 被引量:3
2
作者 刘鹏远 田永胜 +1 位作者 杜成玉 邱立坤 《中文信息学报》 CSCD 北大核心 2021年第6期30-38,共9页
目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中... 目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间。针对以上问题,该文构建了一个针对多目标情感分类的中文数据集,人工标注了6339个评价目标,共2071条数据。该数据集具备以下特点:①评价目标个数分布平衡;②情感正负极性分布平衡;③多目标情感倾向分布平衡。随后,该文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析。结果表明,现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类,尤其是目标的情感倾向为中性时。因此多目标情感分类任务具有一定的难度与挑战性。 展开更多
关键词 目标级情感分类 中文数据集 多目标
下载PDF
NKCorpus:利用海量网络数据构建大型高质量中文数据集 被引量:2
3
作者 李东闻 钟震宇 +3 位作者 申峻宇 王昊天 孙羽菲 张玉志 《数据与计算发展前沿》 CSCD 2022年第3期30-45,共16页
【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行... 【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。 展开更多
关键词 自然语言处理 中文数据集 数据集构建
下载PDF
基于深度学习的在线字临摹分析系统设计 被引量:2
4
作者 张承强 张永爱 顾兴权 《信息技术与网络安全》 2020年第2期40-44,56,共6页
为方便和快速地进行字体临摹分析,该系统将纸面手写字与名人真迹字进行相似度比较,使用残差网络ResNet50模型和新的字相似度算法对手写字进行高精度识别并与名人真迹字快速地进行相似度计算。将自制的名人书法字数据集和普通中文数据集... 为方便和快速地进行字体临摹分析,该系统将纸面手写字与名人真迹字进行相似度比较,使用残差网络ResNet50模型和新的字相似度算法对手写字进行高精度识别并与名人真迹字快速地进行相似度计算。将自制的名人书法字数据集和普通中文数据集合在一起训练ResNet50模型,最后结合Web网站和Android开发了一个实时在线手写字与各名人书法字进行相似度比较的系统。Android端主要用来上传纸面手写字照片和展示处理的结果,搭建的Web网站用来对图片进行识别和相似度的计算与分析。 展开更多
关键词 ResNet50模型 字相似度算法 中文数据集 在线比较系统
下载PDF
基于中文自然语言的SQL生成综述 被引量:1
5
作者 郑耀东 李旭峰 +1 位作者 陈和平 贺桂娇 《计算机系统应用》 2023年第12期32-42,共11页
自然语言转为SQL(NL2SQL)的研究有较高的应用价值,随着深度学习技术的成熟,越来越多的研究者开始将深度学习技术应用于NL2SQL任务中.本文梳理了英文和中文领域NL2SQL的研究现状,总结按年份发布的数据集和模型,对比当前4大中文NL2SQL数... 自然语言转为SQL(NL2SQL)的研究有较高的应用价值,随着深度学习技术的成熟,越来越多的研究者开始将深度学习技术应用于NL2SQL任务中.本文梳理了英文和中文领域NL2SQL的研究现状,总结按年份发布的数据集和模型,对比当前4大中文NL2SQL数据集的特点,阐述了当前基于深度学习的NL2SQL任务的基本框架以及针对中文领域的单表简单问题和跨表复杂问题所适用的典型模型,介绍了一般常用的模型评测方法,并提出未来研究方向的展望. 展开更多
关键词 NL2SQL 深度学习 中文数据集 自然语言处理
下载PDF
基于多角度信息交互的文本语义匹配模型 被引量:2
6
作者 翁兆琦 张琳 《计算机工程》 CAS CSCD 北大核心 2021年第10期97-102,共6页
现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个... 现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个文本深层次的语义交互矩阵,同时考虑语序信息之间和结构信息之间的交互以及文本内部的依赖关系,从而得到含有丰富信息的语义向量,并通过语义推理计算出两文本之间的语义匹配度。实验结果表明,相比在英文数据集上表现良好的DSSM、ESIM和DIIN模型,MAII模型在CCKS 2018问句匹配大赛的中文数据集上达到77.77%的准确率,表现出更好的匹配性能。 展开更多
关键词 信息交互 语义匹配 注意力机制 深度神经网络 中文数据集
下载PDF
基于中国人数据集的参数化人体建模 被引量:1
7
作者 徐增波 赵娟 《丝绸》 CAS CSCD 北大核心 2022年第12期89-96,共8页
为解决基于中国人数据集的参数化人体模型重建问题,本文首先采集了152名中国成年女性净体样本,并对其进行头发部位去除、泊松重建、降采样和脚底平面切削。然后采用“粗—精”两步配准策略,先基于BPS对点云进行高效学习,将SMPL模型网格... 为解决基于中国人数据集的参数化人体模型重建问题,本文首先采集了152名中国成年女性净体样本,并对其进行头发部位去除、泊松重建、降采样和脚底平面切削。然后采用“粗—精”两步配准策略,先基于BPS对点云进行高效学习,将SMPL模型网格点快速初始配置至扫描网格点附近;再采用基于ICP的非刚性网格配准算法进行精配准,只优化顶点位移D分量,生成精准匹配的SMPLD模型。配准完成后,比较其和LoopReg配准的配准精度和效率。之后,对配准数据进行位姿校正和主成分分析,从而获得能够反映中国人体特征的形体参数。最后进行模型重建,并将其与SMPL平均模板进行比较。由平均模型拟合结果可知,相比SMPL模型,基于重建模型的拟合结果关节误差和顶点误差均有所降低,3个实验对象的关节平均误差分别降低了26.2%、19.4%、21.7%;顶点平均误差分别降低了20.0%、16.1%、12.5%。 展开更多
关键词 中国人数据集 参数化人体模型 “粗—精”两步配准 LoopReg配准 位姿校正 主成分分析
下载PDF
中国区域地面气象要素数据集在长江上游流域的适用性评估 被引量:12
8
作者 王留杰 张行南 +1 位作者 方园皓 夏达忠 《水力发电》 北大核心 2017年第3期18-22,共5页
从中国区域地面要素数据集中选取1980年~2010年中国区域的降水和气温两个要素,与实测降水、气温资料进行对比分析,采用确定性系数、纳什系数、平均误差和均方根误差4个指标分别从时间变化特征和空间分布特征两个方面对地面要素集的降水... 从中国区域地面要素数据集中选取1980年~2010年中国区域的降水和气温两个要素,与实测降水、气温资料进行对比分析,采用确定性系数、纳什系数、平均误差和均方根误差4个指标分别从时间变化特征和空间分布特征两个方面对地面要素集的降水资料和气温资料在长江上游流域内数据质量进行系统性评估。结果表明,气象网格数据与实测数据总体误差较小,纳什系数接近于1,拟合度高,具有很好的一致性;气温数据具有很好的一致性,而降水数据在不同子流域数据质量不同。 展开更多
关键词 数据质量评估 中国区域地面气象要素数据集 中国地面气候资料日值数据集
下载PDF
融合交叉注意力的突发事件多模态中文反讽识别模型
9
作者 胡文彬 陈龙 +2 位作者 黄贤波 陈晨 仲兆满 《智能系统学报》 CSCD 北大核心 2024年第2期392-400,共9页
网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力... 网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力机制捕捉模态间的不一致性表达,提出融合交叉注意力的多模态中文反讽识别模型(fuse cross attention model,FCAM)。在模型中,首先运用TextCNN(text convolutional neural networks)和ResNet(deep residual network)分别提取中文文本浅层特征和图像特征,再运用交叉注意力机制分别得到文本层和图像层的注意力特征,按照残差方式分别实现文本浅层特征和文本层注意力特征的连接、图像特征和图像层注意力特征的连接,使用注意力机制融合2个特征表示,经过分类层得到反讽分类结果。基于某一地区新冠疫情期间相关话题的微博评论数据,构建出突发公共卫生事件多模态中文反讽数据集,在该数据集上试验验证,相较于基准模型,FCAM具有一定的优越性。 展开更多
关键词 突发事件 社交媒体 多模态评论 中文反讽识别 中文反讽数据集 交叉注意力机制 注意力机制 情感分析
下载PDF
谣言判别器的设计与实现
10
作者 杨佳瑶 杨越 +3 位作者 薛雨蒙 王鑫淼 杨香云 乔秀明 《智能计算机与应用》 2024年第4期76-82,共7页
在互联网时代,信息传播的速度和范围都得到了极大的提升,使得各种信息能够在极短的时间内迅速扩散至广泛的受众,然而这也带来了一些挑战,谣言的传播是其中之一,自动谣言判别可以大大降低谣言传播率。本文构建了中文谣言数据集,设计实现... 在互联网时代,信息传播的速度和范围都得到了极大的提升,使得各种信息能够在极短的时间内迅速扩散至广泛的受众,然而这也带来了一些挑战,谣言的传播是其中之一,自动谣言判别可以大大降低谣言传播率。本文构建了中文谣言数据集,设计实现了谣言自动检测的小程序:用户输入一段言论,小程序的前端页面将数据传送至后端,基于卷积神经网络的模型进行自然语言处理,模型采用深度学习算法对该言论进行语义建模和分类,最终得出这段话是谣言的概率并返回给用户。 展开更多
关键词 中文谣言数据集 卷积神经网络 谣言判别
下载PDF
LIDC-IDRI肺结节数据集解析及对构建中医共享数据集的意义
11
作者 李旖旎 刘子晴 +1 位作者 成福春 姚政 《中国医疗器械信息》 2024年第5期36-38,48,共4页
通过搭建环境运行lidc_nodule_detection_master项目,对LIDC-IDRI数据集进行解析,并利用卷积神经网络、长短时记忆网络等对已标注的肺结节计算机体层成像医学影像进行训练,并用相关的测试数据集进行验证。该项目,对于中医共享数据集的构... 通过搭建环境运行lidc_nodule_detection_master项目,对LIDC-IDRI数据集进行解析,并利用卷积神经网络、长短时记忆网络等对已标注的肺结节计算机体层成像医学影像进行训练,并用相关的测试数据集进行验证。该项目,对于中医共享数据集的构建,如类似DICOM文件的生成(舌像图、脉象图等),相关属性及特征的标注,XML文件的构建,相关算法的开发等,具有重要的参考借鉴意义。 展开更多
关键词 LIDC-IDRI 肺结节 DICOM 中医共享数据集 循环神经网络 卷积神经网络
下载PDF
基于Inception结构的手写汉字档案文本识别方法 被引量:2
12
作者 刘明忠 贾永红 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2022年第4期632-638,共7页
针对手写汉字文本识别准确率不高的问题,提出了一种结合卷积神经网络和循环神经网络进行手写汉字文本识别的端到端方法。首先,通过Inception模块构建的卷积神经网络提取文本图像的基本特征;然后,使用循环神经网络对提取的特征进行预测,... 针对手写汉字文本识别准确率不高的问题,提出了一种结合卷积神经网络和循环神经网络进行手写汉字文本识别的端到端方法。首先,通过Inception模块构建的卷积神经网络提取文本图像的基本特征;然后,使用循环神经网络对提取的特征进行预测,并输出一个关于汉字字符集的概率分布;最后,采用连接主义序列分类算法计算识别结果并构建损失函数。利用所提方法在手写汉字文本数据集上进行实验,结果表明,Inception模块和数据增强方法可以有效提升算法的性能,并取得了71.2%的识别准确率和0.060的文本编辑距离,较现有方法性能有所提升,证明了所提方法的有效性。 展开更多
关键词 手写汉字文本识别 Inception结构 卷积神经网络 循环神经网络 连接主义序列分类 手写汉字文本数据集
原文传递
基于文本行匹配的跨图文本阅读方法
13
作者 戴禹 许林峰 《计算机科学》 CSCD 北大核心 2022年第9期139-145,共7页
通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取... 通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset, CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。 展开更多
关键词 跨图文本阅读 跨图中文文本阅读数据集 文本行匹配 基于编辑的文本阅读 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部