期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
基于迁移学习和表面肌电信号的上肢动作识别 被引量:1
1
作者 张恒玮 徐林森 +2 位作者 陈根 汪志焕 眭翔 《计算机工程与应用》 CSCD 北大核心 2024年第20期124-132,共9页
准确识别脑卒中患者上肢运动意图是实现高效康复训练的关键步骤。为了提高基于表面肌电信号(surface electromyography,sEMG)的上肢动作识别精度,提出了一种结合预训练模型和支持向量机(support vector machine,SVM)的肌电动作识别方法... 准确识别脑卒中患者上肢运动意图是实现高效康复训练的关键步骤。为了提高基于表面肌电信号(surface electromyography,sEMG)的上肢动作识别精度,提出了一种结合预训练模型和支持向量机(support vector machine,SVM)的肌电动作识别方法。该方法充分考虑通道之间的关联性,将预处理后的时域信号通过短时傅里叶变换(short-time Fourier transform,STFT)转换为对应频谱图,并将所有通道的频谱图沿竖直方向拼接。利用两种微调的预训练模型VGG16和Resnet50对肌电图像提取特征,分别考虑三种上肢动作识别方案:仅使用微调的预训练模型进行识别、单个微调预训练模型提取特征后使用SVM进行识别、两个微调预训练模型提取特征拼接后使用SVM进行识别。实验结果表明,所提出的方法在采集的受试者肌电信号数据集上均达到90%以上的识别精度,可有效区分不同的上肢动作。 展开更多
关键词 上肢动作识别 表面肌电信号(sEMG) 短时傅里叶变换(STFT) 预训练模型 支持向量机(SVM)
下载PDF
一种基于BERT与依存句法的情感分析模型
2
作者 崔旭冉 王荣举 刘克剑 《现代计算机》 2024年第18期66-70,88,共6页
近年来基于深度学习模型的方面级情感分析方法已经成为了主流,特别是基于句法结构的图神经网络模型引起了研究者们的广泛关注。但大多数现有的模型对句法树的利用不够充分,无法准确地理解文本的语义。针对以上问题,提出了一种基于BERT... 近年来基于深度学习模型的方面级情感分析方法已经成为了主流,特别是基于句法结构的图神经网络模型引起了研究者们的广泛关注。但大多数现有的模型对句法树的利用不够充分,无法准确地理解文本的语义。针对以上问题,提出了一种基于BERT与依存句法的情感分析模型。经过实验得出,对比于传统的机器学习方法及普通的深度学习方法,本文模型在准确率、召回率和F1值指标上均有明显提高。 展开更多
关键词 预训练模型 依存句法分析 图注意力网络 情感分类
下载PDF
基于大规模结构化病例数据的新型冠状病毒传播特征和感染人群分析 被引量:2
3
作者 黄振华 王振宇 +4 位作者 江莉 张睿 雷昶 刘星炜 谢晓辉 《中国科学:信息科学》 CSCD 北大核心 2020年第12期1882-1902,共21页
2020年年初,新型冠状病毒感染的肺炎(COVID-19)爆发,中国采取了全面严格的防控举措全力抗击疫情.地方疫情指挥部门及时通报疫情感染数据,有助公众了解疫情的发展,及时做好防护措施.各地患者病例详情数据主要以文本形式记录,信息描述复杂... 2020年年初,新型冠状病毒感染的肺炎(COVID-19)爆发,中国采取了全面严格的防控举措全力抗击疫情.地方疫情指挥部门及时通报疫情感染数据,有助公众了解疫情的发展,及时做好防护措施.各地患者病例详情数据主要以文本形式记录,信息描述复杂,且各省市汇报的格式各异,处理难度较大.我们面向全国湖北省外近二分之一匿名的患者病例详情数据,提出了应用自然语言处理技术,辅助病例数据结构化的方法.该方法可以在标记样本较少的情况下,借助预训练模型,准确有效地提取出病例文本中的关键信息.通过对较大规模患者结构化病例数据的挖掘,本文详细分析了新型冠状肺炎总体发病性别和年龄分布特点、主要感染原因、潜伏期特点及疫情趋势等特征.由于潜伏期等时间延迟的存在,确诊人数往往不能反映一个地区的真实感染情况,结合出行大数据,本文提出了一个合理推断武汉市等城市实际感染人数的方法.该方法有助于人们提前估计地区疫情发展情况,及早采取防护措施.也可以辅助地方相关部门科学决策,尽早调度医务人员和分配医疗资源. 展开更多
关键词 ―新型冠状病毒 结构化病例 自然语言处理 预训练模型 COVID-19传播特征 出行大数据
原文传递
融合多种参数高效微调技术的深度伪造检测方法
4
作者 张溢文 蔡满春 +2 位作者 陈咏豪 朱懿 姚利峰 《计算机科学与探索》 CSCD 北大核心 2024年第12期3335-3347,共13页
近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒... 近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒性差、跨数据集泛化性差以及模型训练开销大等问题。为解决上述问题,提出一种融合多种参数高效微调技术的深度伪造检测方法,使用以掩码图像建模(MIM)自监督方法预训练的视觉自注意力模型作为主干,使用克罗内克积改进的低秩自适应方法对预训练模型的自注意力模块参数进行微调,同时采用并行结构加入卷积适配器对图像局部纹理信息进行学习,以增强预训练模型在深度伪造检测任务中的适应能力,采用并行结构引入经典适配器对预训练模型的前馈网络微调以充分利用预训练阶段学习到的知识,使用多层感知机代替原预训练模型分类头实现深度伪造检测。在六个数据集上的实验结果表明,该模型在可训练参数仅有2×10^(7)的情况下,在六个主流数据集上实现了平均约0.996的帧水平AUC。在跨压缩率实验中,帧水平AUC的平均下降为0.135。在跨数据集泛化性实验中,帧水平AUC达到了平均0.765。 展开更多
关键词 深度伪造 视觉自注意力模型 自监督预训练模型 低秩自适应 参数高效微调
下载PDF
大规模预训练模型在太空态势感知领域的应用思考
5
作者 尹港港 张峰 郭继光 《空天预警研究学报》 CSCD 2023年第5期355-363,共9页
随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境... 随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境带来的挑战,首先分析了SSA领域存在的瓶颈问题;然后针对SSA领域中的应用需求,提出了一系列潜在优势和应用方向;最后探讨了大规模预训练模型在SSA领域应用过程中所面临的关键挑战及可能的解决方案. 展开更多
关键词 太空态势感知 大规模预训练模型 自然语言处理 图像处理
下载PDF
基于迁移学习和改进ResNet50网络的织物疵点检测算法 被引量:15
6
作者 罗维平 徐洋 +3 位作者 陈永恒 周博 马双宝 吴雨川 《毛纺科技》 CAS 北大核心 2021年第2期71-78,共8页
针对目前工业现场织物疵点检测准确率低、速度慢和疵点识别种类少的问题,提出一种改进ResNet50网络的织物疵点检测算法。首先对数据集进行预处理,对数据样本切割增强生成模型训练集,包括无疵点和8类常见疵点类别;然后改进ResNet50网络结... 针对目前工业现场织物疵点检测准确率低、速度慢和疵点识别种类少的问题,提出一种改进ResNet50网络的织物疵点检测算法。首先对数据集进行预处理,对数据样本切割增强生成模型训练集,包括无疵点和8类常见疵点类别;然后改进ResNet50网络结构,提取在大型数据集ImageNet上预训练好的权重参数迁移学习;最后反复调整超参数训练得到的疵点检测识别模型。通过多组对比实验结果表明,改进模型对正常织物和8类常见疵点识别准确率达到96.32%,比标准模型精度提升4.2%,速度提升1倍。在不同织物疵点数据集中测试,综合性能最好,泛化能力强,鲁棒性好,可以满足工业生产现场织物疵点检测需求。 展开更多
关键词 疵点检测 迁移学习 特征提取 ResNet50 预训练模型
下载PDF
提示学习驱动的新闻舆情风险识别方法研究 被引量:5
7
作者 曾慧玲 李琳 +1 位作者 吕思洋 何铮 《计算机工程与应用》 CSCD 北大核心 2024年第1期182-188,共7页
从新闻报道中识别企业的风险可以快速定位企业所涉及的风险类别,从而帮助企业及时地做出应对措施。一般而言,新闻舆情风险识别是一种风险标签的多分类任务。以BERT为代表的深度学习方法采用预训练+微调的模式在文本分类任务当中表现突... 从新闻报道中识别企业的风险可以快速定位企业所涉及的风险类别,从而帮助企业及时地做出应对措施。一般而言,新闻舆情风险识别是一种风险标签的多分类任务。以BERT为代表的深度学习方法采用预训练+微调的模式在文本分类任务当中表现突出。然而新闻舆情领域标记数据偏少,构成了小样本的机器学习问题。以提示学习为代表的新范式为小样本分类性能的提升提供了一种新的途径和手段,现有的研究表明该范式在很多任务上优于预训练+微调的方式。受现有研究工作的启发,提出了基于提示学习的新闻舆情风险识别方法,在BERT预训练模型基础之上根据提示学习的思想设计新闻舆情风险提示模板,通过MLM(masked language model)模型训练之后,将预测出来的标签通过答案工程映射到已有的风险标签。实验结果表明在新闻舆情数据集的不同数量小样本上,提示学习的训练方法均优于微调的训练方法。 展开更多
关键词 风险标签 多分类 预训练模型 提示学习
下载PDF
基于有监督对比学习的遥感图像场景分类 被引量:9
8
作者 郭东恩 夏英 +1 位作者 罗小波 丰江帆 《光子学报》 EI CAS CSCD 北大核心 2021年第7期79-90,共12页
针对遥感场景图像中复杂背景以及类内多样性和类间相似性影响场景分类性能的问题,提出一种基于有监督对比学习的遥感场景分类方法。该方法包含判别性特征学习和线性分类两个阶段。在判别性特征学习阶段,引入有监督对比损失以拉近同类场... 针对遥感场景图像中复杂背景以及类内多样性和类间相似性影响场景分类性能的问题,提出一种基于有监督对比学习的遥感场景分类方法。该方法包含判别性特征学习和线性分类两个阶段。在判别性特征学习阶段,引入有监督对比损失以拉近同类场景间的距离并增大不同类场景间的距离,提高类内多样性和类间相似性场景的判别能力;然后引入门控自注意模块对无用的背景信息进行过滤且聚焦关键场景区域,提高复杂背景的场景识别;最后引入一个预训练的Inception V3语义分支,把语义分支和原始模型提取的特征进行融合增强特征判别能力,以提高场景分类的整体性能。线性分类阶段通过对特征学习阶段训练的模型进行微调获得分类结果。在AID和NWPU-RESISC45数据集上的综合实验证明了所提方法的有效性。 展开更多
关键词 有监督对比学习 特征融合 遥感场景分类 门控机制 自注意机制 遥感图像 预训练模型
下载PDF
基于注意力机制特征融合的中文命名实体识别 被引量:7
9
作者 廖列法 谢树松 《计算机工程》 CAS CSCD 北大核心 2023年第4期256-262,共7页
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局... 命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等方法,具有较优的识别效果。 展开更多
关键词 注意力机制 Transformer编码器 特征融合 中文命名实体识别 预训练模型
下载PDF
基于RBAC模型的中文医疗命名实体识别 被引量:1
10
作者 张斌 赵婷婷 +2 位作者 张碧霞 陈亚瑞 王嫄 《天津科技大学学报》 CAS 2024年第5期56-62,共7页
中文医疗命名实体识别旨在从非结构化数据中抽取结构化实体,目前的主流研究都使用了大量的训练数据。针对中文医疗命名实体识别训练数据匮乏的问题,提出了基于联合分词的RBAC(RoBERTa-BiGRU-Attention-CRF)模型和基于语义搜索的命名实... 中文医疗命名实体识别旨在从非结构化数据中抽取结构化实体,目前的主流研究都使用了大量的训练数据。针对中文医疗命名实体识别训练数据匮乏的问题,提出了基于联合分词的RBAC(RoBERTa-BiGRU-Attention-CRF)模型和基于语义搜索的命名实体识别数据增强方法。首先利用预训练模型和双向门控循环单元(BiGRU)提取文本的深度双向语义表示,再将该语义表示分别送入分词模块和命名实体识别模块。分词模块利用条件随机场(CRF)得到分词信息。命名实体识别模块利用BiGRU与多头注意力得到混合语义表示,再送入CRF得到命名实体识别的标签序列。在CCKS2019中文电子病历数据集上的实验结果表明,该方法在数据量较少的情况下F_(1)达到90.5%,证明了该方法的有效性。 展开更多
关键词 多任务学习 预训练模型 双向门控循环单元 多头注意力 条件随机场 数据增强
下载PDF
基于ELMo-BiLSTM-CRF模型的中文地址分词 被引量:5
11
作者 余俊 于文年 彭艳兵 《电子设计工程》 2021年第20期72-76,共5页
为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升... 为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升整体分词效率。该模型考虑到ELMo模型生成的词向量与上下文有关,BiLSTM能够有效解决输入序列的特征提取,且CRF可以通过状态转移矩阵进行训练优化。采用自建的训练样本集对模型进行训练时,分别运用了ELMo-BiLSTM-CRF、BiLSTM-CRF以及BiLSTM,并进行对比。结果表明,ELMo-BiLSTM-CRF模型的分词效果更佳,具有更高的准确率。 展开更多
关键词 中文地址 中文地址分词 ELMo-BiLSTM-CRF模型 预训练模型
下载PDF
基于人工智能技术的画作鉴赏
12
作者 张以琳 《信息与电脑》 2024年第3期67-69,共3页
随着互联网和数字化技术的发展,人们可以轻松地获得各种类型的图片和画作,但是很多人对于艺术作品的鉴赏水平较低,无法从中领略到作者所想要表达的艺术意境。因此,设计一款能够自动对画作进行鉴赏并为用户提供艺术鉴赏指导的画作鉴赏模... 随着互联网和数字化技术的发展,人们可以轻松地获得各种类型的图片和画作,但是很多人对于艺术作品的鉴赏水平较低,无法从中领略到作者所想要表达的艺术意境。因此,设计一款能够自动对画作进行鉴赏并为用户提供艺术鉴赏指导的画作鉴赏模型显得非常有意义。文章首先介绍了卷积神经网络和图像预处理技术,然后使用EfficientNet模型架构进行模型训练与评价。研究结果表明,基于人工智能技术的画作鉴赏能够实现准确的画作鉴赏,具有实用价值和应用前景。 展开更多
关键词 卷积神经网络 图像预处理 预训练模型 画作鉴赏
下载PDF
语义文本相似度计算方法研究综述
13
作者 李莹 伍胜 +2 位作者 徐聪 尹刚 张锦 《软件导刊》 2024年第11期1-11,共11页
语义文本相似度计算是自然语言处理领域一个关键任务,旨在衡量两个文本之间的语义相似程度。对以往经典和当前主流的语义文本相似度计算方法进行归纳和总结,将这些方法划分为传统的方法和基于深度学习的方法两大类。传统的方法又划分为... 语义文本相似度计算是自然语言处理领域一个关键任务,旨在衡量两个文本之间的语义相似程度。对以往经典和当前主流的语义文本相似度计算方法进行归纳和总结,将这些方法划分为传统的方法和基于深度学习的方法两大类。传统的方法又划分为基于字面匹配、基于统计和基于规则的方法。基于深度学习的方法又划分为基于词嵌入、基于句向量和基于预训练模型的方法。在进一步细分每个类别的基础上,详细介绍了各子类的典型方法,并对各种方法的基本思想、优点和局限性进行了深入分析和总结。最后,对语义文本相似度计算方法可能的发展方向进行了展望。 展开更多
关键词 文本相似度 语义相似度 自然语言处理 深度学习 预训练模型
下载PDF
增强卷积神经网络的人脸篡改检测方法 被引量:4
14
作者 张韩钰 吴志昊 +1 位作者 徐勇 陈斌 《计算机工程与应用》 CSCD 北大核心 2021年第8期220-224,共5页
由于人脸篡改具有很大的危害,关于人脸篡改的判别方法的研究十分重要。已有的基于卷积神经网络的人脸篡改判别研究取得了一定的进展,但是判别结果不尽如意。现有的篡改判别方法大多只关注于假脸的某一类特征,但越来越多样化的人脸篡改... 由于人脸篡改具有很大的危害,关于人脸篡改的判别方法的研究十分重要。已有的基于卷积神经网络的人脸篡改判别研究取得了一定的进展,但是判别结果不尽如意。现有的篡改判别方法大多只关注于假脸的某一类特征,但越来越多样化的人脸篡改手段容易使得现有的篡改判别方法失效。针对这些问题,使用一个性能优异的预训练模型,并利用一种数据增强方式和一种标签平滑化的损失函数,在篡改过的人脸视频的检测上取得了准确度的显著提高。而且,由于采用了“抽帧”处理的方式,提出的方法具有很高的计算效率。 展开更多
关键词 人脸篡改 图像分类 预训练模型 数据增强 标签平滑
下载PDF
一种基于联合预测的简历实体识别方法
15
作者 黄康洲 周刚 范永胜 《人工智能科学与工程》 CAS 北大核心 2024年第1期70-84,共15页
目前个人简历实体类型繁多,大量平面实体和嵌套实体交错在简历中,对实体识别产生了不小的负面影响。为此,设计了一种联合预测的命名实体识别框架。首先,利用预训练模型Mengzi-BERT进行上下文的词嵌入表示。为了充分利用预训练模型提取... 目前个人简历实体类型繁多,大量平面实体和嵌套实体交错在简历中,对实体识别产生了不小的负面影响。为此,设计了一种联合预测的命名实体识别框架。首先,利用预训练模型Mengzi-BERT进行上下文的词嵌入表示。为了充分利用预训练模型提取的特征,先对网络深度进行压缩,放大卷积层感受野,并且融合了自注意力机制,然后设计了一个新的命名实体识别模型TPDCA(triple layers progressive dilated convolutional neural network-attention)。其次,为防止实体之间跨度过大、简历实体嵌套等问题,设计了全新的基于Biaffine双仿射注意力机制的局部关系实体识别模型BCN(biaffine-based local relationship capture network)。最后,通过分别调整TPDCA模型和BCN局部关系识别模型的预测权重进行联合预测,构成Mengzi-TPDCA-CRF-BCN联合预测框架,获得了综合表现最佳的实体识别结果。这样设计避免了模型丢失实体间长距离依赖关系,降低了平面实体和嵌套实体相互交错对预测的负面影响,解决了实体类型间的高耦合度影响识别任务的问题。该模型与现行主流方法相比各评价指标提升了3%,有效地解决了简历实体类型间耦合度高,实体间跨度大的实际问题。 展开更多
关键词 自然语言处理 预训练模型 命名实体识别 深度学习 简历信息 联合预测
下载PDF
基于语境与文本结构融合的中文拼写纠错方法
16
作者 刘昌春 张凯 +2 位作者 包美凯 刘烨 刘淇 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期451-463,共13页
在中文拼写纠错任务的处理中往往存在对句子的语义理解不够且对于汉字的语音和视觉信息利用较少的问题,针对这一问题,提出一种基于语境置信度和汉字相似度的纠错方法(ECS).该方法基于深度学习的理论,融合汉字的视觉相似度、汉字的语音... 在中文拼写纠错任务的处理中往往存在对句子的语义理解不够且对于汉字的语音和视觉信息利用较少的问题,针对这一问题,提出一种基于语境置信度和汉字相似度的纠错方法(ECS).该方法基于深度学习的理论,融合汉字的视觉相似度、汉字的语音相似度以及微调过的预训练BERT模型,能自动提取句子语义并利用汉字的相似性.具体地,通过对预训练的中文BERT模型进行微调,使之能适应下游的中文拼写纠错任务;同时,利用表意文字描述序列获取汉字的树形结构作为视觉信息,采用汉字的拼音序列作为语音信息;最后,利用编辑距离得出汉字的视觉和语音相似度,并将这些相似度数据与微调过的BERT模型融合,以实现纠错任务.在SIGHAN标准数据集上的测试结果显示,和基准模型相比,提出的ECS方法其F1-score提升巨大,在检错层面上提升2.1%,在纠错层面上提升2.8%,也验证了将汉字的语境信息、视觉信息与语音信息融合用于中文拼写纠错任务的适用性. 展开更多
关键词 中文拼写纠错 BERT 汉字语音相似度 汉字视觉相似度 预训练模型
下载PDF
基于预训练模型的医疗命名实体识别
17
作者 凯比努尔·赛地艾合买提 《移动信息》 2024年第3期209-212,216,共5页
文中针对生物医学实体识别中存在的边界识别不准确和鲁棒性差的问题,提出了一种融合了预训练语言模型BERT与跨度标签网络的命名实体识别模型。该模型利用BERT获取文本的上下文信息,并结合跨度标签网络进行实体分类及边界判定,显著提升... 文中针对生物医学实体识别中存在的边界识别不准确和鲁棒性差的问题,提出了一种融合了预训练语言模型BERT与跨度标签网络的命名实体识别模型。该模型利用BERT获取文本的上下文信息,并结合跨度标签网络进行实体分类及边界判定,显著提升了实体识别的准确性。为增强模型的鲁棒性,引入对抗训练策略,通过迭代训练正常样本与对抗样本,以优化模型参数。基于CCKS2019评测数据集的实验表明,应用对抗训练方法后,其精准率、召回率及F1值均有所提升,验证了对抗训练能对提高模型的预测能力和鲁棒性的有效性。 展开更多
关键词 医疗命名实体识别 预训练模型 神经网络 对抗训练
下载PDF
基于ALBERT的网络文物信息资源实体关系抽取方法研究 被引量:4
18
作者 彭博 《情报杂志》 CSSCI 北大核心 2022年第8期156-162,178,共8页
[研究目的]实体间关联关系是知识的基本载体,对网络文物信息资源中实体关系进行抽取是大数据环境下进行文物知识发现、绘制文物知识图谱的前提,也是文物信息资源开发利用需要解决的重要问题。[研究方法]针对网络文物信息资源结构化数据... [研究目的]实体间关联关系是知识的基本载体,对网络文物信息资源中实体关系进行抽取是大数据环境下进行文物知识发现、绘制文物知识图谱的前提,也是文物信息资源开发利用需要解决的重要问题。[研究方法]针对网络文物信息资源结构化数据标准详实、实体关系特征明确、语言描述规范等特征,从知识库中查询实体关系并依照规则进行实体关系标注,利用元数据标准进行实体关系对齐,使用预训练语言模型获取字符特征,应用深度学习有关方法获取语义特征,进行了非结构化文物信息资源实体关系的抽取。[研究结论]研究表明,在与其他预训练语言模型及深度学习方法的关系抽取对比实验中,该方法的综合效率相对较高,并根据实体关系分类的不同进行特征挖掘,为文物信息资源的研究与推广提供了有益的参考。 展开更多
关键词 文物信息资源 远程监督 预训练模型 深度学习 知识发现 ALBERT
下载PDF
基于栈式预训练模型的中文序列标注 被引量:2
19
作者 刘宇鹏 李国栋 《哈尔滨理工大学学报》 CAS 北大核心 2022年第1期8-13,共6页
序列标注(sequence labelling)是自然语言处理(natural language processing)中的一类重要任务。在文中,根据任务的相关性,使用栈式预训练模型进行特征提取,分词,命名实体识别/语块标注。并且通过对BERT内部框架的深入研究,在保证原有... 序列标注(sequence labelling)是自然语言处理(natural language processing)中的一类重要任务。在文中,根据任务的相关性,使用栈式预训练模型进行特征提取,分词,命名实体识别/语块标注。并且通过对BERT内部框架的深入研究,在保证原有模型的准确率下进行优化,降低了BERT模型的复杂度,减少了模型在训练和预测过程中的时间成本。上层结构上,相比于传统的长短期记忆络(LSTM),采用的是双层双向LSTM结构,底层使用双向长短期记忆网络(Bi-LSTM)用来分词,顶层用来实现序列标注任务。在新式半马尔可夫条件随机场(new semi-conditional random field,NSCRF)上,将传统的半马尔可夫条件随机场(Semi-CRF)和条件随机场(CRF)相结合,同时考虑分词和单词的标签,在训练和解码上提高了准确率。将模型在CCKS2019、MSRANER和BosonNLP数据集上进行训练并取得了很大的提升,F1测度分别达到了92.37%、95.69%和93.75%。 展开更多
关键词 基于BERT的栈式模型 预训练模型 命名实体识别 语块分析
下载PDF
基于BERT模型的无监督候选词生成及排序算法 被引量:2
20
作者 张俊 陈秀宏 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第2期286-297,共12页
词汇简化的目的是在保持句子原始语义的前提下用更易于理解的简单词替代复杂词,同时使语句保持流畅.传统方法依赖人工标记的数据集或者只关注复杂词本身而未能有效地关注复杂词的上下文,导致生成的候选词不符合上下文语境.为了解决上述... 词汇简化的目的是在保持句子原始语义的前提下用更易于理解的简单词替代复杂词,同时使语句保持流畅.传统方法依赖人工标记的数据集或者只关注复杂词本身而未能有效地关注复杂词的上下文,导致生成的候选词不符合上下文语境.为了解决上述两个问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)模型的无监督候选词生成及排序算法Pretrained-LS,还同时考虑了复杂词和上下文.在候选词生成阶段,Pretrained-LS利用BERT模型生成候选词;在候选词排序阶段,除了常见的词频和BERT预测顺序排序特征,Pretrained-LS提出BERT词嵌入表示语义相似度、基于Roberta(A Robustly Optimized BERT Pretraining Approach)向量的上下文相似度以及常见词复杂分数字典三个排序特征.实验中,在候选词生成阶段,Pretrained-LS采用广泛使用的精确率P、召回率R以及两者的调和平均值F作为评价标准,在候选词排序阶段同样采用精确率P以及准确率A作为评价标准.在三个英语基准数据集上的实验结果表明,与目前表现最好的词汇简化算法相比,在候选词生成阶段,Pretrained-LS的评测指标F值提升5.70%;在候选词排序阶段,准确率A提升7.21%. 展开更多
关键词 词汇简化 预训练模型 候选词生成 候选词排序
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部