期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于BERT模型的中文短文本分类算法 被引量:79
1
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文短文本分类 基于transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
下载PDF
融合BERT语义加权与网络图的关键词抽取方法 被引量:12
2
作者 李俊 吕学强 《计算机工程》 CAS CSCD 北大核心 2020年第9期89-94,共6页
结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对... 结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对文档中的词语进行综合影响力得分排序,最终提取得分最高的Top N个词语作为关键词。实验结果表明,当选取Top3、Top5、Top7和Top10个关键词时,与基于词向量聚类质心与TextRank加权的关键词抽取方法相比,该方法的平均F值提升了2.5%,关键词抽取效率更高。 展开更多
关键词 关键词抽取 语义关系 词向量 TextRank方法 基于transformer的双向编码器表示
下载PDF
基于跨度回归的中文事件触发词抽取 被引量:3
3
作者 赵宇豪 陈艳平 +1 位作者 黄瑞章 秦永彬 《应用科学学报》 CAS CSCD 北大核心 2023年第1期95-106,共12页
在中文事件触发词抽取任务中,基于词的模型会受到分词带来的错误,而基于字符的模型则难以捕获触发词的结构信息和上下文语义信息,为此提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成... 在中文事件触发词抽取任务中,基于词的模型会受到分词带来的错误,而基于字符的模型则难以捕获触发词的结构信息和上下文语义信息,为此提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成一个事件触发词,用基于Transformer的双向编码器的预训练语言模型获取句子的特征表示,进而生成触发词候选跨度;然后用一个分类器过滤低置信度的候选跨度,通过回归调整候选跨度的边界来准确定位触发词;最后对调整后的候选跨度进行分类得到抽取结果。在ACE2005中文数据集上的实验结果表明:基于跨度回归的方法对触发词识别任务的F1值为73.20%,对触发词分类任务的F1值为71.60%,优于现有模型;并与仅基于跨度的方法进行对比,验证了对跨度边界进行回归调整可以提高事件触发词检测的准确性。 展开更多
关键词 事件抽取 事件触发词 基于transformer的双向编码器 特征表示 跨度表示 回归调整
下载PDF
多重语义融合的关系分类模型 被引量:3
4
作者 贾晨晓 欧阳丹彤 《吉林大学学报(信息科学版)》 CAS 2023年第1期50-56,共7页
在利用常识知识图谱构造出文本自身语义之外的语境语义及基于知识图谱的预训练模型获取语境语义特征的基础上,针对文本语义特征、语境语义特征和标记实体语义特征,建立多重语义融合机制,实现关系分类模型MSF-RC(Relation Classification... 在利用常识知识图谱构造出文本自身语义之外的语境语义及基于知识图谱的预训练模型获取语境语义特征的基础上,针对文本语义特征、语境语义特征和标记实体语义特征,建立多重语义融合机制,实现关系分类模型MSF-RC(Relation Classification Model based on Multiple Semantic Fusion)。该模型在SemEval-2010 task 8和TARCED两个不同数据集上进行了测试,试验结果表明,语境信息的引入有助于加强标记实体对语义的理解,多重语义的层级融合可以进一步提升关系分类模型的性能。 展开更多
关键词 关系分类 bert模型 知识图谱 特征融合 语义融合
下载PDF
基于双向编码表示转换的双模态软件分类模型
5
作者 付晓峰 陈威岐 +1 位作者 孙曜 潘宇泽 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第11期2239-2246,共8页
针对已有方法在软件分类方面只考虑单一分类因素和精确率较低的不足,提出基于双向编码表示转换(BERT)的双模态软件分类方法.该方法遵循最新的国家标准对软件进行分类,通过集成基于代码的BERT(CodeBERT)和基于掩码语言模型的纠错BERT(Mac... 针对已有方法在软件分类方面只考虑单一分类因素和精确率较低的不足,提出基于双向编码表示转换(BERT)的双模态软件分类方法.该方法遵循最新的国家标准对软件进行分类,通过集成基于代码的BERT(CodeBERT)和基于掩码语言模型的纠错BERT(MacBERT)双向编码的优势,其中CodeBERT用于深入分析源码内容,MacBERT处理文本描述信息如注释和文档,利用这2种双模态信息联合生成词嵌入.结合卷积神经网络(CNN)提取局部特征,通过提出的交叉自注意力机制(CSAM)融合模型结果,实现对复杂软件系统的准确分类.实验结果表明,本文方法在同时考虑文本和源码数据的情况下精确率高达93.3%,与从奥集能和gitee平台收集并处理的数据集上训练的BERT模型和CodeBERT模型相比,平均精确率提高了5.4%.这表明了双向编码和双模态分类方法在软件分类中的高效性和准确性,证明了提出方法的实用性. 展开更多
关键词 软件分类 双向编码表示转换(bert) 卷积神经网络 双模态 交叉自注意力机制
下载PDF
融合注意力机制的电力集控安全隐患实体识别模型研究 被引量:1
6
作者 张滈辰 屈红军 +1 位作者 牛雪莹 耿琴兰 《自动化仪表》 CAS 2023年第10期55-59,64,共6页
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,... 针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。 展开更多
关键词 实体识别 注意力机制 基于transformer的双向编码器表示 电力集控隐患 最优标签序列 双向长短时记忆网络 条件随机场
下载PDF
基于对比学习和预训练模型的临床诊断标准化
7
作者 刘莹 崔丙剑 +1 位作者 曹琉 程龙龙 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第5期23-28,共6页
针对临床诊断标准化任务中存在的标准诊断词库规模大、文本相关性不显著且标准词个数不确定的问题,提出一种基于对比学习和预训练模型的临床诊断标准化方法.先用无监督和有监督相结合的方法对基于简单对比学习的句子嵌入(SimCSE)模型进... 针对临床诊断标准化任务中存在的标准诊断词库规模大、文本相关性不显著且标准词个数不确定的问题,提出一种基于对比学习和预训练模型的临床诊断标准化方法.先用无监督和有监督相结合的方法对基于简单对比学习的句子嵌入(SimCSE)模型进行训练,并利用得到的模型从标准库中召回候选标准词,再利用基于转换器的双向编码表征(BERT)进行候选词重排序和标准词个数分类,最终得到标准化结果.实验结果表明:基于无监督和有监督相结合的SimCSE方法的召回率为86.76%,显著优于其他方法;在重排序和标准词个数分类任务中,相比于其他模型,BERT在多个指标上有明显提升;该方法在测试集上进行标准词预测的F1值达到72.54%,在临床诊断标准化中具有较好的表现. 展开更多
关键词 临床诊断标准化 对比学习 预训练模型 基于简单对比学习的句子嵌入(SimCSE) 基于转换器的双向编码表征(bert)
原文传递
基于transformer的工单智能判责方法研究
8
作者 汪加婧 范维 《高技术通讯》 CAS 2021年第6期660-665,共6页
在图像、文本、视频、语音以及社交类网络数据爆炸增长的时代,企业如何从海量非结构化数据中提取出有效信息并将之转化为生产效率的提升和流程自动化的实现,是目前迫切需要关注和解决的问题。本文以运营商集团电子工单自动判责场景为切... 在图像、文本、视频、语音以及社交类网络数据爆炸增长的时代,企业如何从海量非结构化数据中提取出有效信息并将之转化为生产效率的提升和流程自动化的实现,是目前迫切需要关注和解决的问题。本文以运营商集团电子工单自动判责场景为切入点,提出使用基于transformer架构的双向编码器表示(BERT)作为文本分类模型,自动收集各省份的反馈信息并进行各省份的工单责任智能判定。通过将BERT模型与LightGBM和Bi-LSTM-Attention模型进行实验对比,结果表明BERT模型对各类别工单的预测准确率均达到了96%以上,具有较好的实际应用效果。 展开更多
关键词 工单智能判责 文本分类 transformer 双向编码器表示(bert)
下载PDF
基于深度学习的教材德目教育文本分类方法
9
作者 陈浩淼 陈军华 《上海师范大学学报(自然科学版中英文)》 2024年第2期172-180,共9页
对上海中小学教材德目教育文本分类进行研究,提出了基于转换器的双向编码表征(BERT)预训练模型、双向长短期记忆(BiLSTM)网络和注意力机制的模型IoMET_BBA.通过合成少数类过采样技术(SMOTE)与探索性数据分析(EDA)技术进行数据增强,使用B... 对上海中小学教材德目教育文本分类进行研究,提出了基于转换器的双向编码表征(BERT)预训练模型、双向长短期记忆(BiLSTM)网络和注意力机制的模型IoMET_BBA.通过合成少数类过采样技术(SMOTE)与探索性数据分析(EDA)技术进行数据增强,使用BERT模型生成富含语境信息的语义向量,通过BiLSTM提取特征,并结合注意力机制来获得词语权重信息,通过全连接层进行分类.对比实验的结果表明,IoMET_BBA的F1度量值达到了86.14%,优于其他模型,可以精确地评估教材德目教育文本. 展开更多
关键词 德目指标 中文文本分类 基于转换器的双向编码表征(bert)模型 双向长短期记忆(BiLSTM)网络 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部