期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于跨度回归的中文事件触发词抽取 被引量:3
1
作者 赵宇豪 陈艳平 +1 位作者 黄瑞章 秦永彬 《应用科学学报》 CAS CSCD 北大核心 2023年第1期95-106,共12页
在中文事件触发词抽取任务中,基于词的模型会受到分词带来的错误,而基于字符的模型则难以捕获触发词的结构信息和上下文语义信息,为此提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成... 在中文事件触发词抽取任务中,基于词的模型会受到分词带来的错误,而基于字符的模型则难以捕获触发词的结构信息和上下文语义信息,为此提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成一个事件触发词,用基于Transformer的双向编码器的预训练语言模型获取句子的特征表示,进而生成触发词候选跨度;然后用一个分类器过滤低置信度的候选跨度,通过回归调整候选跨度的边界来准确定位触发词;最后对调整后的候选跨度进行分类得到抽取结果。在ACE2005中文数据集上的实验结果表明:基于跨度回归的方法对触发词识别任务的F1值为73.20%,对触发词分类任务的F1值为71.60%,优于现有模型;并与仅基于跨度的方法进行对比,验证了对跨度边界进行回归调整可以提高事件触发词检测的准确性。 展开更多
关键词 事件抽取 事件触发词 基于transformer双向编码器 特征表示 跨度表示 回归调整
下载PDF
融合字注释的文本分类模型 被引量:2
2
作者 杨先凤 赵家和 李自强 《计算机应用》 CSCD 北大核心 2022年第5期1317-1323,共7页
针对传统文本特征表示方法无法充分解决一词多义的问题,构建了一种融合字注释的文本分类模型。首先,借助现有中文字典,获取文本由字上下文选取的字典注释,并对其进行Transformer的双向编码器(BERT)编码来生成注释句向量;然后,将注释句... 针对传统文本特征表示方法无法充分解决一词多义的问题,构建了一种融合字注释的文本分类模型。首先,借助现有中文字典,获取文本由字上下文选取的字典注释,并对其进行Transformer的双向编码器(BERT)编码来生成注释句向量;然后,将注释句向量与字嵌入向量融合作为输入层,并用来丰富输入文本的特征信息;最后,通过双向门控循环单元(BiGRU)学习文本的特征信息,并引入注意力机制突出关键特征向量。在公开数据集THUCNews和新浪微博情感分类数据集上进行的文本分类的实验结果表明,融合BERT字注释的文本分类模型相较未引入字注释的文本分类模型在性能上有显著提高,且在所有文本分类的实验模型中,所提出的BERT字注释_BiGRU_Attention模型有最高的精确率和召回率,能反映整体性能的F1-Score则分别高达98.16%和96.52%。 展开更多
关键词 一词多义 字注释 基于transformer双向编码器 双向门控循环单元 注意力机制 文本分类
下载PDF
基于BERT模型的中文短文本分类算法 被引量:79
3
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文短文本分类 基于transformer双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
下载PDF
融合BERT语义加权与网络图的关键词抽取方法 被引量:12
4
作者 李俊 吕学强 《计算机工程》 CAS CSCD 北大核心 2020年第9期89-94,共6页
结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对... 结合文档本身的结构信息与外部词语的语义信息,提出一种融合BERT词向量与TextRank的关键词抽取方法。在基于网络图的TextRank方法基础上,引入语义差异性并利用BERT词向量加权方式优化TextRank转移概率矩阵计算过程,同时通过迭代运算对文档中的词语进行综合影响力得分排序,最终提取得分最高的Top N个词语作为关键词。实验结果表明,当选取Top3、Top5、Top7和Top10个关键词时,与基于词向量聚类质心与TextRank加权的关键词抽取方法相比,该方法的平均F值提升了2.5%,关键词抽取效率更高。 展开更多
关键词 关键词抽取 语义关系 词向量 TextRank方法 基于transformer双向编码器表示
下载PDF
基于孪生网络和BERT模型的主观题自动评分系统 被引量:8
5
作者 钱升华 《计算机系统应用》 2022年第3期143-149,共7页
由于现在缺乏多语言教学中的主观题自动评分,针对这一问题提出了一种基于孪生网络和BERT模型的主观题自动评分系统.主观题的问题文本和答案文本通过自然语言预处理BERT模型得到文本的句向量,BERT模型已经在大规模多种语言的语料上经过训... 由于现在缺乏多语言教学中的主观题自动评分,针对这一问题提出了一种基于孪生网络和BERT模型的主观题自动评分系统.主观题的问题文本和答案文本通过自然语言预处理BERT模型得到文本的句向量,BERT模型已经在大规模多种语言的语料上经过训练,得到的文本向量包含了丰富的上下文语义信息,并且能处理多种语言信息.然后把问题文本和答案文本的句向量再通过深度网络的孪生网络进行语义相似度的计算,最后连接逻辑回归分类器,完成主观题的自动评分.实验所使用数据集由Hewlett基金提供的英文数据集以及翻译后的中文数据集,并以二次加权Kappa系数作为模型的评估指标.实验结果表明,对比其他基准模型,基于孪生网络和BERT模型的自动评分系统在各个数据子集得到的结果最好. 展开更多
关键词 自然语言处理 主观题自动评分 孪生网络 基于transformer双向编码器表示 二次加权Kappa系数
下载PDF
基于层间融合滤波器与社交神经引文网络的推荐算法
6
作者 杨兴耀 李志林 +3 位作者 张祖莲 于炯 陈嘉颖 王东晓 《计算机工程》 CAS CSCD 北大核心 2024年第11期98-106,共9页
推荐算法是一种用于解决信息过载问题的方法,引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中,存在文本噪声和上下文学习不充分的问题。为此,提出一种基于层间融合滤波器和... 推荐算法是一种用于解决信息过载问题的方法,引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中,存在文本噪声和上下文学习不充分的问题。为此,提出一种基于层间融合滤波器和社交神经引文网络的推荐算法FS-Rec。首先,利用具有层间融合滤波器的BERT模型预处理引文上下文,在频域内从所有频率中提取有意义的特征,缓解引文上下文数据的噪声,同时在频域中对多层信息进行融合,增强上下文表示学习的能力;然后,在引文作者嵌入中引入社交关系,与其他引文信息嵌入通过编码器获得表示,将这些表示与经过BERT预训练的引文上下文表示进行融合,得到最终表示;最后,根据最终表示生成引文文本预测。实验结果表明,相较于现有的上下文引文推荐模型,FS-Rec在2个基准数据集arXivCS和PubMed取得了更高的召回率和平均倒数排名(MMR),证明了模型的有效性。 展开更多
关键词 滤波器 自注意力机制 基于transformer双向编码器表示 引文推荐 预训练语言模型
下载PDF
面向行政执法案件文本的事件抽取研究
7
作者 屈潇雅 李兵 温立强 《计算机工程》 CAS CSCD 北大核心 2024年第9期63-71,共9页
行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中... 行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中快速高效地抽取案件职权类型、案发时间、案发地点等结构化信息,可推动行政机关对历史案件信息的利用和智能化执法办案研究。收集整理某城市的真实案例数据,并通过人工标注构建一个行政执法领域的数据集,根据行政执法案件文本的无触发词、文档级、格式不固定等文本特征,提出结合基于Transformer的双向编码器表示(BERT)和基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型的两阶段事件抽取方法,通过文本多分类和序列标注依次完成事件类型检测和事件论元抽取任务。实验结果表明,事件类型检测任务的F1值达到99.54%,事件论元抽取任务的F1值达到97.36%,实现了对案件信息的有效抽取。 展开更多
关键词 行政执法案件 事件抽取 两阶段方法 基于transformer双向编码器表示模型 基于条件随机场双向长短期记忆网络(BiLSTM-CRF)模型
下载PDF
ALBERT预训练模型在医疗文书命名实体识别中的应用研究
8
作者 庞秋奔 李银 《信息与电脑》 2024年第6期152-156,共5页
中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transform... 中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。 展开更多
关键词 命名实体识别 轻量级来自transformer双向编码器表示(ALBERT)模型 transformerS 麻醉医疗质量控制指标 医疗手术麻醉文书
下载PDF
融合注意力机制的电力集控安全隐患实体识别模型研究 被引量:1
9
作者 张滈辰 屈红军 +1 位作者 牛雪莹 耿琴兰 《自动化仪表》 CAS 2023年第10期55-59,64,共6页
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,... 针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。 展开更多
关键词 实体识别 注意力机制 基于transformer双向编码器表示 电力集控隐患 最优标签序列 双向长短时记忆网络 条件随机场
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部