期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例 被引量:21
1
作者 刘畅 王东波 +2 位作者 胡昊天 张逸勤 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第6期44-54,共11页
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两... 数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。 展开更多
关键词 自动分词 数字人文 sikubert 预训练技术 词典信息融合
下载PDF
数字人文视域下SikuBERT增强的史籍实体识别研究 被引量:15
2
作者 刘江峰 冯钰童 +2 位作者 王东波 胡昊天 张逸勤 《图书馆论坛》 CSSCI 北大核心 2022年第10期61-72,共12页
利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学习、增强文化自信与促进文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base、RoBERTa、GuwenBERT、SikuBERT、Sik... 利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学习、增强文化自信与促进文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa等预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间等命名实体识别任务。实验结果表明:SikuBERT、SikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能产生一定影响;BERT模型更为适应大规模语料任务。实验验证了基于《四库全书》繁体语料预训练的BERT模型在预训练-微调范式下典籍命名实体识别的可行性,构建了基于SikuBERT的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。 展开更多
关键词 人文计算 sikubert 预训练模型 史籍 实体识别
下载PDF
面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例 被引量:15
3
作者 胡昊天 张逸勤 +4 位作者 邓三鸿 王东波 冯敏萱 刘浏 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第12期138-148,共11页
文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果... 文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。 展开更多
关键词 预训练模型 sikubert 文本分类 数字人文 《四库全书》子部
下载PDF
古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例 被引量:11
4
作者 谢靖 刘江峰 王东波 《图书馆论坛》 CSSCI 北大核心 2022年第10期51-60,共10页
标注古代中医文献的命名实体能挖掘其蕴藏的中医学知识,推进中医现代化发展。文章基于BERT-base、RoBERTa、SikuBERT、SikuRoBERTa预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer(FLAT)结构为微调模型,构建... 标注古代中医文献的命名实体能挖掘其蕴藏的中医学知识,推进中医现代化发展。文章基于BERT-base、RoBERTa、SikuBERT、SikuRoBERTa预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer(FLAT)结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。实验结果表明:直接使用古文繁体BERT模型对古代中医文献进行领域命名实体识别,基于繁体《四库全书》的SikuBERT、SikuRoBERTa预训练模型效果优于BERT-base、RoBERTa模型;引入FLAT结构作为微调模型后,SikuBERT在有标点情况下表现最优,识别效果可提升4%左右,SikuRoBERTa在无标点情况下表现最优,识别效果可提高2%~3%。实验验证了FLAT作为微调模型对BERT模型在中医专业领域中古文献命名实体识别工作上的有效性。该微调模型可以有效避免分词错误引起的实体识别传播错误,提高中医命名实体的识别效率。 展开更多
关键词 命名实体识别 中医典籍 素问 sikubert FLAT
下载PDF
面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例 被引量:11
5
作者 耿云冬 张逸勤 +1 位作者 刘欢 王东波 《图书馆论坛》 CSSCI 北大核心 2022年第6期55-63,共9页
在深度学习技术和预训练语言模型不断发展背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SikuBERT预训练语言模型,在源自多领域的16部古文典籍文本上开展... 在深度学习技术和预训练语言模型不断发展背景下,文章探讨面向数字人文研究需求的古文典籍文本词性自动标注问题。以校验后的高质量《四库全书》全文语料作为训练集,构建SikuBERT预训练语言模型,在源自多领域的16部古文典籍文本上开展词性自动标注实验。结果表明:SikuBERT预训练语言模型在词性自动标注任务中表现优良,词性标签总体预测准确率达到89.64%。文章还展示了单机版“SIKU-BERT典籍智能处理系统”的词性自动标注功能设计及应用。 展开更多
关键词 词性 自动标注 数字人文 sikubert 预训练技术
下载PDF
数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例 被引量:9
6
作者 林立涛 王东波 +2 位作者 刘江峰 李斌 冯敏萱 《图书馆论坛》 CSSCI 北大核心 2022年第10期42-50,共9页
通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。文章基于SikuBERT预训练模型,构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物... 通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。文章基于SikuBERT预训练模型,构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物命名实体的先秦典籍语料,对SikuBERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证SikuBERT预训练模型的识别性能。结果表明:基于SikuBERT经训练所构建的动物命名实体识别模型效果最优,十折交叉测试的平均调和平均值(F1)为85.46%,最高一次达86.29%,应用于《史记》动物命名实体识别准确率达91.6%。 展开更多
关键词 数字人文 典籍 动物命名实体识别 sikubert 深度学习
下载PDF
面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例 被引量:9
7
作者 徐润华 王东波 +2 位作者 刘欢 梁媛 陈康 《图书馆论坛》 CSSCI 北大核心 2022年第12期129-137,共9页
能降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究很少。文章面向《资治通鉴》语料,基于SikuBERT预训练模型进行自动摘要实验,并对比其与传统抽取式自动摘要算法和百度智能云摘要... 能降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究很少。文章面向《资治通鉴》语料,基于SikuBERT预训练模型进行自动摘要实验,并对比其与传统抽取式自动摘要算法和百度智能云摘要分析算法在《资治通鉴》语料上的表现。实验结果表明:基于SikuBERT预训练模型生成的摘要结果在稳定性、覆盖度等方面较好;通过专家人工打分方式,基于SikuBERT预训练模型生成的摘要结果平均得分最高。实验验证了使用数字人文技术对古文进行自动摘要任务的可行性和利用SikuBERT预训练模型对古文进行信息处理的适用性。 展开更多
关键词 数字人文 sikubert 预训练模型 自动摘要
下载PDF
AIGC驱动古籍自动摘要研究:从自然语言理解到生成
8
作者 吴娜 刘畅 +1 位作者 刘江峰 王东波 《图书馆论坛》 北大核心 2024年第9期111-123,共13页
作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发... 作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发展提供参考,助力数字人文理念下的古籍内容价值实现。首先基于GujiBERT、SikuBERT、BERT-ancient-Chinese模型进行语义表征,并使用LexRank算法进行重要性排序以抽取摘要。然后利用GPT-3.5-turbo、GPT-4和ChatGLM3模型生成摘要,并构建ChatGLM3和GPT-3.5-turbo微调模型。最后采用信息覆盖率和信息多样性指标对抽取式摘要结果进行评测,采用rouge和mauve指标对生成式摘要结果进行评测。研究表明:SikuBERT在抽取式摘要任务中对古文的语义表征能力和理解能力较强;通用大语言模型在古籍领域的自动摘要能力各有特色,但主旨提炼能力有所欠缺;通过小样本数据集微调GPT-3.5-turbo和ChatGLM3模型能有效提升模型的摘要生成能力。 展开更多
关键词 古籍价值再造 自动摘要 sikubert 大语言模型
下载PDF
基于SiKuBERT与多元数据嵌入的中医古籍命名实体识别
9
作者 张文东 吴子炜 +2 位作者 宋国昌 霍庆澳 王博 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期128-137,共10页
中医古籍命名实体识别是构建中医知识图谱的基础,对中医知识的提取与智能化呈现具有重要意义。然而,中医知识体系结构庞大,公开可用的语料库稀少且语义复杂,当前的研究大多关注字向量的表达,对特殊汉字的结构特征中丰富的语义特点考虑... 中医古籍命名实体识别是构建中医知识图谱的基础,对中医知识的提取与智能化呈现具有重要意义。然而,中医知识体系结构庞大,公开可用的语料库稀少且语义复杂,当前的研究大多关注字向量的表达,对特殊汉字的结构特征中丰富的语义特点考虑不充分;而且,由于汉字语义丰富,还存在潜在特征表达不足及一词多义的问题。文中结合中医古籍的语料特点与古汉字结构信息,提出了一种基于SiKuBERT与多元数据嵌入的命名实体识别方法,通过SiKuBERT创建字特征信息,在此基础上嵌入词特征与部首特征来捕捉汉字的语义信息,让具有相似部首序列的字符在空间向量中彼此接近。采用该方法对本草数据集中的人名、中草药物名,病症名、病理名、经络名进行识别,实验结果表明:文中方法能够有效抽取文本中的5类实体,F1值为86.66%,精确率达86.95%,召回率达86.37%;相较于基于字特征的SiKuBERT-CRF模型,文中方法融合了字词信息与繁体汉字的结构信息,能增强实体识别效果,总体F1值提升了2.83个百分点;此外,该方法对具有显著部首特征的中草药物名和病症名的识别效果最佳,相较于基于字特征的SiKuBERT-CRF模型,F1值分别提升了3.48和0.97个百分点。总体而言,文中方法的性能指标高于其他主流的深度学习模型,且具有良好的泛化能力。 展开更多
关键词 中医古籍 命名实体识别 《本草纲目》 sikubert 多元数据嵌入
下载PDF
面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例 被引量:3
10
作者 孙文龙 张逸勤 +3 位作者 王凡铭 鱼汇沐 刘江峰 王东波 《图书馆论坛》 CSSCI 北大核心 2022年第10期31-41,共11页
利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT预训练模型在古... 利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能。实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%。实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。 展开更多
关键词 数字人文 sikubert 关键词提取 汉语典籍
下载PDF
面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例 被引量:7
11
作者 赵连振 张逸勤 +3 位作者 刘江峰 王东波 冯敏萱 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第12期120-128,137,共10页
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SikuBERT模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型。实验结果表明:Sik... 古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SikuBERT模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型。实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性。 展开更多
关键词 数字人文 汉语典籍 自动标点 sikubert模型
下载PDF
融合SikuBERT模型与MHA的古汉语命名实体识别 被引量:1
12
作者 陈雪松 詹子依 王浩畅 《吉林大学学报(信息科学版)》 CAS 2023年第5期866-875,共10页
针对传统的命名实体识别方法无法充分学习古汉语复杂的句子结构信息以及在长序列特征提取过程中容易带来信息损失的问题,提出一种融合SikuBERT(Siku Bidirectional Encoder Representation from Transformers)模型与MHA(Multi-Head Atte... 针对传统的命名实体识别方法无法充分学习古汉语复杂的句子结构信息以及在长序列特征提取过程中容易带来信息损失的问题,提出一种融合SikuBERT(Siku Bidirectional Encoder Representation from Transformers)模型与MHA(Multi-Head Attention)的古汉语命名实体识别方法。首先,利用SikuBERT模型对古汉语语料进行预训练,将训练得到的信息向量输入BiLSTM(Bidirectional Long Short-Term Memory)网络中提取特征,再将BiLSTM层的输出特征通过MHA分配不同的权重减少长序列的信息损失,最后通过CRF(Conditional Random Field)解码得到预测的序列标签。实验表明,与常用的BiLSTM-CRF、 BERT-BiLSTM-CRF等模型相比,该方法的F_(1)值有显著提升,证明了该方法能有效提升古汉语命名实体识别的效果。 展开更多
关键词 古汉语 命名实体识别 sikubert模型 多头注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部