期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例
1
作者
张景素
魏明珠
《情报科学》
CSSCI
北大核心
2022年第10期164-170,共7页
【目的/意义】旨在研究少量标注样本构建古文断句模型,减少在模型训练过程中样本标注所需的成本,为探索数字技术与人文学科的融合发展提供崭新的思路。【方法/过程】从古文样本的不确定性和多样性出发,提出一种加权多策略选样方法,有效...
【目的/意义】旨在研究少量标注样本构建古文断句模型,减少在模型训练过程中样本标注所需的成本,为探索数字技术与人文学科的融合发展提供崭新的思路。【方法/过程】从古文样本的不确定性和多样性出发,提出一种加权多策略选样方法,有效结合了BERT-BiLSTM-CRF、BERT-CRF等古文断句模型。通过引入信息熵和相似性等概念,深入分析古籍文本的不确定性和多样性,运用加权计算评估古文样本对模型训练的价值高低,对加权多策略方法所筛选的有价值样本进行人工标注,同时更新到训练集进行模型迭代训练。【结果/结论】以古籍《宋史》为例进行研究,所提出的方法分别在BERT-BiLSTM-CRF、BERT-CRF等古文断句模型训练过程中减少原来训练样本量的50%、55%,进一步验证了方法的有效性。【创新/局限】加权多策略选样的方法为古文断句模型训练提供了一种新思路,未来将探索该方法在古籍整理中其他任务的适用性。
展开更多
关键词
古文断句
主动学习
数字人文
选样
策略
BERT
原文传递
题名
基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例
1
作者
张景素
魏明珠
机构
华中科技大学人文学院
吉林大学商学与管理学院
出处
《情报科学》
CSSCI
北大核心
2022年第10期164-170,共7页
文摘
【目的/意义】旨在研究少量标注样本构建古文断句模型,减少在模型训练过程中样本标注所需的成本,为探索数字技术与人文学科的融合发展提供崭新的思路。【方法/过程】从古文样本的不确定性和多样性出发,提出一种加权多策略选样方法,有效结合了BERT-BiLSTM-CRF、BERT-CRF等古文断句模型。通过引入信息熵和相似性等概念,深入分析古籍文本的不确定性和多样性,运用加权计算评估古文样本对模型训练的价值高低,对加权多策略方法所筛选的有价值样本进行人工标注,同时更新到训练集进行模型迭代训练。【结果/结论】以古籍《宋史》为例进行研究,所提出的方法分别在BERT-BiLSTM-CRF、BERT-CRF等古文断句模型训练过程中减少原来训练样本量的50%、55%,进一步验证了方法的有效性。【创新/局限】加权多策略选样的方法为古文断句模型训练提供了一种新思路,未来将探索该方法在古籍整理中其他任务的适用性。
关键词
古文断句
主动学习
数字人文
选样
策略
BERT
Keywords
sentence segmentation of ancient Chinese
active learning
digital humanities
sample selection strategy
BERT
分类号
G255.1 [文化科学—图书馆学]
H141 [语言文字—汉语]
K244 [历史地理—历史学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例
张景素
魏明珠
《情报科学》
CSSCI
北大核心
2022
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部