期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于学术论文全文的跨语言研究方法自动分类研究 被引量:7
1
作者 田亮 李博闻 章成志 《图书馆建设》 CSSCI 北大核心 2022年第1期75-86,共12页
自动识别学术论文所使用的研究方法对研究方法的评估、方法使用行为分析、方法检索等均具有重要意义。学术论文研究方法的自动分类离不开大量训练语料,但论文研究方法标注成本高昂,探讨如何充分利用现有标注数据对于降低标注成本具有重... 自动识别学术论文所使用的研究方法对研究方法的评估、方法使用行为分析、方法检索等均具有重要意义。学术论文研究方法的自动分类离不开大量训练语料,但论文研究方法标注成本高昂,探讨如何充分利用现有标注数据对于降低标注成本具有重要意义。以图书情报领域为研究对象,首先通过实验比较了基于英文摘要的单语言方法和基于全文的跨语言方法,进而说明了使用跨语言方法的必要性;其次比较了两种跨语言方法在跨语言研究方法分类中的效果;最后对本文提出的一种学术论文全文处理方法进行了验证。实验结果表明,基于学术论文全文的跨语言方法明显优于基于英文摘要的单语言方法,基于机器翻译的方法比基于跨语言预训练模型的方法更优。此外,实验表明针对学术论文全文的长文本处理方法相较于基线方法有明显提升。 展开更多
关键词 研究方法自动分类 跨语言文本分类 多标签分类 学术论文全文内容
原文传递
基于学术论文全文内容的特定领域算法实体抽取研究 被引量:3
2
作者 丁睿祎 王玉琢 章成志 《数字图书馆论坛》 CSSCI 2022年第3期2-14,共13页
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取... 对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。 展开更多
关键词 学术论文全文内容 算法实体 实体抽取 学术文本挖掘
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部