-
题名基于学术论文全文的跨语言研究方法自动分类研究
被引量:7
- 1
-
-
作者
田亮
李博闻
章成志
-
机构
南京理工大学经济管理学院信息管理系
-
出处
《图书馆建设》
CSSCI
北大核心
2022年第1期75-86,共12页
-
基金
国家社会科学基金重大项目“面向三大公共数字文化工程资源融合的多语言信息组织与检索研究”,项目编号:19ZDA341
江苏省研究生科研与实践创新计划项目“特定领域学术论文研究方法的跨语言自动分类研究”,项目编号:KYCX21_0424的成果之一。
-
文摘
自动识别学术论文所使用的研究方法对研究方法的评估、方法使用行为分析、方法检索等均具有重要意义。学术论文研究方法的自动分类离不开大量训练语料,但论文研究方法标注成本高昂,探讨如何充分利用现有标注数据对于降低标注成本具有重要意义。以图书情报领域为研究对象,首先通过实验比较了基于英文摘要的单语言方法和基于全文的跨语言方法,进而说明了使用跨语言方法的必要性;其次比较了两种跨语言方法在跨语言研究方法分类中的效果;最后对本文提出的一种学术论文全文处理方法进行了验证。实验结果表明,基于学术论文全文的跨语言方法明显优于基于英文摘要的单语言方法,基于机器翻译的方法比基于跨语言预训练模型的方法更优。此外,实验表明针对学术论文全文的长文本处理方法相较于基线方法有明显提升。
-
关键词
研究方法自动分类
跨语言文本分类
多标签分类
学术论文全文内容
-
Keywords
Automatic classification of research method
Cross-lingual text classification
Multi-label classification
Full-text of academic article
-
分类号
G250
[文化科学—图书馆学]
-
-
题名基于学术论文全文内容的特定领域算法实体抽取研究
被引量:3
- 2
-
-
作者
丁睿祎
王玉琢
章成志
-
机构
南京理工大学经济管理学院
-
出处
《数字图书馆论坛》
CSSCI
2022年第3期2-14,共13页
-
基金
江苏省社会科学基金项目“多维视角下学术创新力评估与预测研究”(编号:18TQD003)资助。
-
文摘
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。
-
关键词
学术论文全文内容
算法实体
实体抽取
学术文本挖掘
-
Keywords
Full Text of Academic Articles
Algorithmic Entity
Entity Extraction
Academic Text Mining
-
分类号
G250.2
[文化科学—图书馆学]
-