期刊文献+

基于集成学习的论文作者消歧研究

Research of Author Name Disambiguation Based on Ensemble Learning
下载PDF
导出
摘要 尽管经过多年研究,论文作者消歧仍未得到完美解决。针对传统方法仅使用某一特征或忽视不同特征的重要性的问题,提出了一种基于集成学习的方法,通过余弦相似度的计算衡量论文之间的相似性,训练出联合分类器,进而完成分类。根据大量有标记数据,在实验中优化各个特征的权重。实验结果表明,所提方法达到了93.2%的F1值,比单一使用某一特征或忽视特征权重能达到更好的分类效果,并且在中外作者姓名的消歧上都有较好的表现。 Despite years of research, the name disambiguation still hasn’t been imperfectly solved. For the problem that the traditional method only applies a certain feature or ignores the importance of each feature, a new approach based on ensemble learning has been proposed. Specifically, the cosine of two papers is the measure of similarity and the united classification has been trained based on the labelled data so papers can be classified. The weight of each feature is also optimized by existing data.Experiment results show that the final F-measure is 93.4%, and the proposed method can perform better on name disambiguation than traditional approaches both on Chinese names and Latin names.
作者 马传香 吕友 MA Chuanxiang;LV You(School of Computer Science and Information,Hubei University,Wuhan Hubei 430062,China)
出处 《长江信息通信》 2021年第11期23-26,共4页 Changjiang Information & Communications
基金 湖北省自然科学基金项目:城市人群聚集的时空模式挖掘及可视化预警示范(2019CFB757) 教育部“智融兴教”创新基金项目:基于学生行为数据的数据挖掘模型应用研究(2018A01022)。
关键词 作者消歧 特征提取 TFIDF 集成学习 name disambiguation feature extraction TFIDF ensemble learning
  • 相关文献

参考文献2

二级参考文献16

共引文献11

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部