作者姓名歧义是科技文献研究的重要基础问题,该问题在华人姓名中一直没有得到较好的解决,本研究目的在于提升华人姓名消歧算法的准确率。本文首次提出基于作者职业经历与引文网络的姓名消歧算法,该算法在构建的华人作者Web of Science(W...作者姓名歧义是科技文献研究的重要基础问题,该问题在华人姓名中一直没有得到较好的解决,本研究目的在于提升华人姓名消歧算法的准确率。本文首次提出基于作者职业经历与引文网络的姓名消歧算法,该算法在构建的华人作者Web of Science(WoS)论文准确集上的F1值达到82.91%,但在数据可得性、规模化使用等方面存在一定限制。本文的算法是针对WOS华人作者的姓名消歧算法,具有操作性强、运算速度快、不依赖于复杂模型、不受制于计算资源等特性,具备良好的应用前景,本文构建的精确数据集亦对后续研究有借鉴意义。展开更多
文摘作者姓名歧义是科技文献研究的重要基础问题,该问题在华人姓名中一直没有得到较好的解决,本研究目的在于提升华人姓名消歧算法的准确率。本文首次提出基于作者职业经历与引文网络的姓名消歧算法,该算法在构建的华人作者Web of Science(WoS)论文准确集上的F1值达到82.91%,但在数据可得性、规模化使用等方面存在一定限制。本文的算法是针对WOS华人作者的姓名消歧算法,具有操作性强、运算速度快、不依赖于复杂模型、不受制于计算资源等特性,具备良好的应用前景,本文构建的精确数据集亦对后续研究有借鉴意义。