作者名称消歧是构建学术知识图谱的重要步骤.由于数据缺失、人名重名、人名缩写导致论文重名现象普遍存在,针对无法充分利用信息和冷启动问题,提出了基于异构网络的无监督作者名称消歧方法,自动学习同作者论文特征.用词形还原预处理作...作者名称消歧是构建学术知识图谱的重要步骤.由于数据缺失、人名重名、人名缩写导致论文重名现象普遍存在,针对无法充分利用信息和冷启动问题,提出了基于异构网络的无监督作者名称消歧方法,自动学习同作者论文特征.用词形还原预处理作者、机构、标题、关键词的字符,用word2vec和TF-IDF(Term Frequency-Inverse Document Frequency)方法学习文本特征嵌入表示,用元路径随机游走和word2vec方法学习结构特征嵌入表示,融合文本、结构特征相似度后用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法、合并孤立论文方法完成消歧.最终根据实验结果,模型在冷启动无监督作者名称消歧的小数据集和工程应用中优于现有模型,表明了模型有效且可以实际应用.展开更多
【目的】分析并评述面向学术文献的作者名消歧的相关工作,为该领域的后续研究提供借鉴。【文献范围】在Web of Science、谷歌学术、中国知网和万方数据库中检索2016年1月1日至2020年3月28日的相关研究,共选择51篇文献进行综述。【方法...【目的】分析并评述面向学术文献的作者名消歧的相关工作,为该领域的后续研究提供借鉴。【文献范围】在Web of Science、谷歌学术、中国知网和万方数据库中检索2016年1月1日至2020年3月28日的相关研究,共选择51篇文献进行综述。【方法】以作者名消歧的流程为主线系统梳理各项研究成果,分类总结特征提取、特征表示以及模型训练与预测等主题的研究,并针对研究中的共性问题进行多维度的讨论。【结果】在特征表示方面,相较于2016年之前的研究,基于图、概率和混合模型的方法优化了复杂特征的相似度计算。在模型训练与预测方面,基于机器学习的算法仍需要提高效率与泛化能力,使其能够满足大型数据库和增量消歧的需求。多数研究尚未解决数据中存在的诸如训练数据不均、特征数据缺失、一人多名等问题。【局限】由于各项研究的实证数据差异较大,未能对不同方法进行量化比较。【结论】提出从多源数据融合、用户干预以及预训练模型的引入等视角开展后续研究的思路。展开更多
[目的/意义]调研近年来作者同名消歧相关研究,厘清发展脉络,为后续研究提供参考。[方法/过程]使用Web of Science、Scopus、谷歌学术、ACM、IEEE、Elsevier、Springer、中国知网、维普数据库和万方数据库检索作者姓名消歧相关文献,选择...[目的/意义]调研近年来作者同名消歧相关研究,厘清发展脉络,为后续研究提供参考。[方法/过程]使用Web of Science、Scopus、谷歌学术、ACM、IEEE、Elsevier、Springer、中国知网、维普数据库和万方数据库检索作者姓名消歧相关文献,选择其中46篇代表性文献进行综述。从数据对作者同名消歧方法的影响的角度审视、梳理相关研究的发展脉络。[结果/结论]按照消歧任务所依据的数据特点将相关研究方法分为3类。随着技术的进步,深度学习方法得到广泛采用。相对于模型的改进,基于深度学习的特征学习和表示,对作者同名消歧算法效果的提高更为显著,同时,为充分利用数据中包含的各种信息,3类算法呈现出相互结合、互补增益的态势。从文献调研情况看,可以从增量消歧和跨语种消歧等角度开展后续研究。展开更多
文摘作者名称消歧是构建学术知识图谱的重要步骤.由于数据缺失、人名重名、人名缩写导致论文重名现象普遍存在,针对无法充分利用信息和冷启动问题,提出了基于异构网络的无监督作者名称消歧方法,自动学习同作者论文特征.用词形还原预处理作者、机构、标题、关键词的字符,用word2vec和TF-IDF(Term Frequency-Inverse Document Frequency)方法学习文本特征嵌入表示,用元路径随机游走和word2vec方法学习结构特征嵌入表示,融合文本、结构特征相似度后用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法、合并孤立论文方法完成消歧.最终根据实验结果,模型在冷启动无监督作者名称消歧的小数据集和工程应用中优于现有模型,表明了模型有效且可以实际应用.
文摘【目的】分析并评述面向学术文献的作者名消歧的相关工作,为该领域的后续研究提供借鉴。【文献范围】在Web of Science、谷歌学术、中国知网和万方数据库中检索2016年1月1日至2020年3月28日的相关研究,共选择51篇文献进行综述。【方法】以作者名消歧的流程为主线系统梳理各项研究成果,分类总结特征提取、特征表示以及模型训练与预测等主题的研究,并针对研究中的共性问题进行多维度的讨论。【结果】在特征表示方面,相较于2016年之前的研究,基于图、概率和混合模型的方法优化了复杂特征的相似度计算。在模型训练与预测方面,基于机器学习的算法仍需要提高效率与泛化能力,使其能够满足大型数据库和增量消歧的需求。多数研究尚未解决数据中存在的诸如训练数据不均、特征数据缺失、一人多名等问题。【局限】由于各项研究的实证数据差异较大,未能对不同方法进行量化比较。【结论】提出从多源数据融合、用户干预以及预训练模型的引入等视角开展后续研究的思路。
文摘[目的/意义]调研近年来作者同名消歧相关研究,厘清发展脉络,为后续研究提供参考。[方法/过程]使用Web of Science、Scopus、谷歌学术、ACM、IEEE、Elsevier、Springer、中国知网、维普数据库和万方数据库检索作者姓名消歧相关文献,选择其中46篇代表性文献进行综述。从数据对作者同名消歧方法的影响的角度审视、梳理相关研究的发展脉络。[结果/结论]按照消歧任务所依据的数据特点将相关研究方法分为3类。随着技术的进步,深度学习方法得到广泛采用。相对于模型的改进,基于深度学习的特征学习和表示,对作者同名消歧算法效果的提高更为显著,同时,为充分利用数据中包含的各种信息,3类算法呈现出相互结合、互补增益的态势。从文献调研情况看,可以从增量消歧和跨语种消歧等角度开展后续研究。