期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
面向作者消歧和合作预测领域的作者相似度算法述评 被引量:6
1
作者 单嵩岩 吴振新 《东北师大学报(自然科学版)》 CAS 北大核心 2019年第2期71-80,共10页
从文本相似度和结构相似度算法入手,对面向作者消歧和科研合作预测领域的作者相似度算法进行了研究。分析和比较了各种常用算法的优劣,以及目前的应用情况,并对作者相似度算法进行系统梳理与展望.
关键词 作者相似度 文本相似度 结构相似度 作者 科研合作预测
下载PDF
基于异构网络的无监督作者名称消歧 被引量:2
2
作者 郭晨亮 林欣 殷玥 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第6期147-160,共14页
作者名称消歧是构建学术知识图谱的重要步骤.由于数据缺失、人名重名、人名缩写导致论文重名现象普遍存在,针对无法充分利用信息和冷启动问题,提出了基于异构网络的无监督作者名称消歧方法,自动学习同作者论文特征.用词形还原预处理作... 作者名称消歧是构建学术知识图谱的重要步骤.由于数据缺失、人名重名、人名缩写导致论文重名现象普遍存在,针对无法充分利用信息和冷启动问题,提出了基于异构网络的无监督作者名称消歧方法,自动学习同作者论文特征.用词形还原预处理作者、机构、标题、关键词的字符,用word2vec和TF-IDF(Term Frequency-Inverse Document Frequency)方法学习文本特征嵌入表示,用元路径随机游走和word2vec方法学习结构特征嵌入表示,融合文本、结构特征相似度后用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法、合并孤立论文方法完成消歧.最终根据实验结果,模型在冷启动无监督作者名称消歧的小数据集和工程应用中优于现有模型,表明了模型有效且可以实际应用. 展开更多
关键词 作者 学术知识图谱 异构网络 元路径随机游走
下载PDF
结合图卷积神经网络的文献作者姓名消歧 被引量:1
3
作者 施浓 聂铁铮 +2 位作者 申德荣 寇月 于戈 《小型微型计算机系统》 CSCD 北大核心 2021年第10期2217-2222,共6页
在科学文献管理中,存在大量的科学技术文献需要被高效的识别、分类和保存.对于研究者来说,在研究该领域的相关知识时,通常会检索该领域的相关专家的文章,然而,姓名作为检索的常见搜索经常会出现歧义问题,这导致文献检索、统计和分析的... 在科学文献管理中,存在大量的科学技术文献需要被高效的识别、分类和保存.对于研究者来说,在研究该领域的相关知识时,通常会检索该领域的相关专家的文章,然而,姓名作为检索的常见搜索经常会出现歧义问题,这导致文献检索、统计和分析的质量下降.现有的方法在数据集上仍不能表现出良好的聚类效果,如何实现有效的消歧方法仍是一项挑战.本文提出基于图卷积神经网络的作者姓名消歧技术.首先使用BERT模型将文献作者、出版机构、摘要等多种属性信息嵌入到低维向量空间中,得到与作者相关的多种属性的嵌入向量,克服嵌入向量不够准确的缺陷;接下来以节点嵌入为基础,为每篇文献都构建文献局部图,使用图卷积神经网络对生成的文献局部图进行链路预测,有助于提高链路预测的准确性;最后,在图上使用简单的连通域搜索并动态剪枝进行聚类.基于实验表明,本文提出的方法有比较好的性能提升,能够提高作者姓名消歧的准确性. 展开更多
关键词 作者 图卷积神经网络 节点嵌入 链路预测 命名实体
下载PDF
基于集成学习的论文作者消歧研究
4
作者 马传香 吕友 《长江信息通信》 2021年第11期23-26,共4页
尽管经过多年研究,论文作者消歧仍未得到完美解决。针对传统方法仅使用某一特征或忽视不同特征的重要性的问题,提出了一种基于集成学习的方法,通过余弦相似度的计算衡量论文之间的相似性,训练出联合分类器,进而完成分类。根据大量有标... 尽管经过多年研究,论文作者消歧仍未得到完美解决。针对传统方法仅使用某一特征或忽视不同特征的重要性的问题,提出了一种基于集成学习的方法,通过余弦相似度的计算衡量论文之间的相似性,训练出联合分类器,进而完成分类。根据大量有标记数据,在实验中优化各个特征的权重。实验结果表明,所提方法达到了93.2%的F1值,比单一使用某一特征或忽视特征权重能达到更好的分类效果,并且在中外作者姓名的消歧上都有较好的表现。 展开更多
关键词 作者 特征提取 TFIDF 集成学习
下载PDF
面向学术文献的作者名消歧方法研究综述 被引量:10
5
作者 沈喆 王毅 +1 位作者 姚毅凡 成颖 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第8期15-27,共13页
【目的】分析并评述面向学术文献的作者名消歧的相关工作,为该领域的后续研究提供借鉴。【文献范围】在Web of Science、谷歌学术、中国知网和万方数据库中检索2016年1月1日至2020年3月28日的相关研究,共选择51篇文献进行综述。【方法... 【目的】分析并评述面向学术文献的作者名消歧的相关工作,为该领域的后续研究提供借鉴。【文献范围】在Web of Science、谷歌学术、中国知网和万方数据库中检索2016年1月1日至2020年3月28日的相关研究,共选择51篇文献进行综述。【方法】以作者名消歧的流程为主线系统梳理各项研究成果,分类总结特征提取、特征表示以及模型训练与预测等主题的研究,并针对研究中的共性问题进行多维度的讨论。【结果】在特征表示方面,相较于2016年之前的研究,基于图、概率和混合模型的方法优化了复杂特征的相似度计算。在模型训练与预测方面,基于机器学习的算法仍需要提高效率与泛化能力,使其能够满足大型数据库和增量消歧的需求。多数研究尚未解决数据中存在的诸如训练数据不均、特征数据缺失、一人多名等问题。【局限】由于各项研究的实证数据差异较大,未能对不同方法进行量化比较。【结论】提出从多源数据融合、用户干预以及预训练模型的引入等视角开展后续研究的思路。 展开更多
关键词 作者 姓名 重名 文献数据库
原文传递
一种面向篇级数据的作者名消歧规则和算法 被引量:10
6
作者 肖晶 梁冰 +1 位作者 张晓丹 吕世炅 《现代图书情报技术》 CSSCI 北大核心 2012年第5期55-59,共5页
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。
关键词 作者 模糊匹配 篇级数据 算法
原文传递
基于规则的机构名规范化研究 被引量:11
7
作者 杨波 杨军威 阎素兰 《现代图书情报技术》 CSSCI 2015年第6期57-63,共7页
【目的】改善基于海量数据的科技评价中的数据可靠性问题,克服相似度匹配或者频率统计方法在机构名称规范化方面存在的缺陷。【方法】提出基于低词面相似度的机构名称映射算法,该算法采用规则和统计相结合的策略实现多个机构名称到一个... 【目的】改善基于海量数据的科技评价中的数据可靠性问题,克服相似度匹配或者频率统计方法在机构名称规范化方面存在的缺陷。【方法】提出基于低词面相似度的机构名称映射算法,该算法采用规则和统计相结合的策略实现多个机构名称到一个机构实体的映射,从而达到机构名规范化的目的。【结果】实验结果表明,基于规则的算法的F值平均为55.50%,高于其他两种技术策略。【局限】对低词面相似度机构名识别存在不足。【结论】在机构名规范方面的综合表现要优于其他两种技术策略,但在检全率方面还需要改进。 展开更多
关键词 机构名规范化 作者 机构名聚类 学术评价
原文传递
基于网络表示学习的作者重名消歧研究 被引量:10
8
作者 余传明 钟韵辞 +1 位作者 林奥琛 安璐 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第2期48-59,共12页
【目的】消除文献系统中的作者重名歧义,以解决其导致的文献错误聚合问题。【方法】通过结构化文献数据建立作者网络、文献网络以及作者-文献网络,融合不同网络表示学习方法获得文献节点表示,并采用无监督学习方法,将文献节点表示作为特... 【目的】消除文献系统中的作者重名歧义,以解决其导致的文献错误聚合问题。【方法】通过结构化文献数据建立作者网络、文献网络以及作者-文献网络,融合不同网络表示学习方法获得文献节点表示,并采用无监督学习方法,将文献节点表示作为特征,使用层次凝聚聚类按照真实作者对文献进行正确划分。【结果】在ArnetMiner、CiteSeerX和DBLP三组数据集上进行实证研究,本文方法在网络稀疏的情况下仍然具有较好的效果,Macro-F1值在次优模型基础上最高提升6%。【局限】仅研究英文情境下的作者重名消歧。【结论】基于网络表示学习的方法能够有效解决作者重名消歧问题,实验结果对于改进科研合作推荐、引文推荐以及知识网络相关研究具有重要意义。 展开更多
关键词 网络表示学习 异构网络 作者重名 无监督学习
原文传递
文献数据库中作者名消歧算法研究 被引量:7
9
作者 郭舒 《现代图书情报技术》 CSSCI 北大核心 2013年第7期69-74,共6页
在深入分析基于图的人名识别框架GHOST的基础上,针对其存在的局限性,结合对文献信息的文本挖掘提出一种更适用于文献数据库的作者名消歧算法,并从中选取标题以及出版物名称这两个特征进行实证研究,该算法在准确率、召回率等指标方面都... 在深入分析基于图的人名识别框架GHOST的基础上,针对其存在的局限性,结合对文献信息的文本挖掘提出一种更适用于文献数据库的作者名消歧算法,并从中选取标题以及出版物名称这两个特征进行实证研究,该算法在准确率、召回率等指标方面都有良好的表现,F1平均值达到84%,具备较好的消歧效果。 展开更多
关键词 作者 GHOST 文本挖掘 算法
原文传递
基于机器学习的论文作者名消歧方法研究 被引量:8
10
作者 邓可君 华凯 +4 位作者 邓昌明 姜宁 袁玲 彭一明 张治坤 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期241-245,共5页
本文提出了一种基于规则匹配和机器学习的论文作者名自动化消歧方法:首先基于人工构建的人名匹配规则确定候选作者,对于存在多个候选人的情况,基于论文的属性信息(例如合作者、标题、摘要、关键词和出版物名称等)提取特征,然后选取合适... 本文提出了一种基于规则匹配和机器学习的论文作者名自动化消歧方法:首先基于人工构建的人名匹配规则确定候选作者,对于存在多个候选人的情况,基于论文的属性信息(例如合作者、标题、摘要、关键词和出版物名称等)提取特征,然后选取合适的机器学习算法进行消歧.实验效果表明K近邻和Softmax分类器较适合于论文作者名消歧任务;此外,将作者信息与论文的其他信息分开提取特征能够有效提高作者名消歧的准确性. 展开更多
关键词 作者 机器学习 文本特征提取
下载PDF
机构知识库作者名自动消歧框架设计与实践 被引量:5
11
作者 张旺强 祝忠明 +2 位作者 李雅梅 卢利农 刘巍 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第6期92-98,共7页
【目的】实现对机构知识库作者名消歧的高度自动化处理,并在适当的时机提供人工介入机制。【方法】分析机构知识库作者名消歧的特殊性与消歧特征项,依此构建机构知识库作者名通用消歧框架并实践部署。【结果】该框架在实际应用中取得良... 【目的】实现对机构知识库作者名消歧的高度自动化处理,并在适当的时机提供人工介入机制。【方法】分析机构知识库作者名消歧的特殊性与消歧特征项,依此构建机构知识库作者名通用消歧框架并实践部署。【结果】该框架在实际应用中取得良好的成效,准确率达到99%以上。【局限】对缺失单位信息的作者名未进行处理;作者别名与机构别名可能存在例外情况。【结论】该框架能够有效地解决机构知识库作者名消歧的难题,在此基础上可构建更多的精准增值服务。 展开更多
关键词 机构知识库 人名 作者 CSpace
原文传递
一种针对已知作者的姓名消歧方法 被引量:6
12
作者 范午攸 《图书馆杂志》 CSSCI 北大核心 2018年第12期56-63,共8页
在外文期刊数据库中,同一姓名简称代表多位作者的现象十分普遍,严重影响作者检索的精度。本次研究将规则与算法相结合,依据规则为分类算法标注训练数据,从而在无监督条件下使用有监督算法,实现作者的精确检索。该算法适用于论文查证等... 在外文期刊数据库中,同一姓名简称代表多位作者的现象十分普遍,严重影响作者检索的精度。本次研究将规则与算法相结合,依据规则为分类算法标注训练数据,从而在无监督条件下使用有监督算法,实现作者的精确检索。该算法适用于论文查证等已知作者身份的姓名消歧问题,相比通用的消歧方法,该方法结合无监督算法无需人工标注的优点,以及有监督算法高效率、易对应实体的优点。实践结果表明,该方法具有较高的准确度。 展开更多
关键词 作者姓名 数据标注 分类算法 朴素贝叶斯
下载PDF
基于先精确后召回策略的作者名消歧模型研究 被引量:2
13
作者 沈喆 王毅 +1 位作者 鞠秀芳 成颖 《情报学报》 CSSCI CSCD 北大核心 2022年第4期350-363,共14页
学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面... 学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。 展开更多
关键词 作者 规则 高层次科研人才 两步法
下载PDF
作者名称增量消歧研究综述 被引量:1
14
作者 曹思萌 李春旺 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第5期10-19,共10页
【目的】总结分析作者名称增量消歧研究进展,为相关研究提供参考。【文献范围】以(“作者”and“名称消歧”)、(“author”and“name disambiguation”)为关键词分别检索谷歌学术、ACM、IEEE、Elsevier、Springer以及知网、维普数据库,... 【目的】总结分析作者名称增量消歧研究进展,为相关研究提供参考。【文献范围】以(“作者”and“名称消歧”)、(“author”and“name disambiguation”)为关键词分别检索谷歌学术、ACM、IEEE、Elsevier、Springer以及知网、维普数据库,经人工筛选、基于种子文献的引文扩展搜索,获取相关文献58篇,其中直接讨论增量消歧的文献30篇、其他相关文献28篇。【方法】梳理增量消歧研究发展过程、技术框架与基本原则,围绕相似度比较策略、作者分配判断方法、需要关注的问题等分析增量消歧研究发展情况。【结果】重视特征选择与表示、相似度计算与作者分配方法的研究,需要加强碎片合并、同一作者多主题识别、错误记录纠正等问题研究。【局限】直接以作者名称增量消歧为研究主题文献数量较少,在支撑综述结果方面存在局限性。【结论】应加强增量消歧研究,将传统特征工程法与深度学习、人工智能技术相结合,注重解决增量消歧实践中的具体问题。 展开更多
关键词 作者名称 增量 相似度
原文传递
学术论文作者同名消歧方法研究进展
15
作者 王新 卢垚 +3 位作者 袁雪 赵婉婧 陈莉 刘敏娟 《农业图书情报学报》 2022年第10期82-90,共9页
[目的/意义]调研近年来作者同名消歧相关研究,厘清发展脉络,为后续研究提供参考。[方法/过程]使用Web of Science、Scopus、谷歌学术、ACM、IEEE、Elsevier、Springer、中国知网、维普数据库和万方数据库检索作者姓名消歧相关文献,选择... [目的/意义]调研近年来作者同名消歧相关研究,厘清发展脉络,为后续研究提供参考。[方法/过程]使用Web of Science、Scopus、谷歌学术、ACM、IEEE、Elsevier、Springer、中国知网、维普数据库和万方数据库检索作者姓名消歧相关文献,选择其中46篇代表性文献进行综述。从数据对作者同名消歧方法的影响的角度审视、梳理相关研究的发展脉络。[结果/结论]按照消歧任务所依据的数据特点将相关研究方法分为3类。随着技术的进步,深度学习方法得到广泛采用。相对于模型的改进,基于深度学习的特征学习和表示,对作者同名消歧算法效果的提高更为显著,同时,为充分利用数据中包含的各种信息,3类算法呈现出相互结合、互补增益的态势。从文献调研情况看,可以从增量消歧和跨语种消歧等角度开展后续研究。 展开更多
关键词 知识组织 作者 人名
下载PDF
基于网络嵌入模型的DBLP数据库作者消歧
16
作者 朱晨清 刘至渊 +3 位作者 李妍灵 朱临风 刘佳豪 陈伟 《电脑编程技巧与维护》 2022年第1期3-9,44,共8页
DBLP数据库是一个以作者为核心的计算机类英文文献数据库,其中存在着大量的同名作者,为数据库的使用带来了较大的不便。针对DBLP数据库中作者译名的同名问题,以网络嵌入为基础进行作者姓名消歧。提出了以下两种新方法:(1)从文章之间的... DBLP数据库是一个以作者为核心的计算机类英文文献数据库,其中存在着大量的同名作者,为数据库的使用带来了较大的不便。针对DBLP数据库中作者译名的同名问题,以网络嵌入为基础进行作者姓名消歧。提出了以下两种新方法:(1)从文章之间的相似性出发,建立有偏游走序列,在Word2vec模型进行训练后,利用聚类方法对同名作者进行区分。(2)根据文章的属性构建二部图,并基于LINE方法得到每篇文章的特征向量,用机器学习模型区分同名作者。具体来讲,构建多层感知机模型并添加Softmax函数,用以判断输入的两篇文章是否出自同一作者。模型在221位DBLP中同名作者的文献数据集上进行验证,实验结果表明,该方法可以有效地区分DBLP中的同名作者并优于对比方法。 展开更多
关键词 作者姓名 网络嵌入 随机游走 聚类 词嵌入 词向量 机器学习 神经网络 多层感知机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部