题名 利用优化的DBSCAN算法进行文献著者人名消歧
被引量:10
1
作者
任景华
机构
武汉大学新闻与传播学院
昌吉学院中文系
出处
《图书馆理论与实践》
CSSCI
北大核心
2014年第12期61-65,共5页
文摘
通过对文本聚类算法DBSCAN算法优化对文献著者人名进行消歧,结果表明,相对标准文本聚类算法来说,优化后的算法能取得更好的人名消歧效果。
关键词
人名 歧 义
人名 消 歧
DB-SCAN
文献著者
分类号
G250.74
[文化科学—图书馆学]
题名 ORCID在机构知识库中的整合介绍
被引量:6
2
作者
白海燕
机构
中国科学技术信息研究所
出处
《现代图书情报技术》
CSSCI
2015年第3期8-17,共10页
文摘
【目的】了解ORCID在IR中的整合现状、整合实践以及实现的技术方法。【方法】对IR整合ORCID的实践进行文献追踪和案例分析;对IR通用平台开源软件的整合功能进行技术分析。【结果】得到IR整合ORCID的发展策略和推进机制、整合实现的技术框架以及应用场景、嵌入流程、技术开发等多方面的示范和最佳实践。【结论】国内IR应参照先进经验和自身需求,按规范控制、业务流嵌入以及数据的简单复用等不同方向设计与实现ORCID整合应用。
关键词
ORCID
机构知识库
名称规范
人名 消 歧
Keywords
ORCID
Institutional Repository
Name authority
Name disambiguation
分类号
G250.74
[文化科学—图书馆学]
题名 多特征融合的英文科技文献增量式人名消歧应用研究
被引量:3
3
作者
阮光册
涂世文
田欣
张莉
机构
华东师范大学经济与管理学部信息管理系
上海科技发展有限公司
出处
《情报杂志》
CSSCI
北大核心
2021年第9期147-153,共7页
基金
上海市经信委项目“上海人工智能公共研发资源图谱”(编码:XX-RGZN-01-19-5037)。
文摘
[目的/意义]英文作者重名现象十分普遍,为解决科技文献增量式人名消歧问题,以提高学术检索平台作者检索的精度。[方法/过程]提出一种融合文献外部基本特征和内部语义特征的人名消歧方法,解决新增英文学术文献作者归属的问题。首先,提取学术文献中人名消歧所需的元数据字段,采用BERT模型对元数据中包含语义信息的文本内容进行向量表示;随后,将融合多特征的数据输入XGBoost,完成机器学习;最后,用学习好的模型实现新增文献的作者分配。[结果/结论]通过实验对比,该方法表现出较好的效果,F1取得了95.6%的分值。
关键词
人名 消 歧
科技文献
多特征融合
BERT
XGBoost
Keywords
person name disambiguation
technological literature
Multi feature fusion
BERT
XGBoost
分类号
G250
[文化科学—图书馆学]
题名 基于专利发明人人名消歧的研发团队识别研究
被引量:3
4
作者
张静
张志强
赵亚娟
机构
中国科学院文献情报中心
中国科学院大学
中国科学院档案馆
中国科学院成都文献情报中心
出处
《知识管理论坛》
2016年第3期217-225,共9页
文摘
[目的/意义]技术研发的核心是人才。研发团队是各领域技术发展的重点关注对象,也是机构研发实力的重要体现。[方法/过程]以德温特创新索引(DII)专利文献为分析对象,明确发明人人名消歧规则,利用发明人共现聚类确定主要研发团队,然后以3D打印的数字光处理相关专利来进行人名消歧后研发团队识别的实证分析。[结果/结论]证明专利发明人人名消歧有利于发明人专利数量的准确分析。
关键词
专利
发明人
研发团队识别
人名 消 歧
Keywords
patents
inventors
identification of R&D teams
disambiguation of names
分类号
G306
[文化科学]
G353.1
题名 学术论文作者同名消歧方法研究进展
5
作者
王新
卢垚
袁雪
赵婉婧
陈莉
刘敏娟
机构
中国农业科学院农业信息研究所
出处
《农业图书情报学报》
2022年第10期82-90,共9页
基金
中国农业科学院农业信息研究所2022年科技创新工程“数字农科院3.0建设”(CAAS-ASTIP-2016-AII)。
文摘
[目的/意义]调研近年来作者同名消歧相关研究,厘清发展脉络,为后续研究提供参考。[方法/过程]使用Web of Science、Scopus、谷歌学术、ACM、IEEE、Elsevier、Springer、中国知网、维普数据库和万方数据库检索作者姓名消歧相关文献,选择其中46篇代表性文献进行综述。从数据对作者同名消歧方法的影响的角度审视、梳理相关研究的发展脉络。[结果/结论]按照消歧任务所依据的数据特点将相关研究方法分为3类。随着技术的进步,深度学习方法得到广泛采用。相对于模型的改进,基于深度学习的特征学习和表示,对作者同名消歧算法效果的提高更为显著,同时,为充分利用数据中包含的各种信息,3类算法呈现出相互结合、互补增益的态势。从文献调研情况看,可以从增量消歧和跨语种消歧等角度开展后续研究。
关键词
知识组织
作者名消 歧
人名 消 歧
Keywords
knowledge organization
author name disambiguation
person name disambiguation
分类号
G353.1
[文化科学—情报学]
题名 基于人名消歧的自引统计研究
被引量:1
6
作者
尹相权
曾姗
糜凯
机构
北京师范大学图书馆
出处
《情报探索》
2015年第5期57-59,67,共4页
文摘
为解决中文检索系统中重名问题带来的自引统计不准确问题,设计了一种基于规则的人名消歧算法,包括作者机构、作者名、学科分类和来源期刊规则,以实现人名消歧,进而辅助自引统计。实验表明,对比基于KMeans的聚类算法,基于规则的人名消歧算法较为有效,综合测评指标F值最高达到0.87,可供自引统计模块使用。
关键词
自引统计
人名 消 歧
聚类
规则
Keywords
self-citation statistics
personal name disambiguation
cluster
rule
分类号
G252.7
[文化科学—图书馆学]
题名 个人名称规范维护新方法探析
被引量:1
7
作者
郝嘉树
机构
国家图书馆
出处
《图书馆建设》
CSSCI
北大核心
2016年第2期53-57,共5页
文摘
我国采用自上而下、人工操作和封闭的模式影响名称规范的维护能力、效率及规范控制效果。基于著者交互的自规范、自动人名消歧和开放关联数据的个人名称规范维护方法,借鉴了文献数据库系统中的著者唯一标识、机器学习领域的自动身份辨识和有效信息源获取,可改变我国个人名称规范数量少、覆盖范围受限和数据质量不高的现状,解决当前名称规范模式维护能力差、效率低下和无法与外界互操作等问题,真正发挥出名称规范控制应有的功能及效果。
关键词
个人名 称规范维护
自规范
自动 人名 消 歧
开放关联数据
MARC格式
Keywords
Personal name authority maintenance
Self-authority
Automatic author name disambiguation
Open linked data
Non-MARC
分类号
G254
[文化科学—图书馆学]
题名 基于科研人员本体的知识产出自动获取方法与技术研究
被引量:2
8
作者
卢利农
祝忠明
张旺强
李慧佳
机构
中国科学院国家科学图书馆兰州分馆/中国科学院资源环境科学信息中心
出处
《图书与情报》
CSSCI
北大核心
2014年第1期89-95,共7页
基金
中国科学院国家科学图书馆青年人才前沿领域基金项目"基于科研人员本体的学术产出自动获取方法与技术研究"(项目编号:Y200091001)
中国科学院国家科学图书馆兰州分馆业务发展领域前沿扫描项目"知识资源语言化组织
技术集成与开放服务的趋势扫描"(项目编号:1500013004)研究成果之一
文摘
集成第三方系统中已有的知识产出元数据是机构知识库内容建设的重要途径。文章分析了常见的知识资源管理系统中元数据共享方式,并确定了三种内容采集策略。对采集到的知识产出元数据,结合科研人员本体等语义网技术尝试解决作者同名问题。最后,系统使用WOS提供的元数据共享接口,对整体方案进行了检验。测试结果表明基于科研人员本体的知识产出自动获取方法能够最大可能地从多种类型的资源管理系统中获取知识产出元数据,基于科研人员本体的作者唯一辨识也较好地解决了作者重名问题。
关键词
自动 获取
人名 消 歧
科研人员本体
语义网
Keywords
automatic acquisition
author disambiguation
researcher ontology
semantic web
分类号
G252
[文化科学—图书馆学]
G255.76