-
题名基于网络语义标签的多源知识库实体对齐算法
被引量:28
- 1
-
-
作者
王雪鹏
刘康
何世柱
刘树林
张元哲
赵军
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2017年第3期701-711,共11页
-
基金
国家自然科学基金项目(61533018)
国家"九七三"重点基础研究发展规划(2014CB340503)
"CCF-腾讯"犀牛鸟基金资助~~
-
文摘
知识库是多种自然语言处理任务的重要数据资源,但单一知识库覆盖度低,不同知识库异构性强,不利于数据的共享和集成.因此,多源知识库融合技术的研究有着十分重要的意义.其中,多源知识库实体对齐是多源知识库融合技术中的重要组成部分.在语义万维网发展的推动下,国外开展了很多相关工作,大多适用于英文知识库,对于中文知识库的研究较少.出于对中文知识库融合的研究目的,该文提出了一种基于网络语义标签的多源知识库实体对齐算法.该算法综合利用属性标签、类别标签和非结构化文本关键词,对齐中文百科实体.经实验测试,该算法能够较好地解决多源知识库实体对齐问题,算法在近95%的准确率下,仍能保持近55%的较好的召回率,应用于实际系统中,满足了实际的多源知识库实体对齐应用需求.
-
关键词
语义标签
多源知识库
实体对齐
异构
实体歧义
-
Keywords
semantic tags
multi-source knowledge bases
entity alignment
heterogeneous
entity ambiguity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名数字人文视野下的古汉语实体歧义研究
被引量:11
- 2
-
-
作者
刘浏
王东波
黄水清
苏新宁
-
机构
南京农业大学信息管理学院
江苏省数据工程与知识服务重点实验室(南京大学)
南京大学信息管理学院
-
出处
《图书与情报》
CSSCI
北大核心
2020年第5期115-124,共10页
-
基金
国家社科基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号:15ZDB127)
国家自科基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(项目编号:71673143)
江苏省社科基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果之一。
-
文摘
实体知识的自动识别是古文智能处理的重要内容,也是古文数字人文研究的技术支撑。以实体知识为基础的数字人文研究若不考虑古籍中普遍存在的实体歧义,将难以得到准确可靠的数据和结论。文章以《春秋经传引得》为文本语料,考察了语料中同名异指和异名同指两大类人名实体歧义,根据古文实体歧义消解的特殊性,提出两类歧义的消解方法和思路。研究基于实体语境和时间知识,构建了消歧规则并以先秦古汉语为实例进行了验证。上述方法在其他古汉语语料中的适用性值得进一步探究,基于消歧后的语料,文章呈现了先秦人物的基本全貌,表明了本研究的价值所在。
-
关键词
古文信息处理
实体歧义
古文智能处理
古文数字人文
-
Keywords
ancient Chinese information processing
entity ambiguity
intelligent processing
ancient Chinese digital humanities
-
分类号
TP393.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于实体关联的消歧算法研究
被引量:2
- 3
-
-
作者
周国民
宣鑫乐
沈佳琪
陈光宣
-
机构
浙江警察学院
杭州三汇数字信息技术有限公司
杭州电子科技大学
浙江工业大学
-
出处
《中国电子科学研究院学报》
北大核心
2020年第3期271-277,共7页
-
基金
“十三五”国家重点研发计划项目(2017YFC0820503)
NSFC-浙江两化融合联合基金重点支持项目(U1509219)。
-
文摘
随着移动互联网和云储存技术的高速发展,个人行为数据的多源性导致实体关联变得更加复杂。对于实体歧义问题,传统方法是通过文本向量或图节点的相似度计算实现消歧。本文把消歧问题转化成二分类问题,结合信令数据和ID-Mapping算法进行实体关联,依据实体关联的时空位置信息进行特征提取,最后采用机器学习模型进行实体消歧。通过准确率和查全率评估模型性能,实验结果表明模型的准确率最高可达79.01%,模型的查全率最高可达78.18%。
-
关键词
实体关联
实体歧义
特征提取
机器学习
实体消歧
-
Keywords
entity association
entity ambiguity
feature extraction
machine learning
entity disambiguation
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-