知识图谱嵌入表示模型将实体与关系转化为低维的向量表示,来表达实体与关系之间的关联语义,是解决知识图谱补全问题的重要方法。传统模型采用随机负采样来构造负例三元组,容易产生低质量负样本,影响表示模型的特征学习能力。基于相似性...知识图谱嵌入表示模型将实体与关系转化为低维的向量表示,来表达实体与关系之间的关联语义,是解决知识图谱补全问题的重要方法。传统模型采用随机负采样来构造负例三元组,容易产生低质量负样本,影响表示模型的特征学习能力。基于相似性的负采样方法,对实体点进行聚类,提高了负采样的质量。但针对知识图谱中的稀疏点,因无法控制聚类点数量,导致模型性能降低。经过对相似性负采样和样本点稀疏问题的研究,采用基于密度的聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)对聚类中的样本进行头尾实体的替换,并对DBSCAN中的领域聚类半径采取了自适应优化,找到合适的聚类中心,降低离群点的数量。同时对于聚类外的离群点进行过采样,构造离群点的相似点,解决稀疏点负采样的问题。最后,将该负采样方法与TransE结合,得到了混合负采样模型TransE-DNS。研究结果表明:TransE-DNS在链路预测和三元组分类任务上取得了更好的效果。展开更多
文摘知识图谱嵌入表示模型将实体与关系转化为低维的向量表示,来表达实体与关系之间的关联语义,是解决知识图谱补全问题的重要方法。传统模型采用随机负采样来构造负例三元组,容易产生低质量负样本,影响表示模型的特征学习能力。基于相似性的负采样方法,对实体点进行聚类,提高了负采样的质量。但针对知识图谱中的稀疏点,因无法控制聚类点数量,导致模型性能降低。经过对相似性负采样和样本点稀疏问题的研究,采用基于密度的聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)对聚类中的样本进行头尾实体的替换,并对DBSCAN中的领域聚类半径采取了自适应优化,找到合适的聚类中心,降低离群点的数量。同时对于聚类外的离群点进行过采样,构造离群点的相似点,解决稀疏点负采样的问题。最后,将该负采样方法与TransE结合,得到了混合负采样模型TransE-DNS。研究结果表明:TransE-DNS在链路预测和三元组分类任务上取得了更好的效果。