摘要
现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计算方法,采用多源词汇分类体系的近义词关系以及向量模型得到的词向量,计算得到词语的向量表达,并探索了不同类型词汇分类体系提供的知识的选用和融合问题,弥补了单一词向量和单一词汇分类体系在词语相似性计算中的缺点。该文采用了NLPCC-ICCPOL 2016词语相似度评测比赛中的PKU 500数据集进行评测。在该数据集上,该文的方法取得了0.637的斯皮尔曼等级相关系数,比NLPCC-ICCPOL 2016词语相似度评测比赛第一名的方法的结果提高了23%。
Current semantic similarity computing can be classified as either vector-based or lexical taxonomy based approach.This paper proposes a method of semantic similarity by linking vector model to multi-source lexical taxonomies.In this method,vector representation of a word is calculated through distributed representation from vectorsbased models,and synonym relations are derived from multi-source lexical resource.Furthermore,this paper explores the way to select and fusion the knowledge from multiple lexical taxonomies.The combination strategy can alleviate the defects the two classical method.We experiment on PKU 500,the dataset of the NLPCC-ICCPOL 2016 shared task on Chinese word similarity measurement.Our method achieves a Spearman score 0.637,i.e.23%improvement comparing to the best result in the shared task.
作者
梁泳诗
黄沛杰
岑洪杰
唐杰聪
王俊东
LIANG Yongshi;HUANG Peijie;CEN Hongjie;TANG Jiecong;WANG Jundong(College of Mathematic and Informatics, South China Agricultural University, Guangzhou, Guangdong 510642, China)
出处
《中文信息学报》
CSCD
北大核心
2018年第4期31-39,共9页
Journal of Chinese Information Processing
基金
国家自然科学基金(71472068)
关键词
词语相似性
向量模型
词汇分类体系
组合方法
多源融合
word similarity
vector-based model
lexical taxonomy
combinational method
multi-source fusion