期刊文献+

向量模型和多源词汇分类体系相结合的词语相似性计算 被引量:3

Word Similarity Computing by Integrating Vector-based Models with Multiple Lexical Taxonomies
下载PDF
导出
摘要 现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计算方法,采用多源词汇分类体系的近义词关系以及向量模型得到的词向量,计算得到词语的向量表达,并探索了不同类型词汇分类体系提供的知识的选用和融合问题,弥补了单一词向量和单一词汇分类体系在词语相似性计算中的缺点。该文采用了NLPCC-ICCPOL 2016词语相似度评测比赛中的PKU 500数据集进行评测。在该数据集上,该文的方法取得了0.637的斯皮尔曼等级相关系数,比NLPCC-ICCPOL 2016词语相似度评测比赛第一名的方法的结果提高了23%。 Current semantic similarity computing can be classified as either vector-based or lexical taxonomy based approach.This paper proposes a method of semantic similarity by linking vector model to multi-source lexical taxonomies.In this method,vector representation of a word is calculated through distributed representation from vectorsbased models,and synonym relations are derived from multi-source lexical resource.Furthermore,this paper explores the way to select and fusion the knowledge from multiple lexical taxonomies.The combination strategy can alleviate the defects the two classical method.We experiment on PKU 500,the dataset of the NLPCC-ICCPOL 2016 shared task on Chinese word similarity measurement.Our method achieves a Spearman score 0.637,i.e.23%improvement comparing to the best result in the shared task.
作者 梁泳诗 黄沛杰 岑洪杰 唐杰聪 王俊东 LIANG Yongshi;HUANG Peijie;CEN Hongjie;TANG Jiecong;WANG Jundong(College of Mathematic and Informatics, South China Agricultural University, Guangzhou, Guangdong 510642, China)
出处 《中文信息学报》 CSCD 北大核心 2018年第4期31-39,共9页 Journal of Chinese Information Processing
基金 国家自然科学基金(71472068)
关键词 词语相似性 向量模型 词汇分类体系 组合方法 多源融合 word similarity vector-based model lexical taxonomy combinational method multi-source fusion
  • 相关文献

参考文献3

二级参考文献15

  • 1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量:218
  • 2余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量:25
  • 3程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报(自然科学版),2007,25(2):145-148. 被引量:11
  • 4关毅,王晓龙.基于统计的汉语词汇间语义相似度计算[C]//全国第七届计算语言学联合学术会议论文集,哈尔滨,2003:221-227. 被引量:5
  • 5YU Sheng-quan,HE Ke-kang.The Research of Adaptive Learning System Based on Internet[C] ∥The Third Global Chinese Computer Application Conference Analects.Macao,China:Macao University Press,1999:34-40. 被引量:1
  • 6梅家驹,竺一鸣,高蕴琦,等.同义词词林[M].上海:上海辞书出版社,1993:106-108. 被引量:12
  • 7刘群,李素建.基于"知网"的词汇语义相似度计算[C] ∥计算语言学与中文语言处理--第三届汉语词汇语义学研讨会论文集.台北:台北市中研院语言学研究所,2002:59-76. 被引量:3
  • 8刘群 李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002.. 被引量:14
  • 9Eneko Agirre, German Rigau. A Proposal for Word Sense Disambiguation using Conceptual Distance [A].In: Proceedings of the First International Conference on Recent Advanced in NLP [C]. 1995. 被引量:1
  • 10Dekang Lin. An Information-Theoretic Definition of Similarity Semantic distance in WordNet [A]. In:Proceedings of the Fifteenth International Conference on Machine Learning [C]. 1998. 被引量:1

共引文献276

同被引文献45

引证文献3

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部