-
题名基于可靠词汇语义约束的词语向量表达修正研究
被引量:2
- 1
-
-
作者
梁泳诗
黄沛杰
黄培松
杜泽峰
-
机构
华南农业大学数学与信息学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第1期56-67,共12页
-
基金
国家自然科学基金(71472068)
-
文摘
词语向量表达(word vector representation)是众多自然语言处理(natural language processing,NLP)下游应用的基础。已有研究采用各种词汇分类体系提供的词汇语义约束,对海量语料训练得到的词向量进行修正,改善了词向量的语义表达能力。然而,人工编制或者半自动构建的词汇分类体系普遍存在语义约束可靠性不稳定的问题。该文基于词汇分类体系与词向量之间、以及异构词汇分类体系之间的交互确认,研究适用于词语向量表达修正的可靠词汇语义约束提炼方法。具体上,对于词汇分类体系提供的同义词语类,基于词语向量计算和评估类内词语的可靠性。在其基础上,通过剔除不可靠语义约束机制避免词语类划分潜在不够准确的词语的错误修正;通过不同词汇分类体系的交互确认恢复了部分误剔除的语义约束;并通过核心词约束传递机制避免原始词向量不够可靠的词语在词向量修正中的不良影响。该文采用NLPCC-ICCPOL 2016词语相似度测评比赛中的PKU 500数据集进行测评。在该数据集上,将该文提出的方法提炼的可靠词汇语义约束应用到两个轻量级后修正的研究进展方法,修正后的词向量都获得更好的词语相似度计算性能,取得了0.649 7的Spearman等级相关系数,比NLPCC-ICCPOL 2016词语相似度测评比赛第一名的方法的结果提高25.4%。
-
关键词
词语向量表达修正
可靠词汇语义约束
核心词约束传递
-
Keywords
word vector representation refinement
reliable lexical semantic constraints
transmission mechanism of core words
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-