向量模型和多源词汇分类体系相结合的词语相似性计算被引量：3

Word Similarity Computing by Integrating Vector-based Models with Multiple Lexical Taxonomies

下载PDF

导出

摘要现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计算方法,采用多源词汇分类体系的近义词关系以及向量模型得到的词向量,计算得到词语的向量表达,并探索了不同类型词汇分类体系提供的知识的选用和融合问题,弥补了单一词向量和单一词汇分类体系在词语相似性计算中的缺点。该文采用了NLPCC-ICCPOL 2016词语相似度评测比赛中的PKU 500数据集进行评测。在该数据集上,该文的方法取得了0.637的斯皮尔曼等级相关系数,比NLPCC-ICCPOL 2016词语相似度评测比赛第一名的方法的结果提高了23%。 Current semantic similarity computing can be classified as either vector-based or lexical taxonomy based approach.This paper proposes a method of semantic similarity by linking vector model to multi-source lexical taxonomies.In this method,vector representation of a word is calculated through distributed representation from vectorsbased models,and synonym relations are derived from multi-source lexical resource.Furthermore,this paper explores the way to select and fusion the knowledge from multiple lexical taxonomies.The combination strategy can alleviate the defects the two classical method.We experiment on PKU 500,the dataset of the NLPCC-ICCPOL 2016 shared task on Chinese word similarity measurement.Our method achieves a Spearman score 0.637,i.e.23%improvement comparing to the best result in the shared task.

作者梁泳诗黄沛杰岑洪杰唐杰聪王俊东 LIANG Yongshi;HUANG Peijie;CEN Hongjie;TANG Jiecong;WANG Jundong(College of Mathematic and Informatics, South China Agricultural University, Guangzhou, Guangdong 510642, China)

机构地区华南农业大学数学与信息学院

出处《中文信息学报》 CSCD 北大核心 2018年第4期31-39,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(71472068)

关键词词语相似性向量模型词汇分类体系组合方法多源融合 word similarity vector-based model lexical taxonomy combinational method multi-source fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
2梅家驹著..同义词词林[M].上海:上海辞书出版社,1983:762.
3田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178

二级参考文献15

1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
2余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
3程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
4关毅,王晓龙.基于统计的汉语词汇间语义相似度计算[C]//全国第七届计算语言学联合学术会议论文集,哈尔滨,2003:221-227. 被引量：5
5YU Sheng-quan,HE Ke-kang.The Research of Adaptive Learning System Based on Internet[C] ∥The Third Global Chinese Computer Application Conference Analects.Macao,China:Macao University Press,1999:34-40. 被引量：1
6梅家驹,竺一鸣,高蕴琦,等.同义词词林[M].上海:上海辞书出版社,1993:106-108. 被引量：12
7刘群,李素建.基于"知网"的词汇语义相似度计算[C] ∥计算语言学与中文语言处理--第三届汉语词汇语义学研讨会论文集.台北:台北市中研院语言学研究所,2002:59-76. 被引量：3
8刘群李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002.. 被引量：14
9Eneko Agirre, German Rigau. A Proposal for Word Sense Disambiguation using Conceptual Distance [A].In: Proceedings of the First International Conference on Recent Advanced in NLP [C]. 1995. 被引量：1
10Dekang Lin. An Information-Theoretic Definition of Similarity Semantic distance in WordNet [A]. In:Proceedings of the Fifteenth International Conference on Machine Learning [C]. 1998. 被引量：1

共引文献276

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
4马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
5吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
6左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
7张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
8曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
9伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
10刘卫红.基于非功能语义的语义Web服务匹配方法研究[J].微型电脑应用,2008,24(7):20-22.

同被引文献45

1陈光华,王烨,杨国梁.地理距离阻碍跨区域产学研合作绩效了吗?[J].科学学研究,2015,33(1):76-82. 被引量：42
2李晓光,于戈,王大玲.基于混合语言模型的文档相似性计算模型[J].中文信息学报,2006,20(4):41-48. 被引量：2
3王宝勋,王晓龙,刘秉权,李鹏.一种基于无监督学习的词变体识别方法[J].中文信息学报,2008,22(3):32-36. 被引量：3
4梁立明,沙德春.985高校校际科学合作的强地域倾向[J].科学学与科学技术管理,2008,29(11):112-116. 被引量：48
5李波,高文君,邱锡鹏.基于语法分析和统计方法的答案排序模型[J].中文信息学报,2009,23(2):23-27. 被引量：6
6苏娜.基于共词分析的数字图书馆领域研究主题及进展分析[J].情报杂志,2009,28(6):15-19. 被引量：31
7喻昕.技术市场信息不对称问题研究[J].情报科学,2011,29(4):515-519. 被引量：11
8裘国永,王娜,汪万紫.基于互信息和遗传算法的两阶段特征选择方法[J].计算机应用研究,2012,29(8):2903-2905. 被引量：14
9吕立辉,梁维薇,冉蜀阳.基于词林的词语相似度的度量[J].现代计算机,2013(1):3-6. 被引量：15
10王石,曹存根,裴亚军,夏飞.一种基于搭配的中文词汇语义相似度计算方法[J].中文信息学报,2013,27(1):7-14. 被引量：13

引证文献3

1何喜军,马珊,武玉英,蒋国瑞.多特征融合下在线技术转移平台供需匹配研究——以京津冀区域数据为例[J].情报杂志,2019,38(6):174-181. 被引量：8
2牛奉高,赵霞,徐倩丽.基于点互信息语义相似性的向量空间模型[J].山西大学学报（自然科学版）,2021,44(2):220-228. 被引量：1
3钱亚冠,方科彬,康明,顾钊铨,潘俊,王滨,Wassim Swaileh.一种应用于文本分类的段落向量正向激励方法[J].中文信息学报,2023,37(7):51-60.

二级引证文献9

1余辉,梁镇涛,谢豪.在线技术供需文本匹配方法研究综述[J].情报科学,2021,39(7):177-185. 被引量：7
2梁玲玲,石家宇,路玉莹.技术中介在技术转移链条中的价值创造及能力提升[J].中国高校科技,2021(7):93-96. 被引量：3
3李纲,余辉,毛进.基于多层语义相似的技术供需文本匹配模型研究[J].数据分析与知识发现,2021,5(12):25-36. 被引量：10
4浮肖肖.用户画像方法在技术转移精准服务中的应用探究[J].内蒙古科技与经济,2022(2):24-26. 被引量：1
5陈广银,朱奕,陆伟清.向量检索方法在污染源溯源中的应用[J].污染防治技术,2022,35(1):74-76.
6田俊鹏,李晓戈,马鲜艳.多属性推荐算法在企业研发服务系统中的应用[J].小型微型计算机系统,2023,44(1):8-13. 被引量：2
7何喜军,张佑,孟雪,武玉英.专利供需知识图谱半自动化构建及应用[J].情报杂志,2023,42(3):139-150. 被引量：2
8豆洪青,张圆,李明,林宏权.技术转移对接信息传递模式研究[J].中国发明与专利,2024,21(3):62-68.
9谢科范,尹明月,刘然,梁本部.数智时代科技成果供需对接机制[J].科技管理研究,2024,44(7):87-95.

1宋建华.从英语词汇分类看英语词汇记忆方法[J].学园,2017,0(15):34-34.
2王晓红,王禹琛,肖颖,衣浛樟.无参考混合失真图像质量评价方法[J].包装工程,2017,38(19):199-205. 被引量：1
3郭志良.知识经济时代高校发展继续教育的优势、问题和对策[J].知识经济,2018(10):116-117.
4高恒菊.英法词汇分类法在大学法语学习中的应用[J].农家参谋,2017(10Z):108-108.
5白学军.园林安全管理初研[J].花卉,2018,0(4):57-59.
6李倩,赵路清,胡风云.脑白质疏松症患者认知功能损害的特点及其静息态功能磁共振观察[J].中华医学杂志,2017,97(45):3529-3533. 被引量：17
7何浪,赵路清,邵宏元,乔美玲,李倩.脑白质疏松症患者早期认知功能损害与弥散张量成像的相关性研究[J].中华神经医学杂志,2017,16(12):1235-1241. 被引量：14
8马阿曼.局部阴影条件下按梯度直方图的模糊相关图像检索[J].科学技术与工程,2017,17(36):90-95.
9杜涛,冉伦,李金林,张建洁.基于DEA-DP组合方法的组织效率评价及资源配置——以首都医科大学附属医院为例[J].系统工程,2017,35(12):131-140. 被引量：6
10储志明.基于生命周期的研发投入与企业绩效的关系研究[J].经营与管理,2018(6):42-45. 被引量：1

中文信息学报

2018年第4期

浏览历史

内容加载中请稍等...

向量模型和多源词汇分类体系相结合的词语相似性计算被引量：3

参考文献3

二级参考文献15

共引文献276

同被引文献45

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

向量模型和多源词汇分类体系相结合的词语相似性计算 被引量：3

参考文献3

二级参考文献15

共引文献276

同被引文献45

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

向量模型和多源词汇分类体系相结合的词语相似性计算被引量：3