-
题名一种改进的基于《知网》的词语语义相似度计算
被引量:109
- 1
-
-
作者
江敏
肖诗斌
王弘蔚
施水才
-
机构
北京信息科技大学中文信息处理研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期84-89,共6页
-
基金
国家863计划重点资助项目(2006AA010105)
国家自然科学基金资助项目(60772081)
+1 种基金
北京市属市管高校人才强教计划项目(PXM2007_014224_044677,PXM2007_014224_044676)
北京市教委科技发展计划项目(KM200710772010)
-
文摘
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
-
关键词
计算机应用
中文信息处理
知网
词语相似度
义原
词语极性识别
-
Keywords
computer application
Chinese information processing
HowNet
word similarity
sememe
word polarity recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-