-
题名多重检验加权融合的短文本相似度计算方法
被引量:12
- 1
-
-
作者
石彩霞
李书琴
刘斌
-
机构
西北农林科技大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第2期95-102,共8页
-
基金
中国博士后科学基金(2017M613216)
陕西省自然科学基金(2017JM6059)
+1 种基金
陕西省重点研发计划(2019ZDLNY07)
陕西省博士后基金(2016BSHEDZZ121)。
-
文摘
传统相似度计算方法仅考虑文本结构特征或语义信息,从而导致准确率较低。结合短文本特征稀疏的特性,提出一种多重检验加权融合的短文本相似度计算方法 MCWFS。使用基于改进编辑距离、考虑词频、基于Word2vec与LSTM的3种方法分别计算相似度,对满足多重检验标准的文本进行加权因子线性融合,以避免因一种相似度值过大或过小导致加权相似度值异常的问题。在此基础上,通过加权融合计算短文本相似度,使得计算结果更加准确合理。实验结果表明,相比层层检验和无检验融合方法,MCWFS方法的平均准确率分别提高16.01%和7.39%,且其F1值可达70.21%。
-
关键词
短文本相似度
多重检验加权融合
编辑距离
语义信息
词频
-
Keywords
short text similarity
multi-check weighted fusion
edit distance
semantic information
word frequency
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-