期刊文献+

基于汉明距离的文本相似度计算 被引量:58

Text Similarity Computing Based on Hamming Distance
下载PDF
导出
摘要 传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。 In the process of information retrieval(IR),the traditional method is to compute the similarity between the tests and the queries.There are several IR models,such as reverse document model,vector space model,and latent semantic model and so on.We base on the theory of Hamming distance,to construct the new formula to compute the similarity of the different tests and the queries,we compare this new method with the others,It has some advantages over the others.
出处 《计算机工程与应用》 CSCD 北大核心 2001年第19期21-22,共2页 Computer Engineering and Applications
基金 国家自然科学基金资助项目(编号:69982001)
关键词 INTERNET 汉明距离 文本相似度 信息检索 信息论 Tests classification,Information retrieval,Hamming distance
  • 相关文献

参考文献3

二级参考文献3

共引文献62

同被引文献440

引证文献58

二级引证文献359

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部