基于汉明距离的文本相似度计算被引量：58

Text Similarity Computing Based on Hamming Distance

下载PDF

导出

摘要传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。 In the process of information retrieval(IR),the traditional method is to compute the similarity between the tests and the queries.There are several IR models,such as reverse document model,vector space model,and latent semantic model and so on.We base on the theory of Hamming distance,to construct the new formula to compute the similarity of the different tests and the queries,we compare this new method with the others,It has some advantages over the others.

作者张焕炯王国胜钟义信

机构地区北京邮电大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2001年第19期21-22,共2页 Computer Engineering and Applications

基金国家自然科学基金资助项目(编号:69982001)

关键词 INTERNET 汉明距离文本相似度信息检索信息论 Tests classification,Information retrieval,Hamming distance

分类号 TP393.4 [自动化与计算机技术—计算机应用技术] G354.4 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献3

1周荫清主编..信息理论基础[M].北京:北京航空航天大学出版社,1993:384.
2潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
3周荫清，信息理论基础M，1993年被引量：1

二级参考文献3

1史忠植，高级人工智能，1997年被引量：1
2Wong S K M，Proc 8th Annual ACMSIGIR Int Conf Research and Development in Information Retrieval，1985年，18页被引量：1
3冯嘉礼,董占球.基于属性整合的知觉模式生成与识别模型[J].计算机研究与发展,1997,34(7):481-486. 被引量：30

共引文献62

1彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
3王浩鸣,张曰贤,吴志军,史西兵.基于智能Agent的中文元搜索引擎模型研究[J].计算机工程与应用,2005,41(31):154-156. 被引量：6
4周如旗.个性化远程学习的形式化建模方法研究[J].广东教育学院学报,2005,25(5):99-102.
5李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
6许维.企业EPR实施分析与企业流程重组[J].合作经济与科技,2006(08S):30-31. 被引量：1
7于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
8程玉柱,邬书跃.基于部件的文本相似度计算[J].计算机工程与设计,2006,27(18):3444-3446. 被引量：4
9黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67
10易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7

同被引文献440

1沈沉,贾孟硕,陈颖,黄少伟,向月.能源互联网数字孪生及其应用[J].全球能源互联网,2020,3(1):1-13. 被引量：72
2张括嘉,张云洲,吕光浩,龚益群.基于局部语义拓扑图的视觉SLAM闭环检测[J].机器人,2019,41(5):649-659. 被引量：15
3张华锋.基于双向混合推理机的知识库系统[J].微计算机信息,2008,24(11):235-236. 被引量：4
4张烈材.特斯尼埃的《结构句法基础》简介[J].当代语言学,1985(2):19-21. 被引量：12
5张连生.藏文号码代字及其计算机排索[J].语言研究,1983,3(2):35-40. 被引量：2
6彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
7才华.藏文组字部件的自动识别与字排序研究[J].西藏大学学报（社会科学版）,2014,29(5):81-86. 被引量：1
8赵亮,楼向英,张春景,刘炜.元数据应用:语义、结构与句法[J].图书馆杂志,2004,23(7):49-55. 被引量：9
9高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
10晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26

引证文献58

1晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
2周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.
3于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
4易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
5颜端武,成晓,甘利人.基于领域本体和概念向量的中文文本相似性测度研究[J].中国图书馆学报,2007,33(6):51-57. 被引量：5
6徐旭,平西建,张涛,王国新.基于汉明距离统计的隐写分析算法[J].信息工程大学学报,2008,9(1):27-30. 被引量：2
7郭武斌,周宽久,苏振魁.基于词序方法的文本相似度计算模型[J].情报学报,2008,27(6):857-862. 被引量：7
8游福成.一种基于反馈机制的Web文本挖掘分类算法[J].北京印刷学院学报,2009,17(2):52-54.
9潘国清.一种向量空间模型中对特征项的改进方法及应用[J].湖南工程学院学报（自然科学版）,2009,19(2):38-41. 被引量：2
10金希茜,孟志青.中文文本相似度在商业网络中的应用[J].商场现代化,2009(29):38-39.

二级引证文献359

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228.
2陈昌川,全锐杨,张谦,夏佩敏,乔飞.基于轻量化智能的多机协同SLAM系统[J].仪器仪表学报,2022,43(12):188-198. 被引量：3
3龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
4严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
5周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
6熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
7吴岩,李海川,宋超凡,杨嘉伟,肖永兵,林俊杰,邓凡锋.天然气能量计量关键技术的探讨[J].中国测试,2023,49(S01):18-23.
8赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
9吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
10杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：6

1张焕炯,李玉鉴,钟义信.文本相似度计算的一种新方法[J].计算机科学,2002,29(7):92-93. 被引量：6
2王军辉,胡铁军,李丹亚.相关文献检索研究综述[J].现代图书情报技术,2011(1):39-45. 被引量：2
3唐凌志.论文相似度研究的背景及综述[J].金卡工程（经济与法）,2011,15(6X):365-365.
4编读往来[J].幸福（上）,2016,0(10):72-72.
5刘莉娜.崔益军:照相,也是人生的采访[J].上海采风,2013(2):60-63.
6仲利民.谁还有时间写作[J].法制博览（名家讲坛、经典杂文）,2009(8):60-60.
7李广原.属性论在文本相似度计算中的应用[J].广西师院学报（自然科学版）,2000,17(3):50-53. 被引量：2
8潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
9王珩.迷茫的“码字工人”[J].管理@人,2005(10):61-62.
10夏火松,刘建.文本相似度视角下的虚拟社区评论的可信性分析[J].现代情报,2011,31(9):33-37. 被引量：4

计算机工程与应用

2001年第19期

浏览历史

内容加载中请稍等...

基于汉明距离的文本相似度计算被引量：58

参考文献3

二级参考文献3

共引文献62

同被引文献440

引证文献58

二级引证文献359

相关作者

相关机构

相关主题

浏览历史

基于汉明距离的文本相似度计算 被引量：58

参考文献3

二级参考文献3

共引文献62

同被引文献440

引证文献58

二级引证文献359

相关作者

相关机构

相关主题

浏览历史

基于汉明距离的文本相似度计算被引量：58