一种基于字符对比的文本相似度计算方法被引量：1

Text similarity calculation method based on character comparison

下载PDF

导出

摘要为解决包含重复字符的文本相似度计算问题,提出了一种新的计算方法来获取两文本之间的相似度。首先根据单字符的对比情况统计重复字符数量;其次通过分析总的对比结果剔除重复字符的干扰;然后借助公式计算出正确的文本相似度,并拓展单字节字符和多字节字符混合时的相似度计算方法;最后编写算法代码来进行仿真分析,多组测试结果表明,用该方法计算得到的文本相似度与理论值相吻合。 In order to solve the problem of text similarity calculation with repeated characters,a new method is proposed to obtain the similarity between two texts.First,the number of repeated characters is counted according to the comparison of single characters.Then,the interference of repeated characters is eliminated by analyzing the total comparison results.And then,the correct text similarity is calculated by the formula,and the similarity calculation method of single-byte characters and multi-byte characters mixed is expanded.Finally,the algorithm code is compiled for simulation analysis,and several groups of test results show that the text similarity calculated by this method is consistent with the theoretical value.

作者汪亚东 Wang Yadong(School of Instrument and Electronics,North University of China,Taiyuan,Shanxi 030051,China)

机构地区中北大学仪器与电子学院

出处《计算机时代》 2023年第6期87-91,共5页 Computer Era

关键词自然语言处理文本相似度重复字符计算算法 natural language processing text similarity repeated character computing algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1自然语言处理研究前沿[J].中文信息学报,2022,36(1). 被引量：2
2徐琴,冯志伟.关于自然语言处理的对话——冯志伟教授访谈录[J].现代语文,2022(6):4-12. 被引量：1
3宋一凡.自然语言处理的发展历史与现状[J].中国高新科技,2019(3):64-66. 被引量：7
4王海宁.自然语言处理技术发展[J].中兴通讯技术,2022,28(2):59-64. 被引量：22
5车万翔,张伟男.人机对话系统综述[J].人工智能,2018,0(1):76-82. 被引量：11
6冯志伟.自然语言处理的历史与现状[J].中国外语,2008,5(1):14-22. 被引量：17
7刘娇,李艳玲,林民.人机对话系统中意图识别方法综述[J].计算机工程与应用,2019,55(12):1-7. 被引量：27
8韩程程,李磊,刘婷婷,高明.语义文本相似度计算方法[J].华东师范大学学报（自然科学版）,2020(5):95-112. 被引量：33
9董星彤,陈士宏,陈淑鑫.自然语言处理文本查重优化算法设计[J].科学技术与工程,2022,22(3):1091-1097. 被引量：9
10陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：77

二级参考文献71

1赵园丁.浅谈人工智能时代背景下自然语言处理技术的发展应用[J].办公自动化,2019,24(10):63-64. 被引量：6
2董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
3冯志伟.自然语言处理中的歧义消解方法[J].语言文字应用,1996(1):55-60. 被引量：25
4车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
5冯志伟.当前自然语言处理发展的几个特点[J].暨南大学华文学院学报,2006(1):34-40. 被引量：15
6王挺,麦范金,刘忠.自然语言处理及其应用前景的研究[J].桂林航天工业高等专科学校学报,2006,11(4):19-21. 被引量：12
7秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
8李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
9蒋东兴,郭大勇,罗念龙,刘启新.清华大学新一代数字校园建设规划与实践[J].厦门大学学报（自然科学版）,2007,46(A02):173-178. 被引量：79
10B. Manaris.Natural language processing in the view of man-machine interchange. Advances in Computers . 1999 被引量：1

共引文献195

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：1
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
3吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
4杨帆,饶元,丁毅,贺王卜,丁紫凡.面向任务型的对话系统研究进展[J].中文信息学报,2021,35(10):1-20. 被引量：5
5谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9
6裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
7廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
8李茂胜,王天一.基于多特征融合的羊养殖问句相似度评价方法[J].智能计算机与应用,2021,11(12):22-27.
9康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：4
10杨皓东,江凌,李国俊.国内自然语言处理研究热点分析——基于共词分析[J].图书情报工作,2011,55(10):112-117. 被引量：14

同被引文献2

1周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
2崔洁.基于加权word2vec算法的文本相似度研究[J].电子测试,2021,32(21):53-55. 被引量：9

引证文献1

1段宇,孙载董,陈铁山.文本深度学习向量化在操作票审核中的研究[J].电力系统装备,2024(3):11-13.

1简开宇,史涯晴,黄松,许山山,杨忠举.业务流程模型相似度研究综述[J].计算机科学,2023,50(6):338-350.
2陈志奎,李丽方,林聃.基于样本加权模糊聚类的土壤重金属污染溯源[J].工业安全与环保,2023,49(6):95-99.
3高铭遥,李翔宇,陈欢,王新胜,侯宏卫,胡清源.基于香精香料指纹图谱的相似度评价进展[J].质量安全与检验检测,2023,33(2):32-41. 被引量：5
4徐莉,刘威,常兴治.改进型SimHash算法用于代码数据相似度检测[J].福建电脑,2023,39(6):41-45. 被引量：2

计算机时代

2023年第6期

浏览历史

内容加载中请稍等...

一种基于字符对比的文本相似度计算方法被引量：1

参考文献11

二级参考文献71

共引文献195

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于字符对比的文本相似度计算方法 被引量：1

参考文献11

二级参考文献71

共引文献195

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于字符对比的文本相似度计算方法被引量：1