一种文本文档相似性计算的方法被引量：2

An Approach of Text Document Similarity Computation

下载PDF

导出

摘要首先对当前文本文档相似度计算方法的优缺点及适用范围进行了分析.由于越长的词语表达的意思一般越完整,基于这一思想,对不同长度的词语赋予不同的权值,把长度为n的公共序列引入到相似度的计算中,构造了一文本相似度计算公式,对其中相似度计算公式的合理性给予了理论证明.最后,通过实验证明该方法是有效的. Firstly the merits and setbacks,application scopes and problems of existing methods were analyzed. Normally the longer the term,the more integrated it expressed. Based on this thought,the different weights were given to different long terms. Common sequence with length of n was introduced into the similarity computation and an equation was constructed about text similarity computation. Then the equation was theoretically proved to be reasonable. Finally the experiment results showed the method was validity.

作者黄淑芹徐勇常郝

机构地区安徽财经大学管理科学与工程学院

出处《吉林师范大学学报（自然科学版）》 2014年第4期130-132,共3页 Journal of Jilin Normal University:Natural Science Edition

基金安徽财经大学科研项目(ACKY1452)

关键词文本文档公共序列相似度字符串匹配 text document common sequence similarity string matching

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
2张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：58
3曹恬,周丽,张国煊.一种基于词共现的文本相似度计算[J].计算机工程与科学,2007,29(3):52-53. 被引量：14
4潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
5E. Agirre, G. Rigau. A proposal for word sense disambiguation using conceptual distance[ C ]. International Conference on Recent Advances in Nat- ural Language Processing, 1995,258 - 264. 被引量：1
6车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计算[C]//全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88. 被引量：6
7F. S. Hu, Y. Guo. An Improved Algorithm of Word Similarity Computation Based on HowNet. In : Proc of the 2th International Conference on Com- puter Science and Automation Engineering,2012,5 : 372 - 376. 被引量：1
8V. L. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals [ J]. Doklady Akademii Nauk SSSR, 1966,163 (4) :707 - 710. 被引量：1
9刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010,27(12):4523-4525. 被引量：41
10孙德才,孙星明,张伟,刘玉玲.基于匹配区域特征的相似字符串匹配过滤算法[J].计算机研究与发展,2010,47(4):663-670. 被引量：10

二级参考文献66

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2易丽萍,竹勇,雷小春.知网在词语相似度计算方面的应用[J].信息技术与信息化,2005(1):24-26. 被引量：11
3邹旭楷.汉字／字符串编辑距离和编辑路径的有效求解技术[J].计算机研究与发展,1996,33(8):574-580. 被引量：5
4余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
5章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
6荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
7Burkhardt S.Filter algorithms for approximate string matching[D].Saarbrücken,Saarland,Germany:Department of Computer Science,Saarland University,2002. 被引量：1
8Navarro G.A guided tour to approximate string matching[J].ACM Computing Surveys,2001,33(1):31-88. 被引量：1
9Wu Sun,Manber U,Myers G.A sub-quadratic algorithm for approximate limited expression matching[J].Algorithmica,1996,15(1):50-67. 被引量：1
10Baeza-Yates R,Navarro G.A faster algorithm for approximate string matching[C]//Proc of the 7th Annual Symp on Combinatorial Pattern Matching.Berlin:Springer,1996:1-23. 被引量：1

共引文献202

1朱朦朦,武恺莉,洪宇,陈鑫,张民.面向问句复述识别的语义正交化匹配方法研究[J].中文信息学报,2021,35(11):34-42. 被引量：2
2彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
3晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
4周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.
5王浩鸣,张曰贤,吴志军,史西兵.基于智能Agent的中文元搜索引擎模型研究[J].计算机工程与应用,2005,41(31):154-156. 被引量：6
6周如旗.个性化远程学习的形式化建模方法研究[J].广东教育学院学报,2005,25(5):99-102.
7李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
8许维.企业EPR实施分析与企业流程重组[J].合作经济与科技,2006(08S):30-31. 被引量：1
9于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
10程玉柱,邬书跃.基于部件的文本相似度计算[J].计算机工程与设计,2006,27(18):3444-3446. 被引量：4

同被引文献20

1徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：120
2田苗苗.基于决策树的文本分类研究[J].吉林师范大学学报（自然科学版）,2008,29(1):54-56. 被引量：9
3殷风景,肖卫东,葛斌,李芳芳.一种面向网络话题发现的增量文本聚类算法[J].计算机应用研究,2011,28(1):54-57. 被引量：16
4周由,戴牡红.语义分析与TF-IDF方法相结合的新闻推荐技术[J].计算机科学,2013,40(11A):267-269. 被引量：11
5李磊,刘继.面向舆情主题的微博用户行为聚类实证分析[J].情报杂志,2014,33(3):118-121. 被引量：20
6王春雨,王立准,魏瑜帅.数据挖掘在结构化电子病历中的应用[J].医学信息学杂志,2014,35(3):31-33. 被引量：7
7李鹏,于晓洋,孙渤禹.基于用户群组行为分析的视频推荐方法研究[J].电子与信息学报,2014,36(6):1485-1491. 被引量：13
8刘行军,王伟军.微博用户类型及行为特征的实证分析——基于信息传播行为视角[J].情报科学,2014,32(9):130-136. 被引量：13
9王斌,刘春,谢琪,刘保延.基于结构化电子病历构建临床路径的数据利用方法探讨[J].中国数字医学,2014,9(10):40-41. 被引量：9
10母泽平.字符串匹配算法探讨[J].重庆工商大学学报（自然科学版）,2014,31(8):79-82. 被引量：2

引证文献2

1景永霞,苟和平,刘强,吴多智.基于内容相似性的社交网络用户行为倾向性研究[J].吉林师范大学学报（自然科学版）,2016,37(4):135-139. 被引量：3
2王兴强,孟娜.一种结构化电子病历的相似性查重方法[J].中国医学装备,2019,16(1):123-125.

二级引证文献3

1陈添源.高校移动图书馆用户画像构建实证[J].图书情报工作,2018,62(7):38-46. 被引量：65
2詹悦,王丽丽.基于行为包含的日志变化挖掘[J].通化师范学院学报,2018,39(8):10-15.
3翟莉,孟丽新.在线社会网络用户影响力研究的文献计量分析[J].吉林师范大学学报（自然科学版）,2020,41(1):53-61. 被引量：1

1尹洁.没人排队的窗口[J].海峡儿童（读写）（7-9年级）,2012(7):110-111.
2冯宏祥.从速记看网络语言的生命力[J].科技资讯,2006,4(10):188-189. 被引量：1
3吴晓珉,陈明锐.汉英标点符号的比较研究[J].中国青年科技,2008(7):33-35.
4吴忠仪.我的表情很丰富[J].电脑爱好者（普及版）,2009(10):36-36.
5王梅力,王建民.意念输入法[J].少年发明与创造（小学版）,2013(14):16-16.
6傅鹂,涂春梅,付春雷,马扬,聂奇尉.基于语义的成语检索系统研究[J].计算机工程与应用,2011,47(13):147-149. 被引量：2
7刘妍.英设计程序可翻译外星人语言[J].科技视界,2011(30):26-27.
8新程序可翻译外星人语言[J].光学精密机械,2008(3):35-37.
9何志良.情景感知的显著性检测[J].郑州轻工业学院学报（自然科学版）,2014,29(4):77-81.
10过纯中..NET跨数据库编程最佳实践[J].程序员,2007(8):100-102. 被引量：2

吉林师范大学学报（自然科学版）

2014年第4期

浏览历史

内容加载中请稍等...

一种文本文档相似性计算的方法被引量：2

参考文献10

二级参考文献66

共引文献202

同被引文献20

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种文本文档相似性计算的方法 被引量：2

参考文献10

二级参考文献66

共引文献202

同被引文献20

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种文本文档相似性计算的方法被引量：2