-
题名基于改进的Simhash算法的相似文档识别技术
被引量:3
- 1
-
-
作者
张兴兰
何丹丹
-
机构
北京工业大学
-
出处
《计算机科学与应用》
2020年第2期371-378,共8页
-
基金
国家自然科学基金(61272044,61602019,61801008),北京市自然科学基金(3182028).
-
文摘
[目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技术,同时将特征词的词性、词长、是否为标志词与是否被包含在标题中几大方面作为权重计算的考虑因素。最后使用汉明距离对文档签名值进行比较,从海量文档中精确地找出相似文档。[结论]:通过改进TF-IDF权重,使得改进的Simhash算法在相似文档识别准确率上优于其他算法。
-
关键词
相似文档检测
Simhash算法
TF-IDF算法
指纹计算
汉明距离
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名多维搜索引擎的构建与应用
被引量:1
- 2
-
-
作者
田甜
-
机构
河南师范大学计算机与信息技术学院
-
出处
《软件导刊》
2009年第6期25-27,共3页
-
文摘
现阶段主流搜索引擎技术可以概括为基于空间的搜索。在未来的发展过程中,信息的表示方式更加丰富,搜索用户对信息检索的需求逐步提高,由此提出多维搜索的概念。多维搜索引擎不受物理条件的限制,对不同类型的数据进行灵活操纵、抽取和组合。同时对此种搜索引擎的应用前景进行展望,此种搜索技术具有不可估量的发展前景,也势必为搜索领域带来一场大的变革。
-
关键词
空间维度
多维搜索
中国Web信息博物馆
相似文档检测
-
Keywords
Spatial Dimensions
Multidimensional Search
Web InfoMall
Similar Ddocument Detection
-
分类号
TP317.4
[自动化与计算机技术—计算机软件与理论]
-