期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于改进的Simhash算法的相似文档识别技术 被引量:3
1
作者 张兴兰 何丹丹 《计算机科学与应用》 2020年第2期371-378,共8页
[目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技... [目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技术,同时将特征词的词性、词长、是否为标志词与是否被包含在标题中几大方面作为权重计算的考虑因素。最后使用汉明距离对文档签名值进行比较,从海量文档中精确地找出相似文档。[结论]:通过改进TF-IDF权重,使得改进的Simhash算法在相似文档识别准确率上优于其他算法。 展开更多
关键词 相似文档检测 Simhash算法 TF-IDF算法 指纹计算 汉明距离
下载PDF
多维搜索引擎的构建与应用 被引量:1
2
作者 田甜 《软件导刊》 2009年第6期25-27,共3页
现阶段主流搜索引擎技术可以概括为基于空间的搜索。在未来的发展过程中,信息的表示方式更加丰富,搜索用户对信息检索的需求逐步提高,由此提出多维搜索的概念。多维搜索引擎不受物理条件的限制,对不同类型的数据进行灵活操纵、抽取和组... 现阶段主流搜索引擎技术可以概括为基于空间的搜索。在未来的发展过程中,信息的表示方式更加丰富,搜索用户对信息检索的需求逐步提高,由此提出多维搜索的概念。多维搜索引擎不受物理条件的限制,对不同类型的数据进行灵活操纵、抽取和组合。同时对此种搜索引擎的应用前景进行展望,此种搜索技术具有不可估量的发展前景,也势必为搜索领域带来一场大的变革。 展开更多
关键词 空间维度 多维搜索 中国Web信息博物馆 相似文档检测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部