期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于Spark的论文相似性快速检测方法 被引量:2
1
作者 卓可秋 童国平 虞为 《图书情报工作》 CSSCI 北大核心 2015年第11期134-142,共9页
[目的/意义]从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小,用于满足在线论文相似性检测秒级响应需求。[方法/过程]采用分治法策略,对已知文本句集进行基于正交基的软聚类预处理,并对软聚类后的每个簇建立倒排索... [目的/意义]从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小,用于满足在线论文相似性检测秒级响应需求。[方法/过程]采用分治法策略,对已知文本句集进行基于正交基的软聚类预处理,并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测,采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论]通过200万规模的已知文本集实验结果显示,综合4种类型的待检测论文,所提出的倒排索引结合软聚类算法准确率P为100.0%,召回率R为93.6%,调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右,比Simhash算法高约23%。在检测速度上,对于一篇字数为5 000左右的待检测论文,检测时间约为6.5秒,比Simhash算法快近300倍,比LCS算法快约4 000倍,此外,实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。 展开更多
关键词 论文相似性检测 Spark快数据处理 正交 倒排索引
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部