-
题名基于局部词频指纹的论文抄袭检测算法
被引量:10
- 1
-
-
作者
秦玉平
冷强奎
王秀坤
王春立
-
机构
渤海大学信息科学与工程学院
大连理工大学电子与信息工程学院
大连海事大学信息科学技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第6期193-194,197,共3页
-
基金
国家自然科学基金资助项目(60603023)
国家"973"计划基金资助项目(2001CCA00700)
-
文摘
提出一种基于局部词频指纹的论文抄袭检测算法。将句子看成文档的基本构成元素,对其进行有效关键词提取排序重构,根据编码和词频联合方式获取句子指纹,以此计算文本间相似度。在新闻网页精简集SOGOU-T上的实验结果表明,该算法在一定程度上克服了现有论文抄袭检测算法检测精度低的缺点,具有较快的检测速度。
-
关键词
抄袭检测
数字指纹
局部词频
相似度
-
Keywords
plagiarism-detection
digital fingerprint
local word-frequency
similarity
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于句子相似度的论文抄袭检测模型研究
被引量:9
- 2
-
-
作者
冷强奎
秦玉平
王春立
-
机构
渤海大学信息科学与工程学院
大连海事大学信息科学技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第24期199-201,共3页
-
基金
国家自然科学基金(No.60603023)
辽宁省教育厅重点实验室项目(No.LS2010180)~~
-
文摘
提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。
-
关键词
句子相似度
抄袭检测
局部词频
最长有序公共子序列
-
Keywords
sentence similarity
plagiarism-detection
local word-frequency
Longest Sorted Common Subsequence(LSCS)
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-