-
题名一种用于中文文本查重的双因子相似度算法
被引量:5
- 1
-
-
作者
刘小军
赵栋
姚卫东
-
机构
中国航天工程咨询中心
-
出处
《计算机仿真》
CSCD
2007年第12期312-314,共3页
-
文摘
为了提高搜索引擎的检索效率以及加强知识产权保护,结合汉语语言学以及自然语言处理的研究成果,提出了一种用于中文文本查重的算法。通过引入"动词中心词"的概念,扩展停用词的范围,将文本中的部分动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似性。同时根据IFIDF方法提取文本特征并进行权重计算,计算出中文文本间的语义相似性。结合文本间语法相似性和语义相似性得到文章的相似度,可以判断两篇中文内容的相似性,有效地进行重稿检测。
-
关键词
语法相似性
语义相似性
重稿检测
-
Keywords
Grammatical similarity
Semantic similarity
Duplication check
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于代码相似性的测试用例重用及生成方法
- 2
-
-
作者
刘巧韵
杨秋辉
洪玫
刘美英
刘盈盈
-
机构
四川大学计算机学院
-
出处
《计算机工程与设计》
北大核心
2023年第10期2950-2955,共6页
-
基金
国家重点研发计划基金项目(2020YFB1711801)
四川省自然科学基金项目(23NSFSC3752)
四川大学专职博士后研发基金项目(2022SCU12077)。
-
文摘
为在测试用例自动化生成中有效利用现有用例信息,降低测试用例生成成本,提高生成效率,提出一种基于代码相似性的测试用例重用及生成方法。设计基于文本和度量的被测代码相似性检测方法,分别从语法和语义上检测并划分相似类型;针对不同相似类型,采用更名重用和补充重用生成测试用例。将代码相似性应用于测试用例生成,综合考虑代码的语法、语义等多维相似信息,提升代码相似性检测的准确性,能更有效运用重用技术提升测试用例生成效率。实验结果表明,所提方法具有更高的重用召回率和重用精度,在相同时间成本下生成的测试用例覆盖率更高。
-
关键词
单元测试
测试用例自动化生成
测试用例重用
代码相似性检测
代码克隆
语法相似性
语义相似性
-
Keywords
unit test
automatic test case generation
test case reuse
code similarity detection
code cloned
text-based similarity
measurement-based similarity
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名闽南方言与古汉语语法的相似性辨析
- 3
-
-
作者
黄聪聪
-
机构
浙江财经学院外国语学院
-
出处
《民族论坛》
2010年第7期52-53,共2页
-
基金
杭州市2009年哲学社会科学规划课题"汉语语序问题的研究"(项目编号B09YY05)阶段性成果
-
文摘
本文通过列举运用宾语前置、介词省略、比较句中的形容词谓语前置、形容词和名词活用作动词及无系词的判断句等语法的例子,来说明闽南方言与古汉语在语法上的相似性,并指出这种相似性是因它们在历史上的渊源关系而产生。
-
关键词
古汉语
闽南方言
语法的相似性
历史渊源
-
分类号
H141
[语言文字—汉语]
-