-
题名一种用于抄袭识别的文档距离度量
被引量:5
- 1
-
-
作者
胡明晓
DING Leon X
-
机构
温州大学计算机科学与工程学院
IBM多伦多实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第7期148-152,177,共6页
-
文摘
广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二文档中的近似匹配子串(即原象串),然后根据这些原象串得到回退数和前跳数,最后将三者求和作为文档距离。该文档距离是一种广义编辑距离的近似值,能够在O(n2)时间内计算,并能充分反映抄袭方向。针对人工文档和实际文档的两组实验表明该距离具有较低的漏检率、误检率。
-
关键词
文档距离
广义编辑距离
近似串匹配
抄袭识别
电子文档管理
-
Keywords
document distance
generalized edit distance
approximate string matching
plagiarism detection
electronic document management
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于文档间距离的重排序算法研究
- 2
-
-
作者
尚冬娟
-
机构
运城学院计算机科学与技术系
-
出处
《运城学院学报》
2012年第5期50-53,共4页
-
基金
运城学院教学改革项目(JG201214)
-
文摘
分析了现有搜索引擎重排序方法的不足,并在此基础上提出了基于文档间距离的重排序算法。利用相关性函数,表示出文档间的相关性与文档间距离的关系,通过计算得到文档之间距离的大小顺序,进而得到文档的相关性大小顺序,然后根据文档所属主题概率,最终得到文档的排序。实验表明,该算法大大提高了用户的检索速度与质量,优化了搜索引擎的性能。
-
关键词
文档间距离
相关性函数
重排序
变化矩阵
主题概率
-
Keywords
inter - document distance
relevance function
re - ranking
change metrix
topic probability
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于自适应簇中心选择的文本聚类算法研究
被引量:1
- 3
-
-
作者
翟东海
聂洪玉
崔静静
杜佳
-
机构
西南交通大学信息科学与技术学院
西藏大学工学院
-
出处
《成都信息工程学院学报》
2013年第6期617-622,共6页
-
基金
国家语委"十二五"科研规划资助项目(YB125-49)
教育部科学技术研究重点资助项目(212167)
+1 种基金
中央高校基本科研业务费专项资金科技创新资助项目(SWJTU12CX096)
国家级大学生创新创业训练计划资助项目(201210694017)
-
文摘
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。
-
关键词
海量数据挖掘
初始簇中心
文档距离
K-MEANS算法
-
Keywords
data mining
initial cluster center
document distances
K-means algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名WWW业务访问特性分布研究
被引量:12
- 4
-
-
作者
郝沁汾
祝明发
郝继升
-
机构
中国科学院计算技术研究所智能中心
延安大学数学与计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第10期1172-1180,共9页
-
文摘
WWW业务表现为一系列的访问序列 .而 Web Server和 Proxy Server的日志很好地记录了这种访问序列的过程及特性 .WWW业务的特性研究是 Web Server、Web中间件研究和人工合成 Web负载的基础 .分析了一个 Web Server和两个 Proxy Server的日志 ,重点研究了 Web页面请求的概率分布、Web静态文档大小的概率分布 (含传输文档 )、Web静态文档的访问距离的概率分布 ,并将分析结果同相关文献的结果进行了对比 ,同时通过试验证实了在使用 Size作为 Web缓存替换依据时 ,还应该考虑 Web文档的访问频率 .
-
关键词
WWW
访问特性
概率分布
WEB
缓存替换算法
计算机网络
-
Keywords
WWW access characteristics, Web page request distribution, Web static document size distribution, Web static document access distance distribution, Web cache replacement algorithm
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-