期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种用于抄袭识别的文档距离度量 被引量:5
1
作者 胡明晓 DING Leon X 《计算机工程与应用》 CSCD 北大核心 2010年第7期148-152,177,共6页
广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二... 广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二文档中的近似匹配子串(即原象串),然后根据这些原象串得到回退数和前跳数,最后将三者求和作为文档距离。该文档距离是一种广义编辑距离的近似值,能够在O(n2)时间内计算,并能充分反映抄袭方向。针对人工文档和实际文档的两组实验表明该距离具有较低的漏检率、误检率。 展开更多
关键词 文档距离 广义编辑距离 近似串匹配 抄袭识别 电子文档管理
下载PDF
基于文档间距离的重排序算法研究
2
作者 尚冬娟 《运城学院学报》 2012年第5期50-53,共4页
分析了现有搜索引擎重排序方法的不足,并在此基础上提出了基于文档间距离的重排序算法。利用相关性函数,表示出文档间的相关性与文档间距离的关系,通过计算得到文档之间距离的大小顺序,进而得到文档的相关性大小顺序,然后根据文档所属... 分析了现有搜索引擎重排序方法的不足,并在此基础上提出了基于文档间距离的重排序算法。利用相关性函数,表示出文档间的相关性与文档间距离的关系,通过计算得到文档之间距离的大小顺序,进而得到文档的相关性大小顺序,然后根据文档所属主题概率,最终得到文档的排序。实验表明,该算法大大提高了用户的检索速度与质量,优化了搜索引擎的性能。 展开更多
关键词 文档间距离 相关性函数 重排序 变化矩阵 主题概率
下载PDF
基于自适应簇中心选择的文本聚类算法研究 被引量:1
3
作者 翟东海 聂洪玉 +1 位作者 崔静静 杜佳 《成都信息工程学院学报》 2013年第6期617-622,共6页
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中... 为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。 展开更多
关键词 海量数据挖掘 初始簇中心 文档距离 K-MEANS算法
下载PDF
WWW业务访问特性分布研究 被引量:12
4
作者 郝沁汾 祝明发 郝继升 《计算机研究与发展》 EI CSCD 北大核心 2001年第10期1172-1180,共9页
WWW业务表现为一系列的访问序列 .而 Web Server和 Proxy Server的日志很好地记录了这种访问序列的过程及特性 .WWW业务的特性研究是 Web Server、Web中间件研究和人工合成 Web负载的基础 .分析了一个 Web Server和两个 Proxy Server的... WWW业务表现为一系列的访问序列 .而 Web Server和 Proxy Server的日志很好地记录了这种访问序列的过程及特性 .WWW业务的特性研究是 Web Server、Web中间件研究和人工合成 Web负载的基础 .分析了一个 Web Server和两个 Proxy Server的日志 ,重点研究了 Web页面请求的概率分布、Web静态文档大小的概率分布 (含传输文档 )、Web静态文档的访问距离的概率分布 ,并将分析结果同相关文献的结果进行了对比 ,同时通过试验证实了在使用 Size作为 Web缓存替换依据时 ,还应该考虑 Web文档的访问频率 . 展开更多
关键词 WWW 访问特性 概率分布 WEB 缓存替换算法 计算机网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部