期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于大数据挖掘处理的多维数据去重聚类算法分析模型仿真 被引量:10
1
作者 解艳 《自动化技术与应用》 2021年第12期112-115,共4页
本文设计了基于大数据挖掘处理的多维数据去重聚类算法分析模型。通过详细介绍多维聚类算法,基于大数据内部关联性分析,实现了去重聚类算法分析模型构建。最后通过算法优化与仿真研究,得出结论,多维数据去重聚类算法采样时复杂度偏低,... 本文设计了基于大数据挖掘处理的多维数据去重聚类算法分析模型。通过详细介绍多维聚类算法,基于大数据内部关联性分析,实现了去重聚类算法分析模型构建。最后通过算法优化与仿真研究,得出结论,多维数据去重聚类算法采样时复杂度偏低,数据分析结果准确率较高,可有效分析处理数据,避免冗余繁杂,保障数据分析效率与水平,评估判定结果较好,值得大力推广应用。 展开更多
关键词 大数据挖掘 多维数据 去重 聚类算法 分析模型
下载PDF
论文查收查引工具设计与应用 被引量:7
2
作者 蒋君 张玢 +1 位作者 梅梅 杜慧 《医学信息学杂志》 CAS 2018年第6期61-66,72,共7页
以4个中文医学引文数据库为例,运用Excel函数和VBA编辑语言实现不同来源数据库引文检索结果的自动去重,准确判断单独作者和团体作者的自引次数以及各库的引文收录数,提高查收查引结果的准确性以及工作效率。
关键词 查收查引 引文数据库 文献去重 VBA EXCEL函数
下载PDF
基于Web的中文期刊查收查引跨库检索系统研发 被引量:7
3
作者 王洪军 张玉 +4 位作者 李焱 祝国浩 王宇光 张晓梅 冯占英 《中华医学图书情报杂志》 CAS 2016年第6期24-28,共5页
为了提高我国引证检索服务的准确性和完整性,解放军医学图书馆研制了基于Web的中文期刊查收查引跨库检索系统,基于页面分析技术对多个异构数据源进行跨库检索,对相似文献进行检测与去重,生成格式规范的引证报告。系统结合精确匹配与模... 为了提高我国引证检索服务的准确性和完整性,解放军医学图书馆研制了基于Web的中文期刊查收查引跨库检索系统,基于页面分析技术对多个异构数据源进行跨库检索,对相似文献进行检测与去重,生成格式规范的引证报告。系统结合精确匹配与模糊匹配方法,采用Levenshtein编辑距离计算相似度进行相似文献检测。目前该系统已在国内多家图书馆、医院、研究所等机构推广使用,使用效果不错,但还有待于完善。 展开更多
关键词 查收查引 跨库检索 文献去重 引证报告
下载PDF
基于教学优化算法求解置换流水车间调度问题 被引量:4
4
作者 张其文 张斌 《系统仿真学报》 CAS CSCD 北大核心 2022年第5期1054-1063,共10页
针对置换流水车间调度问题,将连续算法与离散策略相结合,提出一种多班级教学优化算法。采用基于置换变异改进的NEH(nawaz enscore ham)种群初始化方法,兼顾初始解的质量和多样性。在教学阶段,引入离散的自适应教学,并给出去重的操作,避... 针对置换流水车间调度问题,将连续算法与离散策略相结合,提出一种多班级教学优化算法。采用基于置换变异改进的NEH(nawaz enscore ham)种群初始化方法,兼顾初始解的质量和多样性。在教学阶段,引入离散的自适应教学,并给出去重的操作,避免了无意义的教学过程。新增了基于莱维飞行的自学策略,同时以变邻域搜索的方式模拟离散阶段的自学。将相互学习与班级交流合并,在保证优秀个体交流的基础上,提高学习的效率。通过对标准测试集Rec进行测试,并与其他算法比较,验证了算法的有效性和稳定性。 展开更多
关键词 置换流水车间调度 多班级教学优化算法 去重操作 自学策略 优势个体交流
下载PDF
平行语料库的相似语句去重算法 被引量:4
5
作者 申文明 黄家裕 刘连芳 《广西科学院学报》 2009年第4期248-250,256,共4页
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平... 尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。 展开更多
关键词 去重 相似句子 平行语料库 类KMP
下载PDF
基于特征迭代的短文本去重算法 被引量:4
6
作者 曹海 孙婧 史喜斌 《计算机工程》 CAS CSCD 北大核心 2015年第12期54-57,63,共5页
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,... 由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。 展开更多
关键词 SimHash算法 共享最近邻 迭代 特征选择 短文本 去重
下载PDF
基于文件标题特征的网络视频去重研究 被引量:3
7
作者 郭牧怡 刘萍 +1 位作者 谭建龙 郭莉 《计算机工程》 CAS CSCD 北大核心 2010年第9期227-229,237,共4页
提出一种针对剧集类和电影类网络视频的去重技术,根据剧集类和电影类网络视频标题的显著特征,采用精确串和正则表达式匹配算法自动提取视频名称,形成以正则表达式表示的视频扩展名,当新视频文件到来时,再次使用正则表达式匹配算法,判断... 提出一种针对剧集类和电影类网络视频的去重技术,根据剧集类和电影类网络视频标题的显著特征,采用精确串和正则表达式匹配算法自动提取视频名称,形成以正则表达式表示的视频扩展名,当新视频文件到来时,再次使用正则表达式匹配算法,判断其是否出现过,从而实现网络视频的去重。实验结果表明,该方法的查准率可达97.30%,查全率可达93.63%。 展开更多
关键词 正则表达式 精确串匹配算法 网络视频 去重
下载PDF
大数据下档案文档图片化去重模型研究 被引量:2
8
作者 贺建英 《微型电脑应用》 2015年第10期25-26,33,共3页
针对达州市档案局数以万计的档案纸质文档需要通过扫描等技术图像化存储的现有情况,提出了一种在大数据下对相同图片文档去重的策略,先把图片文档转换成二进制流并计算其MD5签名,依据签名对图片文档进行去重实现分布式存储,并通过实验... 针对达州市档案局数以万计的档案纸质文档需要通过扫描等技术图像化存储的现有情况,提出了一种在大数据下对相同图片文档去重的策略,先把图片文档转换成二进制流并计算其MD5签名,依据签名对图片文档进行去重实现分布式存储,并通过实验对该模型进行模拟验证,得出一种有效的档案图片文档去重模型。 展开更多
关键词 档案文档 图像化 去重 MD5 分布式存储
下载PDF
基于EXCEL的查新去重与格式整理小工具 被引量:1
9
作者 张锐 《晋图学刊》 2014年第6期24-27,共4页
笔者研发的基于EXCEL的查新去重与格式整理小工具是针对中国知网、万方、维普、中国知识产权局专利检索与服务系统设计的。该工具能够读取各数据库不同格式的数据、对数据进行去重、最后按照查新格式导出。该工具相较于时下流行的文献... 笔者研发的基于EXCEL的查新去重与格式整理小工具是针对中国知网、万方、维普、中国知识产权局专利检索与服务系统设计的。该工具能够读取各数据库不同格式的数据、对数据进行去重、最后按照查新格式导出。该工具相较于时下流行的文献去重软件(如Note Express和Note First),最主要的进步特点为:其不但整合了单个数据库不同格式的数据内容,且在去重时能够抽取不同数据库的内容进行整合,从而弥补单一数据库数据内容不完全的缺陷;同时还具有方便快捷、无需安装、操作简单易学等特点。 展开更多
关键词 查新 去重 格式整理 EXCEL
下载PDF
Rabin指纹去重算法在搜索引擎中的应用 被引量:1
10
作者 贺建英 《计算机系统应用》 2015年第7期128-131,共4页
针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高... 针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度. 展开更多
关键词 Rabin指纹方法 搜索引擎 去重 URL 海量数据
下载PDF
OAI-PMH中元数据重复问题解决方法 被引量:1
11
作者 赵治军 王秀慧 《电脑开发与应用》 2011年第1期27-29,共3页
针对OAI-PMH框架中存在的元数据重复问题,根据重复元数据出现的两种情况给出了相应的解决方法。对于SP中来自同一个数据提供方中的元数据,根据元数据记录的标识符和时间戳去重;对于SP中来自不同数据提供方中的元数据,采用向量空间模型... 针对OAI-PMH框架中存在的元数据重复问题,根据重复元数据出现的两种情况给出了相应的解决方法。对于SP中来自同一个数据提供方中的元数据,根据元数据记录的标识符和时间戳去重;对于SP中来自不同数据提供方中的元数据,采用向量空间模型计算元数据间的相似度,进而达到去重目的。通过对OAI-PMH框架中元数据的去重,不仅减少了数据冗余、节约了存储空间,而且也大大提高了用户查询数据的效率。 展开更多
关键词 OAI-PMH 元数据 去重 向量空间模型
下载PDF
图书馆数据库采购360度评估实践与启示——以厦门大学图书馆为例
12
作者 张云丽 《公共图书馆》 2014年第2期45-48,共4页
大学图书馆数据库采购评估的单一性会让采购决策失去科学性,本文首先介绍了厦门大学图书馆数据库采购流程,接着从5个方面对厦门大学图书馆数据库采购360评估实践进行介绍,最后,给出了4点启示:采购决策程序应该由上而下和由下而上相结合;... 大学图书馆数据库采购评估的单一性会让采购决策失去科学性,本文首先介绍了厦门大学图书馆数据库采购流程,接着从5个方面对厦门大学图书馆数据库采购360评估实践进行介绍,最后,给出了4点启示:采购决策程序应该由上而下和由下而上相结合;360度采购评估保证后续决策的全面性和科学性;试用和反馈意见很关键;除重、外部评估、联合购买能节约资源。 展开更多
关键词 360度 采购评估 除重 联合采购
原文传递
装备设计选型技术模块化方法研究——一种工程项目零部件选配组合优化方法
13
作者 马彦根 《石油化工设备技术》 CAS 2019年第6期61-66,I0006,共7页
文章提出了一种工程项目零部件选配组合优化方法,具体包括:将部件进行分类,分为一组或多组第一类部件,以及一组或多组第二类部件;通过设定组合匹配对照关系,收集两类部件多个供应商的参数数据;并基于收集到的参数数据进行比对;在两类部... 文章提出了一种工程项目零部件选配组合优化方法,具体包括:将部件进行分类,分为一组或多组第一类部件,以及一组或多组第二类部件;通过设定组合匹配对照关系,收集两类部件多个供应商的参数数据;并基于收集到的参数数据进行比对;在两类部件中选配工程项目所需的全部部件,并基于第一类部件综合得分对比汇总结果数据以及第二类部件的单个参数结果评比数据,计算生成全部部件的综合得分评审汇总结果数据。以空冷器成套设备招投标为例,详细说明了该创新方法的应用实践。同时阐明了该方法与示例的广泛应用启示。 展开更多
关键词 零部件选配 组合优化 组合匹配对照 参数比对 相关性 去重 迭代
下载PDF
基于特征串的大规模中文网页快速去重算法研究 被引量:41
14
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第2期28-35,共8页
网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基... 网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基于特征串的中文网页的快速去重算法 ,同时对算法进行了优化处理。实验结果表明该算法是有效的 ,大规模开放测试的重复网页召回率达 97 3% ,去重正确率达 99 5 %。 展开更多
关键词 计算机应用 中文信息处理 特征串 模糊匹配 去重算法 冗余网页
下载PDF
基于概念和语义网络的近似网页检测算法 被引量:15
15
作者 曹玉娟 牛振东 +1 位作者 赵堃 彭学平 《软件学报》 EI CSCD 北大核心 2011年第8期1816-1826,共11页
在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改... 在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改进了经典基于小世界理论提取文档关键词的算法.首先对文档概念进行抽取和归并,不但解决了"表达差异"问题,而且有效降低了语义网络的复杂度;从网络结构的几何特征对其进行分析,同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算,由于无须使用语料库,使得算法天生具有领域无关的优点.实验结果表明,与经典的网页去重算法(I-Match)和单纯依赖词汇共现小世界模型的算法相比,DWDCS具有很好的抵抗噪声的能力,在大规模实验中获得了准确率>90%和召回率>85%的良好测试结果.良好的时空间复杂度及算法性能不依赖于语料库的优点,使其在大规模网页去重实际应用中获得了良好的效果. 展开更多
关键词 网页去重算法 小世界网络 近似网页 均方差
下载PDF
大数据下MongoDB数据库档案文档存储去重研究 被引量:10
16
作者 贺建英 《现代电子技术》 北大核心 2015年第16期51-55,共5页
针对大数据下档案存储的现状,通过分析存储档案文档存在重复的原因,提出一种MongoDB存储档案文档的方法,利用MongoDB的GridFs统一处理不同类型和大小的文件,定义3个集合分别存储上传者记录、文件信息记录和分块文件内容,提出存储中通过... 针对大数据下档案存储的现状,通过分析存储档案文档存在重复的原因,提出一种MongoDB存储档案文档的方法,利用MongoDB的GridFs统一处理不同类型和大小的文件,定义3个集合分别存储上传者记录、文件信息记录和分块文件内容,提出存储中通过文件MD5校验码值是否相同来进行去重研究,并实现去重的程序代码,有一定的实际意义。采用的分布式存储数据库增强了档案文档存储系统的可扩展性。实验表明,该方法能有效地去除重复的档案文档,提高查询效率。 展开更多
关键词 MONGODB MD5 大数据 档案文档去重 GridFs
下载PDF
文献跨库检索中去重方法研究与应用 被引量:10
17
作者 郝丹 周津慧 +2 位作者 关贝 王衍喜 韩继欣 《现代图书情报技术》 CSSCI 北大核心 2011年第7期116-120,共5页
以作者和单位发文的统计需求为背景,分析作者和单位发文在跨库检索中产生数据冗余的特殊成因,在借鉴网页去重的基础上,设计中文跨库ID、英文跨库ID、DOI以及"标题+类型"4种文献跨库去重方法,解决中文库之间、英文库之间以及... 以作者和单位发文的统计需求为背景,分析作者和单位发文在跨库检索中产生数据冗余的特殊成因,在借鉴网页去重的基础上,设计中文跨库ID、英文跨库ID、DOI以及"标题+类型"4种文献跨库去重方法,解决中文库之间、英文库之间以及中英文库之间的冗余问题,并有效应用于专家发文和单位发文信息获取与统计工作中。 展开更多
关键词 跨库检索 去重策略 文献信息
原文传递
基于新闻网页主题要素的网页去重方法研究 被引量:7
18
作者 王鹏 张永奎 +1 位作者 张彦 刘睿 《计算机工程与应用》 CSCD 北大核心 2007年第28期177-180,共4页
网页检索结果中,用户经常会得到内容相同的冗余页面。提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容... 网页检索结果中,用户经常会得到内容相同的冗余页面。提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。 展开更多
关键词 新闻主题要素 模糊匹配 去重算法
下载PDF
基于布隆过滤器的网页搜索去重方法 被引量:4
19
作者 黄恩博 《现代计算机》 2013年第14期7-10,共4页
介绍布隆过滤器的相关理论,对MD5哈希算法进行较为详细的分析,对GPU和CPU的结构及运算特点进行分析比较,提出一种基于布隆过滤器并使用GPU进行URL的MD5计算的网页搜索去重方法。
关键词 布隆过滤器 MD5 网页搜索去重
下载PDF
基于傅立叶变换的网页去重算法 被引量:2
20
作者 陈锦言 孙济洲 张亚平 《计算机应用》 CSCD 北大核心 2008年第4期948-950,共3页
去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判。通过对字符关系矩阵进行K-L展开,将每个字符映射成为一个数值,然后对这个数值序... 去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判。通过对字符关系矩阵进行K-L展开,将每个字符映射成为一个数值,然后对这个数值序列做离散傅立叶变换,得到每个网页的傅立叶系数向量,通过比较傅立叶系数向量差异实现对网页的相似度判断。实验结果表明该方法可对网页实现较好的去重。 展开更多
关键词 网页去重 K—L展开 傅立叶变换 维数压缩
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部