期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
一种改进的编辑距离算法及其在数据处理中的应用 被引量:51
1
作者 赵作鹏 尹志民 +2 位作者 王潜平 许新征 江海峰 《计算机应用》 CSCD 北大核心 2009年第2期424-426,共3页
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改... 基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改进的编辑距离算法应用于煤矿隐患数据的处理,提高了隐患数据分类分级的有效性和执行效率。 展开更多
关键词 编辑距离 字符串相似匹配 数据处理
下载PDF
多种字符串相似度算法的比较研究 被引量:36
2
作者 牛永洁 张成 《计算机与数字工程》 2012年第3期14-17,共4页
对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出... 对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出了算法运行的结果,最后给出每种算法计算相似度的计算公式和算法时间复杂度及应用领域。由于字符串相似度具有广泛的应用领域,对其中经典的几种算法进行总结对比是一件十分有意义的研究工作。 展开更多
关键词 字符串相似度 编辑距离 最长公共子串 贪心字符串匹配 RKR-GST
下载PDF
基于Token编辑距离检测克隆代码 被引量:13
3
作者 张久杰 王春晖 +2 位作者 张丽萍 侯敏 刘东升 《计算机应用》 CSCD 北大核心 2015年第12期3536-3543,共8页
针对当前Type-3克隆代码检测工具较少、效率偏低等问题,提出了一种基于Token的能有效检测Type-3克隆代码的检测方法。该方法同时能有效检测Type-1和Type-2克隆代码。首先将源代码Token化得到特定代码粒度的Token串,其次将所有Token串的... 针对当前Type-3克隆代码检测工具较少、效率偏低等问题,提出了一种基于Token的能有效检测Type-3克隆代码的检测方法。该方法同时能有效检测Type-1和Type-2克隆代码。首先将源代码Token化得到特定代码粒度的Token串,其次将所有Token串的定长子串进行映射,在对映射信息进行查询的基础上,利用编辑距离算法确定克隆对,然后通过并查集算法快速构建克隆群,最终反馈克隆代码信息。实现了原型工具FClones,利用基于代码突变的框架对工具进行了评价,并与领域内较优秀的两款工具Ni Cad及Sim Cad进行了对比。实验结果表明,FClones在检测三类克隆代码时查全率均不低于95%,查准率均不低于98%,能更好地检测Type-3克隆代码。 展开更多
关键词 克隆代码 克隆检测 编辑距离 Type-3 TOKEN
下载PDF
面向新型电力系统的智能变电站虚回路自动校验技术研究 被引量:12
4
作者 叶远波 李端超 +2 位作者 谢民 王志华 毛玉荣 《电测与仪表》 北大核心 2022年第7期91-99,共9页
针对新型电力系统智能高效的需求,提出了一种基于改进Levenshtein距离模糊匹配算法的智能变电站虚回路自动校验技术,基于改进Levenshtein距离模糊匹配算法实现不规范虚端子模型到规范虚端子模型的映射建立标准端子库,解决变电站配置文... 针对新型电力系统智能高效的需求,提出了一种基于改进Levenshtein距离模糊匹配算法的智能变电站虚回路自动校验技术,基于改进Levenshtein距离模糊匹配算法实现不规范虚端子模型到规范虚端子模型的映射建立标准端子库,解决变电站配置文件模型不规范问题。引入Word2Vector相似性改进编辑操作权重设置提高算法的准确性。依据建立的标准端子库与已通过校验的SCD文件建立虚回路校验模板,基于标准化的校验模板实现虚回路自动校验。通过算例验证了所提方法可提升智能变电站虚回路校验智能化水平和效率。 展开更多
关键词 虚回路校验 Levenshrein距离 模糊匹配算法 标准端子库 自动校验
下载PDF
字符串相似度在自动评分系统中的应用 被引量:11
5
作者 杜利峰 牛永洁 《电子设计工程》 2011年第7期42-44,共3页
在对编程语言类的自动评分系统中,程序设计类型的填空题大多采用字符串精确匹配的方法,而编程题的自动评分是一个难点。在分析两类题型的特点及目前采用的评测方法的优缺点的基础上,提出使用字符串相似度算法对程序设计题进行评判,并给... 在对编程语言类的自动评分系统中,程序设计类型的填空题大多采用字符串精确匹配的方法,而编程题的自动评分是一个难点。在分析两类题型的特点及目前采用的评测方法的优缺点的基础上,提出使用字符串相似度算法对程序设计题进行评判,并给出了评分过程的整体流程图。经过实际的使用,证明该方法是目前采用方法的一个很好补充,使评分的过程更加客观、公正,能够减少教师的工作量,提高教学工作效率,值得推广。 展开更多
关键词 程序设计 自动评分 字符串相似度 编辑距离 匹配
下载PDF
一种改进的RSSI指纹库定位算法 被引量:9
6
作者 霍欢 杨沪沪 +2 位作者 郑德原 刘亮 张薇 《计算机应用研究》 CSCD 北大核心 2017年第9期2786-2790,共5页
为了提高室内定位的精度,进行了信号强度RSSI之间的相关性的分析,提出了ID-WRKL算法。该算法将RSSI排序转换成AP指纹序列对并建立离线指纹库,其稳定性可以减小定位误差;再通过在线AP的选择,过滤噪点AP对定位估计的影响,减少计算量;最后... 为了提高室内定位的精度,进行了信号强度RSSI之间的相关性的分析,提出了ID-WRKL算法。该算法将RSSI排序转换成AP指纹序列对并建立离线指纹库,其稳定性可以减小定位误差;再通过在线AP的选择,过滤噪点AP对定位估计的影响,减少计算量;最后根据Levenshtein距离得到最近邻的度量。在基于Map Reduce框架下的两个集合间的K-AP(P,Q)最近邻查询法基础上进行位置估计,提高了定位的精度。大量的对比传统KNN定位法的实验表明该算法的定位更精确,速度更快。 展开更多
关键词 RSSI 指纹库 levenshtein距离 K-AP(P Q)
下载PDF
侗台语族语言的编辑距离分类 被引量:9
7
作者 赵志靖 江荻 《计算机工程与应用》 CSCD 北大核心 2018年第19期62-67,共6页
编辑距离是一种距离测量法,源于将一个字符串变换为另一个字符串所需要的编辑操作数,该方法能够自动将语言进行分类,最近这些年在西方很受关注,被证明测量语言或方言间距离是有效的。运用编辑距离算法对侗台语族语言做出计量分类以及亲... 编辑距离是一种距离测量法,源于将一个字符串变换为另一个字符串所需要的编辑操作数,该方法能够自动将语言进行分类,最近这些年在西方很受关注,被证明测量语言或方言间距离是有效的。运用编辑距离算法对侗台语族语言做出计量分类以及亲缘关系程度的描述。结果表明编辑距离分类结果与历史语言学的分类结果是基本一致的,为计量法提供了新思路。编辑距离可以应用于东亚语言的研究中。 展开更多
关键词 侗台语族 编辑距离 语言分类
下载PDF
LEDA:一种基于Levenshtein距离的DNA序列拼接算法 被引量:6
8
作者 崔竞松 薛慧 +1 位作者 王兰兰 郭迟 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2022年第3期271-278,共8页
针对DNA双端测序产生的两条序列Read1和Read2,提出了一种基于Levenshtein距离的DNA序列拼接算法。根据Read1与Read2末端重叠部分的编辑距离,寻找所有可能正确的序列片段,拼接成完整的DNA序列。该算法将通常用于字符串比对的编辑距离运用... 针对DNA双端测序产生的两条序列Read1和Read2,提出了一种基于Levenshtein距离的DNA序列拼接算法。根据Read1与Read2末端重叠部分的编辑距离,寻找所有可能正确的序列片段,拼接成完整的DNA序列。该算法将通常用于字符串比对的编辑距离运用到DNA序列的拼接问题中,将DNA序列拼接问题转换成为可能发生插入、删除以及替换操作的字符串比对问题,算法简单,解决了其他拼接算法使用时有诸多限制条件的问题。拼接正确率高达99%,相比于其他拼接算法O(N^(2))的时间复杂度,时间复杂度仅为O(n·2x),其中N为reads长度,n为overlap长度,x为Read1与Read2末端重叠部分的最小编辑距离,拼接高效,具有良好的技术优势。 展开更多
关键词 DNA测序技术 levenshtein距离 拼接算法
原文传递
数据集成中数据项与数据元匹配算法 被引量:8
9
作者 文必龙 付玥 《计算机系统应用》 2012年第3期240-243,231,共5页
近年来,随着数据元标准的建立,数据元在各行各业的数据集成过程中担任着重要角色,用于规范数据库、报表、文档中的数据项,实现各种数据源之间的映射。分析数据元的结构,提出一种数据项与数据元匹配算法,该算法基于编辑距离算法,融合最... 近年来,随着数据元标准的建立,数据元在各行各业的数据集成过程中担任着重要角色,用于规范数据库、报表、文档中的数据项,实现各种数据源之间的映射。分析数据元的结构,提出一种数据项与数据元匹配算法,该算法基于编辑距离算法,融合最长公共子序列、权重、词语重心后移等思想,实现数据项与数据元字典中数据元的相似度计算,利用排列组合原理对匹配速度进行优化。以中石化标准数据元为实验数据进行实验,验证了该匹配算法的有效性。 展开更多
关键词 编辑距离 最长公共子序列 相似度计算 数据元 权重
下载PDF
基于网络爬虫的导航深度服务信息自动采集 被引量:8
10
作者 陈睿嘉 康志忠 张卫涛 《测绘工程》 CSCD 2015年第1期17-24,共8页
根据近来对地理信息Web服务搜索引擎的研究,设计一种基于网络爬虫自动采集POI(Point Of Interest)深度服务信息的方法。使用网络爬虫与DOM(Document Object Model)技术从发布相关POI深度服务信息的网站抓取实时信息,并通过编辑距离与针... 根据近来对地理信息Web服务搜索引擎的研究,设计一种基于网络爬虫自动采集POI(Point Of Interest)深度服务信息的方法。使用网络爬虫与DOM(Document Object Model)技术从发布相关POI深度服务信息的网站抓取实时信息,并通过编辑距离与针对地址匹配的改进最大公共子序列分析页面内容与POI主题相关度,进而将相关度最高的深度服务信息与POI点匹配,生成深度服务信息点特征。实验证明了方法的有效性。 展开更多
关键词 POI 深度服务信息 网络爬虫 DOM 编辑距离 最大公共子序列
下载PDF
基于Levenshtein距离的流程检索方法 被引量:6
11
作者 曹斌 尹建伟 陈慧蕊 《计算机集成制造系统》 EI CSCD 北大核心 2012年第8期1766-1773,共8页
为提高大规模流程库的检索效率,提出一种新的流程检索方法。该方法采用最小深度优先搜索编码对流程图模型进行规范化标志,并基于Levenshtein距离计算最小深度优先搜索编码获得相似度值,提高了流程图匹配时相似度计算的效率。通过对原型... 为提高大规模流程库的检索效率,提出一种新的流程检索方法。该方法采用最小深度优先搜索编码对流程图模型进行规范化标志,并基于Levenshtein距离计算最小深度优先搜索编码获得相似度值,提高了流程图匹配时相似度计算的效率。通过对原型系统进行实验评估,证明了所提方法在检索效率方面高于图编辑距离,且在返回的检索结果中,相似度最高的前5个结果基本与图编辑距离一致,保证了方法的准确性。 展开更多
关键词 流程检索 流程相似度计算 深度优先搜索 levenshtein距离
下载PDF
一种新型的基于Levenshtein距离层次聚类的时序操作优化方法 被引量:6
12
作者 朱坚 杨博 +2 位作者 王永健 唐晓婕 李宏光 《化工学报》 EI CAS CSCD 北大核心 2019年第2期581-589,共9页
现代流程工业过程中,DCS采集并存储了大量的操作时序数据,若能将其中有价值的操作经验和操作信息提取出来,则可大大提高操作系统的性能。然而,操作经验概念较为模糊,无法具体量化。因此,将具有时序特征的操作数据符号化,使操作经验以区... 现代流程工业过程中,DCS采集并存储了大量的操作时序数据,若能将其中有价值的操作经验和操作信息提取出来,则可大大提高操作系统的性能。然而,操作经验概念较为模糊,无法具体量化。因此,将具有时序特征的操作数据符号化,使操作经验以区块化形式表示,并提出一种基于Levenshtein距离的时序层次凝聚聚类算法,通过对操纵变量的历史时序操作数据进行相似性搜索,进而获得多种相似的操作模式,并将每种类型的操作模式对应的过程变量进行性能分析,从而得到并保存实际工作过程中所需的操作经验,以达到生产过程操作优化的目的。为了验证所提出方法,将其用于连续组分精馏操作过程,实验结果表明所提出的基于Levenshtein距离层次聚类的操作优化方法的有效性。 展开更多
关键词 时间序列 levenshtein距离 层次聚类 操作优化 精馏
下载PDF
由一般拓扑度量空间所产生的Alignment空间 被引量:5
13
作者 卢国祥 沈世镒 《工程数学学报》 CSCD 北大核心 2008年第6期1097-1101,共5页
Alignment空间是一个在广义误差下定义的度量空间。在以往的信息处理问题中,一般只讨论离散状态下的序列比对Alignment问题,并由此产生一种新的非线性度量空间-Alignment空间。本文将离散状态下的Alignment空间推广到一般情况,得到了由... Alignment空间是一个在广义误差下定义的度量空间。在以往的信息处理问题中,一般只讨论离散状态下的序列比对Alignment问题,并由此产生一种新的非线性度量空间-Alignment空间。本文将离散状态下的Alignment空间推广到一般情况,得到了由一般拓扑度量空间所产生的Alignment空间仍然是度量空间,并证明了Alignment距离与Levenshtein距离的等价性。 展开更多
关键词 由度量空间产生的Alignment空间 度量空间的基本定理 Alignment距离 levenshtein距离
下载PDF
语音理解中的容错技术的研究 被引量:5
14
作者 张建平 王作英 +1 位作者 赵庆卫 陆大紟 《电子学报》 EI CAS CSCD 北大核心 2000年第3期84-86,56,共4页
本文研究了大词汇量非特定人汉语连续语音识别和理解系统中的容错技术 .首先 ,声学识别器产生N个最优 (N best)音节候选及其相应的声学层的概念 ,再由N个最优音节候选构成一个音节网格 (syllablelattice) .一个容错语言分析器被用来搜... 本文研究了大词汇量非特定人汉语连续语音识别和理解系统中的容错技术 .首先 ,声学识别器产生N个最优 (N best)音节候选及其相应的声学层的概念 ,再由N个最优音节候选构成一个音节网格 (syllablelattice) .一个容错语言分析器被用来搜索该音节网格并发现最优的汉字串 .由于考虑了额外的可能候选音节 ,该最优汉字串的某些字的音节可能不在原来的音节网格中 .这样 ,声学层的一些错误被纠正 ,语言分析器的稳健性 (robustness)得以提高 .实验表明容错分析器能将字的理解正确率从 91 83%提高到 94 1 5 % .与传统的无容错技术的基于三元文法模型的分析器相比 ,错误率下降了 2 8 4% . 展开更多
关键词 容错技术 语音理解 语言模型 语音识别
下载PDF
基于熵的音频指纹检索技术研究与实现 被引量:7
15
作者 王伟 陈志高 +1 位作者 孟宪凯 李伟 《计算机科学》 CSCD 北大核心 2017年第S1期551-556,共6页
介绍了一种基于熵的音频指纹检索技术,该技术采用音频的熵特征作为音频的指纹特征(AFP),在检索中,该指纹特征可以用多种串匹配算法进行信息比对。实验采用最大公共字串(LCS)、编辑距离(Levenshtein Distance)和动态时间规整(DTW)算法实... 介绍了一种基于熵的音频指纹检索技术,该技术采用音频的熵特征作为音频的指纹特征(AFP),在检索中,该指纹特征可以用多种串匹配算法进行信息比对。实验采用最大公共字串(LCS)、编辑距离(Levenshtein Distance)和动态时间规整(DTW)算法实现指纹特征匹配,并采用一定数量的歌曲文件作为实验的测试集。每首歌曲都有一个带有不同的较大失真的音频文件或由不同歌唱家演唱的不同版本,这些带有不同的较大失真的音频文件由原曲经过不同的严重音频处理得到,比如添加噪声、加快速度、剪辑等。实验结果显示,使用的3种匹配算法均可以将训练集中所有的歌曲正确地识别出来,从而证明了基于熵的音频指纹检索技术具有准确性、鲁棒性、区分性等优良性质。 展开更多
关键词 音频指纹 检索 最大公共子串 编辑距离 动态时间规整
下载PDF
融合语义和位置信息的兴趣点实体匹配方法
16
作者 孙晓霞 《地理空间信息》 2023年第5期22-24,共3页
兴趣点是反映城市建设的重要地理空间框架数据,及时快速更新兴趣点具有重要意义。提出了一种融合语义和位置信息的兴趣点实体匹配方法,可从互联网数据中获取新增的数据,提高了兴趣点实体的时效性,减少了人工检查的工作量。实验结果表明... 兴趣点是反映城市建设的重要地理空间框架数据,及时快速更新兴趣点具有重要意义。提出了一种融合语义和位置信息的兴趣点实体匹配方法,可从互联网数据中获取新增的数据,提高了兴趣点实体的时效性,减少了人工检查的工作量。实验结果表明,该方法可快速更新兴趣点实体,降低生产成本,提高生产效率,提升多源数据的应用价值。 展开更多
关键词 兴趣点实体 城市地理空间框架 Jaccard距离 levenshtein距离
下载PDF
基于日志模板的异常检测技术 被引量:6
17
作者 王智远 任崇广 +1 位作者 陈榕 秦莉 《智能计算机与应用》 2018年第5期17-20,24,共5页
日志分析是云计算业务平台管理中一项非常重要的工作。日志分析旨在保证云平台的高效性与可用性,传统的人工分析方式存在日志复杂、日志量大等问题。本文提出了一种日志异常检测方法,首先基于编辑距离进行文本聚类形成日志模板,在此基... 日志分析是云计算业务平台管理中一项非常重要的工作。日志分析旨在保证云平台的高效性与可用性,传统的人工分析方式存在日志复杂、日志量大等问题。本文提出了一种日志异常检测方法,首先基于编辑距离进行文本聚类形成日志模板,在此基础上构建特征向量,利用弱分类器训练形成得分特征向量,利用得分特征向量与随机森林构建强分类器。实验表明,日志模板与真实模板之间的互信息为0.91,较为接近,利用随机森林构建的强分类器在本文的数据集上表现最好,分类精度达0.94。 展开更多
关键词 日志分析 编辑距离 分类 互信息 强分类器 随机森林
下载PDF
基于莱文斯坦距离的易混淆药品目录自动生成算法及软件实现
18
作者 陈杨 淡重辉 +3 位作者 何瑶 阮一 陈肖 郑晓媛 《中国药房》 CAS 北大核心 2024年第15期1899-1904,共6页
目的构建一种高效的易混淆药品目录自动生成算法,并在此基础上开发一种易混淆药品目录管理系统,以此提升对易混淆药品目录的管理效率。方法本研究以莱文斯坦距离算法为理论基础,深入研究易混淆药品组的自动识别机制以及相似性阈值筛选方... 目的构建一种高效的易混淆药品目录自动生成算法,并在此基础上开发一种易混淆药品目录管理系统,以此提升对易混淆药品目录的管理效率。方法本研究以莱文斯坦距离算法为理论基础,深入研究易混淆药品组的自动识别机制以及相似性阈值筛选方法,进而构建易混淆药品目录自动生成算法。在系统开发层面,本研究采用Visual Basic.NET作为编程语言,结合SQL Server 2008 R2 Express数据库管理平台,设计开发易混淆药品目录管理系统。结果相似性阈值δ是易混淆药品目录自动生成算法的关键参数,随着δ的逐渐增大,易混淆药品的总数逐渐减少,而易混淆药品组数则呈现先上升后下降的变化规律。在实际应用中,可根据药品的通用名或品种名构建易混淆药品目录,对应的相似性阈值可取0.75和0.83。此外,本课题组开发的易混淆药品目录管理系统将原本耗时约1周的目录建立时间缩短至不到1 h,极大地提升了工作效率。结论本研究构建的易混淆药品目录自动生成算法高效快速,为易混淆药品管理提供了强有力的技术支撑。开发的易混淆药品目录管理系统极大地减轻了目录建立和维护的时间成本,提高了对易混淆药品目录的管理效率。 展开更多
关键词 易混淆药品 莱文斯坦距离 药品目录 相似性阈值
下载PDF
基于编辑距离的字符串相似度算法研究 被引量:2
19
作者 张胜楠 《现代计算机》 2023年第14期23-26,32,共5页
基于编辑距离(LD)求解字符串相似度的算法非常经典,但其在普适性和精确性方面略有不足,基于最长公共子串(LCCS)和最长公共子序列(LCS)对其改进,使计算结果更有区分性、普适性和精确性。另外在计算相似度时,对LD和LCS的求解算法从数据结... 基于编辑距离(LD)求解字符串相似度的算法非常经典,但其在普适性和精确性方面略有不足,基于最长公共子串(LCCS)和最长公共子序列(LCS)对其改进,使计算结果更有区分性、普适性和精确性。另外在计算相似度时,对LD和LCS的求解算法从数据结构的角度进行了优化,在数量级上降低了算法空间复杂度。对实验结果进行了对比分析,证明其可行性和正确性。 展开更多
关键词 相似度计算 编辑距离 最长公共子序列 最长公共子串
下载PDF
一种层次Levenshtein距离的无指纹校准的室内定位方法 被引量:4
20
作者 何富贵 杨铮 +2 位作者 吴陈沭 赵姝 周先存 《智能系统学报》 CSCD 北大核心 2017年第3期422-429,共8页
随着移动计算领域的兴起,基于位置的服务越来越受青睐。目前各种室内定位的方法层出不穷,由于室内广泛部署了无线基础设施,基于WiFi指纹信息的室内定位技术是其主流方法。设备异构和室内环境变化是影响定位精度的主要因素。本文针对以... 随着移动计算领域的兴起,基于位置的服务越来越受青睐。目前各种室内定位的方法层出不穷,由于室内广泛部署了无线基础设施,基于WiFi指纹信息的室内定位技术是其主流方法。设备异构和室内环境变化是影响定位精度的主要因素。本文针对以上两个问题,提出一种层次Levenshtein距离(HLD)的WiFi指纹距离计算算法,实现异构设备的指纹无校准比对。将不同移动设备采集的RSSI信息转化为AP序列,根据AP对应的RSSI值的差异性计算其层次能级,结合Levenshtein距离计算WiFi指纹之间的距离。对于需定位的WiFi指纹RSSI信息,利用HLD算法获取K个近邻,采用WKNN算法进行预测定位。实验中,为了验证算法的鲁棒性和有效性,在3种不同类型的室内环境中采用5种不同的移动设备来采集WiFi的RSSI信息,其定位的平均精度达1.5 m。 展开更多
关键词 室内定位 WiFi指纹 设备异构 无指纹校准 levenshtein距离
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部