期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于改进编辑距离的字符串相似度求解算法 被引量:72
1
作者 姜华 韩安琪 +2 位作者 王美佳 王峥 吴雲玲 《计算机工程》 CAS CSCD 2014年第1期222-227,共6页
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。... 编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。 展开更多
关键词 编辑距离 LD算法 回溯路径 最长公共子串 相似度 模糊查询
下载PDF
求最长公共子串问题的算法分析 被引量:10
2
作者 张毅超 车玫 马骏 《计算机仿真》 CSCD 2007年第12期97-100,116,共5页
高效求解2个字符串的最长公共子串(Longest Common Substring)是实现很多字符串算法的关键。文中首先给出了求解LCP问题的动态规划算法,广义后缀树算法,研究并分析了这两种算法,得出动态规划算法易于理解,但时间复杂度较高;广义后缀树... 高效求解2个字符串的最长公共子串(Longest Common Substring)是实现很多字符串算法的关键。文中首先给出了求解LCP问题的动态规划算法,广义后缀树算法,研究并分析了这两种算法,得出动态规划算法易于理解,但时间复杂度较高;广义后缀树算法的时间复杂度较低,但实现较为复杂并且广义后缀树占用的空间也较多。最后提出了一个新算法,该算法使用2个字符串的广义后缀数组,在保持和广义后缀树时间复杂度相等的基础上,可以简单地实现并且占用较少的空间。 展开更多
关键词 最长公共子串 动态规划 广义后缀树 广义后缀数组
下载PDF
两种基于双向比较的最长公共子串算法 被引量:9
3
作者 王开云 孔思淇 +3 位作者 付云生 潘泽友 马卫东 赵强 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2444-2454,共11页
查找两个给定字符串的最长公共子串(LCSstr)是一类重要字符串分析问题,在字符串近似匹配、计算机病毒特征码对比等方面有着广泛的用途.最长公共子串算法目前主要包括动态规划算法(LCSstrDP)和后缀数组算法(LCSstrSA),分别用于短串和长... 查找两个给定字符串的最长公共子串(LCSstr)是一类重要字符串分析问题,在字符串近似匹配、计算机病毒特征码对比等方面有着广泛的用途.最长公共子串算法目前主要包括动态规划算法(LCSstrDP)和后缀数组算法(LCSstrSA),分别用于短串和长串的最长公共子串计算.前者代码简洁,但计算速度较慢,后者速度很快但算法非常复杂.提出两种基于双向比较的最长公共子串算法,即LCSstrSeL和LCSstrSCeL.LCSstrSeL跨越已有的最长公共子串长度,与LCSstrDP相比,代码同样简洁,平均计算效率提高近一个数量级,并且不需要额外的存储空间.LCSstrSCeL是在LCSstrSeL的基础上,增加字符跨越、连续同值区间跨越等机制,平均效率较LCSstrSeL亦有一定程度的提高,内存开销与LCSstrDP相近,在中小长度的字符串LCSstr计算中,平均计算效率高于LCSstrSA,某些情况下的计算效率可达到亚线性的速度. 展开更多
关键词 最长公共子串 双向比较 连续同值区间 跨越 亚线性
下载PDF
基于动态规划的汉语句子相似度算法 被引量:8
4
作者 冯凯 王小华 谌志群 《计算机工程》 CAS CSCD 2013年第2期220-224,共5页
传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果... 传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果表明,对于含有大量专有名词的问题集合,该算法的测试正确率达93.6%,计算效率较高。 展开更多
关键词 句子相似度 动态规划 自动问答 最长公共子串 消重链表
下载PDF
求最长公共子串长度的算法 被引量:3
5
作者 殷新春 陈凌 《东南大学学报(自然科学版)》 EI CAS CSCD 1998年第6期191-194,共4页
给出求2个字符串最长公共子串(LCS)长度的递归算法、递推算法和心动阵列算法.对2个长度分别为n,m(n≥m)的字符串,递归算法的最坏时空复杂性为(m+n)!/(m!n!),而递推算法的时空复杂性分别仅为m+nm+O... 给出求2个字符串最长公共子串(LCS)长度的递归算法、递推算法和心动阵列算法.对2个长度分别为n,m(n≥m)的字符串,递归算法的最坏时空复杂性为(m+n)!/(m!n!),而递推算法的时空复杂性分别仅为m+nm+O(1),2m+O(1).在心动阵列算法中,需m个PE和n+m的时间.最后给出了一个应用实例. 展开更多
关键词 长度 心动阵列 算法分析 最长公共子串 递归算法 递推算法 字符串 信号处理 模式匹配
下载PDF
字符串匹配的自动机方法 被引量:1
6
作者 王世昌 《计算机应用》 CSCD 1996年第4期26-28,共3页
本文讨论了字符串的连续匹配、离散匹配及求解最长公共子串的自动机算法。
关键词 字符串 匹配 自动机 最长公共子串
下载PDF
关系数据库SQL代码的自动评分算法研究 被引量:2
7
作者 吴娇娇 何小卫 赵洋 《计算机技术与发展》 2018年第4期114-118,共5页
针对数据库教学中SQL(结构化查询语言)代码评判的不规范性及不明确性,建立了一个SQL代码自动评分模型。该模型首先对SQL代码进行了预处理,分析语义结构进而提取出代码的特征,同时进行分词处理;然后构建SQL代码的同义库,根据同义库将分... 针对数据库教学中SQL(结构化查询语言)代码评判的不规范性及不明确性,建立了一个SQL代码自动评分模型。该模型首先对SQL代码进行了预处理,分析语义结构进而提取出代码的特征,同时进行分词处理;然后构建SQL代码的同义库,根据同义库将分词后的代码片段进行同义转换;之后运用最长公共子串算法对代码片段进行相似度匹配,进而赋予各个片段影响因子,得到代码总的相似度;最后分析人工评分数据制定相应的自动评分策略,从而评定出SQL代码的分数。该模型首次构建同义库,有效地提高了SQL代码的评分效率,可以达到比较准确的水平,采用循环匹配也可以对SQL中的长代码进行评分。 展开更多
关键词 代码自动评分 结构化查询语言 最长公共子串 同义库
下载PDF
网络维吾尔文判别及其文本长度下界的探讨 被引量:2
8
作者 倪耀群 曹鹏 +2 位作者 许洪波 唐慧丰 程学旗 《中文信息学报》 CSCD 北大核心 2012年第6期109-115,共7页
将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错... 将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。 展开更多
关键词 老维文 语种识别 最大公共子串
下载PDF
基于最长公共子串挖掘的未知链路层协议帧切割算法
9
作者 陈庆超 王韬 +1 位作者 冯文博 尹世庄 《计算机科学》 CSCD 北大核心 2020年第7期227-230,共4页
在日益激烈的现代电子对抗领域中,侦听方截获的原始数据一般是比特流的形式,将比特流划分为数据帧是处理截获数据的首要任务。现有方法虽然可以准确地提取相关序列实现帧切分,但是当需要处理的数据量较大时,时间和空间的消耗量过大,并... 在日益激烈的现代电子对抗领域中,侦听方截获的原始数据一般是比特流的形式,将比特流划分为数据帧是处理截获数据的首要任务。现有方法虽然可以准确地提取相关序列实现帧切分,但是当需要处理的数据量较大时,时间和空间的消耗量过大,并且实验过程中常常需要预先设定一些阈值。为此,文中提出了一种基于最长公共子串挖掘的未知链路层协议帧切割算法,该算法通过统计一定长度的比特流的最长公共子串,逐步精确前导码和帧起始定界符,从而实现帧切分。实验数据表明,该算法相较于基于频繁序列挖掘以实现帧切分的算法,相关候选序列数量呈指数级下降,最终使得候选序列唯一。该算法的时间复杂度为O(n),且只需单次扫描,充分说明该算法可以高效地实现帧切分。 展开更多
关键词 最长公共子串 前导码 帧起始定界符 帧分割 未知链路层协议
下载PDF
基于文件比较的电子公文痕迹保留方法
10
作者 张游杰 马俊明 张清萍 《计算机应用与软件》 CSCD 2016年第3期118-120,137,共4页
传统的电子公文痕迹保留方法,在用户对文本进行频繁修改时,痕迹保留结果容易变得混乱。针对这种情况,提出基于文本比较的痕迹保留方法。该方法以基于递进式逐字比较的最长公共子串匹配算法为核心,通过递归调用方式找出两个文本的所有公... 传统的电子公文痕迹保留方法,在用户对文本进行频繁修改时,痕迹保留结果容易变得混乱。针对这种情况,提出基于文本比较的痕迹保留方法。该方法以基于递进式逐字比较的最长公共子串匹配算法为核心,通过递归调用方式找出两个文本的所有公共子串,并以此为基础实现痕迹保留。分析和实验结果表明,该方法能够比较真实地反映文本修改过程和用户的修改意图,并可以在普通计算机上快速完成万字以内的文本比较,适用于电子公文流转中的痕迹保留。 展开更多
关键词 电子政务 痕迹保留 文本比较 最长公共子串
下载PDF
LCS算法在术语抽取中的应用研究 被引量:11
11
作者 潘虹 徐朝军 《情报学报》 CSSCI 北大核心 2010年第5期853-857,共5页
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规... 本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集。通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%。 展开更多
关键词 最大公共子串算法 术语抽取
下载PDF
基于主题词的微博热点话题发现 被引量:11
12
作者 叶成绪 杨萍 刘少鹏 《计算机应用与软件》 CSCD 2016年第2期46-50,共5页
近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点... 近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。 展开更多
关键词 主题词 维基百科 最长公共子串 热点话题发现 微博
下载PDF
求最长公共子串的两类解法比较
13
作者 赵福生 《现代计算机》 2011年第20期30-31,36,共3页
在字符串的运算中,求两个字符串的最长公共子串是一个重要的算法,有着广泛的应用价值。一般认为一共有两大类解法,之所以叫两大类,是因为每一类都可以再细致划分。前一类易理解,占用内存单元大,时间复杂度低,后一类复杂,最好和KMP算法... 在字符串的运算中,求两个字符串的最长公共子串是一个重要的算法,有着广泛的应用价值。一般认为一共有两大类解法,之所以叫两大类,是因为每一类都可以再细致划分。前一类易理解,占用内存单元大,时间复杂度低,后一类复杂,最好和KMP算法结合。 展开更多
关键词 求最长公共子串 二维数组 四重循环 KMP算法
下载PDF
基于最长公共视觉词串的图像检索方法 被引量:2
14
作者 苗军 崔嵩 +2 位作者 段立娟 张璇 许少武 《计算机工程与应用》 CSCD 北大核心 2018年第15期192-196,234,共6页
词袋模型是图像检索中的一种关键技术。词袋模型中每张图像表示为视觉词在码本中的频率直方图。这样的检索方式忽视了视觉词间对于图像表示很重要的空间信息。提出一种全新的基于最长公共视觉词串的图像检索方法。词串的提取基于视觉词... 词袋模型是图像检索中的一种关键技术。词袋模型中每张图像表示为视觉词在码本中的频率直方图。这样的检索方式忽视了视觉词间对于图像表示很重要的空间信息。提出一种全新的基于最长公共视觉词串的图像检索方法。词串的提取基于视觉词间的拓扑关系,包含很多图像的空间信息。在Holiday数据集上的实验结果表明提出的方法提升了词袋模型的检索效果。 展开更多
关键词 图像检索 词袋模型 最长公共视觉词串
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部