期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
A Novel Mathematical Model for Similarity Search in Pattern Matching Algorithms 被引量:1
1
作者 P. Vinod-Prasad 《Journal of Computer and Communications》 2020年第9期94-99,共6页
Modern applications require large databases to be searched for regions that are similar to a given pattern. The DNA sequence analysis, speech and text recognition, artificial intelligence, Internet of Things, and many... Modern applications require large databases to be searched for regions that are similar to a given pattern. The DNA sequence analysis, speech and text recognition, artificial intelligence, Internet of Things, and many other applications highly depend on pattern matching or similarity searches. In this paper, we discuss some of the string matching solutions developed in the past. Then, we present a novel mathematical model to search for a given pattern and it’s near approximates in the text. 展开更多
关键词 String Matching Pattern Matching Similarity Search substring Search
下载PDF
A SOM-Based Document Clustering Using Frequent Max Substrings for Non-Segmented Texts
2
作者 Todsanai Chumwatana Kok Wai Wong Hong Xie 《Journal of Intelligent Learning Systems and Applications》 2010年第3期117-125,共9页
This paper proposes a non-segmented document clustering method using self-organizing map (SOM) and frequent max substring technique to improve the efficiency of information retrieval. SOM has been widely used for docu... This paper proposes a non-segmented document clustering method using self-organizing map (SOM) and frequent max substring technique to improve the efficiency of information retrieval. SOM has been widely used for document clustering and is successful in many applications. However, when applying to non-segmented document, the challenge is to identify any interesting pattern efficiently. There are two main phases in the propose method: preprocessing phase and clustering phase. In the preprocessing phase, the frequent max substring technique is first applied to discover the patterns of interest called Frequent Max substrings that are long and frequent substrings, rather than individual words from the non-segmented texts. These discovered patterns are then used as indexing terms. The indexing terms together with their number of occurrences form a document vector. In the clustering phase, SOM is used to generate the document cluster map by using the feature vector of Frequent Max substrings. To demonstrate the proposed technique, experimental studies and comparison results on clustering the Thai text documents, which consist of non-segmented texts, are presented in this paper. The results show that the proposed technique can be used for Thai texts. The document cluster map generated with the method can be used to find the relevant documents more efficiently. 展开更多
关键词 Frequent MAX substring SELF-ORGANIZING Map Document Clustering
下载PDF
Verification of Substring Searches on the Untrusted Cloud
3
作者 Faizal Riaz-ud-Din Robin Doss 《ZTE Communications》 2016年第B06期10-20,共11页
Ensuring the correctness of answers to substring queries has not been a concern for consumers working within the traditional confines of their own organisational infrastructure. This is due to the fact that organisati... Ensuring the correctness of answers to substring queries has not been a concern for consumers working within the traditional confines of their own organisational infrastructure. This is due to the fact that organisations generally trust their handling of their own data hosted on their own servers and networks. With cloud computing however, where both data and processing are delegated to unknown servers, guarantees of the correctness of queries need to be available. The verification of the results of substring searches has not been given much focus to date within the wider scope of data and query, verification. We present a verification scheme for existential substring searc, hes on text files, which is the first of its kind to satisfy the desired properties of authenticity, completeness, and freshness. The scheme is based on suffix arrays, Merkle hash trees and cryptographic hashes to provide strong guarantees of correctness for the consumer, even in fully untrusted environments. We provide a description of our scheme, along with the results of experiments conducted on a fully-working prototype. 展开更多
关键词 substring search query verification CLOUD
下载PDF
一种空间高效的多核并行近似子串匹配方法
4
作者 王佳英 王斌 杨晓春 《计算机研究与发展》 EI CSCD 北大核心 2015年第S1期37-47,共11页
子串匹配问题是信息检索、信号处理以及生物信息学等领域中的研究重点.随着文本数据的快速增长,在大数据集上高效地完成近似子串匹配是一项挑战.另一方面,多核架构已经成为当今的主流计算机架构,如何在大规模数据中利用多核的优势提高... 子串匹配问题是信息检索、信号处理以及生物信息学等领域中的研究重点.随着文本数据的快速增长,在大数据集上高效地完成近似子串匹配是一项挑战.另一方面,多核架构已经成为当今的主流计算机架构,如何在大规模数据中利用多核的优势提高近似子串匹配的效率是本文的研究重点.BWT索引是生物信息学中广泛应用的索引方法,其特点是索引空间小,支持高效压缩和子串匹配.但现有的基于BWT的方法没有考虑多个查询串上的计算共享以及多核资源的动态分配.本文在传统的BWT搜索方法基础上对搜索过程进行了改进,采用过滤和验证的方式完成近似子串匹配.首先,对查询串进行分割重组来减少搜索过程中的重复计算.其次,利用多核优势,动态地按需分配处理器资源从而提高搜索和验证的效率.最后,实验研究展示了本文提出的方法的高效性. 展开更多
关键词 BWT 多核 并行 子串 近似匹配
下载PDF
基于改进编辑距离的字符串相似度求解算法 被引量:71
5
作者 姜华 韩安琪 +2 位作者 王美佳 王峥 吴雲玲 《计算机工程》 CAS CSCD 2014年第1期222-227,共6页
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。... 编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。 展开更多
关键词 编辑距离 LD算法 回溯路径 最长公共子串 相似度 模糊查询
下载PDF
基于多策略融合的中文术语抽取方法 被引量:28
6
作者 周浪 史树敏 +1 位作者 冯冲 黄河燕 《情报学报》 CSSCI 北大核心 2010年第3期460-467,共8页
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考... 中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务。实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能。 展开更多
关键词 中文术语抽取 语言规则获取 子串归并 搭配检验 词语活跃度 领域相关度
下载PDF
基于后缀树的基因数据可搜索加密方法 被引量:20
7
作者 秦诗悦 周福才 柳璐 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第4期461-466,共6页
为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密... 为保障用户免遭侵犯隐私的风险,提出了一种特别支持基因数据的可搜索加密方法.针对目前密文搜索方案大多数仅支持通过关键字进行搜索,而无法用于不含关键字的基因数据的问题,利用后缀树和伪随机函数等密码学原语构建安全索引,实现对密文基因数据的任意子字符串搜索.安全性证明该方法满足动态自适应安全,利用理论分析和真实数据对效率进行测评.该方法可以对基因数据进行高效安全的任意子字符串搜索,保护数据完整性和隐私性,在个性化医疗大众化的环境下具备广阔的应用前景. 展开更多
关键词 基因数据 后缀树 可搜索加密 子字符串搜索 现代医疗
下载PDF
LCS算法在术语抽取中的应用研究 被引量:11
8
作者 潘虹 徐朝军 《情报学报》 CSSCI 北大核心 2010年第5期853-857,共5页
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规... 本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集。通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%。 展开更多
关键词 最大公共子串算法 术语抽取
下载PDF
基于主题词的微博热点话题发现 被引量:11
9
作者 叶成绪 杨萍 刘少鹏 《计算机应用与软件》 CSCD 2016年第2期46-50,共5页
近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点... 近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。 展开更多
关键词 主题词 维基百科 最长公共子串 热点话题发现 微博
下载PDF
求最长公共子串问题的算法分析 被引量:10
10
作者 张毅超 车玫 马骏 《计算机仿真》 CSCD 2007年第12期97-100,116,共5页
高效求解2个字符串的最长公共子串(Longest Common Substring)是实现很多字符串算法的关键。文中首先给出了求解LCP问题的动态规划算法,广义后缀树算法,研究并分析了这两种算法,得出动态规划算法易于理解,但时间复杂度较高;广义后缀树... 高效求解2个字符串的最长公共子串(Longest Common Substring)是实现很多字符串算法的关键。文中首先给出了求解LCP问题的动态规划算法,广义后缀树算法,研究并分析了这两种算法,得出动态规划算法易于理解,但时间复杂度较高;广义后缀树算法的时间复杂度较低,但实现较为复杂并且广义后缀树占用的空间也较多。最后提出了一个新算法,该算法使用2个字符串的广义后缀数组,在保持和广义后缀树时间复杂度相等的基础上,可以简单地实现并且占用较少的空间。 展开更多
关键词 最长公共子串 动态规划 广义后缀树 广义后缀数组
下载PDF
基于调度模型的舰船嵌入式系统关键数据反馈加密方法 被引量:6
11
作者 黄志武 《舰船科学技术》 北大核心 2019年第10期124-126,共3页
针对现阶段舰船嵌入式系统,采用单一传统数据加密方法,存在安全性降低的问题。提出基于调度模型的舰船嵌入式系统关键数据反馈加密方法,通过利用3GR加密字串分割算法,对舰船关键数据加密源字串进行分割化运算。创建AEHA综合加密认证单元... 针对现阶段舰船嵌入式系统,采用单一传统数据加密方法,存在安全性降低的问题。提出基于调度模型的舰船嵌入式系统关键数据反馈加密方法,通过利用3GR加密字串分割算法,对舰船关键数据加密源字串进行分割化运算。创建AEHA综合加密认证单元,对分割后的字串做精简数优化,加速认证。对比实验证明,提出的基于调度模型的舰船嵌入式系统关键数据反馈加密方法,能够快速对舰船嵌入式系统关键反馈数据进行实时瞬态加密,加密数据抗攻击性与反破解能力都优于传统加密方法。 展开更多
关键词 嵌入式 加密方法 冗余子串 3GR加密子串分割算法
下载PDF
两种基于双向比较的最长公共子串算法 被引量:9
12
作者 王开云 孔思淇 +3 位作者 付云生 潘泽友 马卫东 赵强 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2444-2454,共11页
查找两个给定字符串的最长公共子串(LCSstr)是一类重要字符串分析问题,在字符串近似匹配、计算机病毒特征码对比等方面有着广泛的用途.最长公共子串算法目前主要包括动态规划算法(LCSstrDP)和后缀数组算法(LCSstrSA),分别用于短串和长... 查找两个给定字符串的最长公共子串(LCSstr)是一类重要字符串分析问题,在字符串近似匹配、计算机病毒特征码对比等方面有着广泛的用途.最长公共子串算法目前主要包括动态规划算法(LCSstrDP)和后缀数组算法(LCSstrSA),分别用于短串和长串的最长公共子串计算.前者代码简洁,但计算速度较慢,后者速度很快但算法非常复杂.提出两种基于双向比较的最长公共子串算法,即LCSstrSeL和LCSstrSCeL.LCSstrSeL跨越已有的最长公共子串长度,与LCSstrDP相比,代码同样简洁,平均计算效率提高近一个数量级,并且不需要额外的存储空间.LCSstrSCeL是在LCSstrSeL的基础上,增加字符跨越、连续同值区间跨越等机制,平均效率较LCSstrSeL亦有一定程度的提高,内存开销与LCSstrDP相近,在中小长度的字符串LCSstr计算中,平均计算效率高于LCSstrSA,某些情况下的计算效率可达到亚线性的速度. 展开更多
关键词 最长公共子串 双向比较 连续同值区间 跨越 亚线性
下载PDF
基于动态规划的汉语句子相似度算法 被引量:8
13
作者 冯凯 王小华 谌志群 《计算机工程》 CAS CSCD 2013年第2期220-224,共5页
传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果... 传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果表明,对于含有大量专有名词的问题集合,该算法的测试正确率达93.6%,计算效率较高。 展开更多
关键词 句子相似度 动态规划 自动问答 最长公共子串 消重链表
下载PDF
基于后缀数组的克隆检测 被引量:7
14
作者 史庆庆 张丽萍 +1 位作者 尹丽丽 刘东升 《计算机工程》 CAS CSCD 2013年第9期123-127,共5页
程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量克隆代码,增加软件开发和维护的成本。为解决该问题,提出一种新的克隆检测方法。利用基于后缀数组的算法查找重复的Token子串,进而检测出克隆代码,开发相应的克隆检测工具SaCD... 程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量克隆代码,增加软件开发和维护的成本。为解决该问题,提出一种新的克隆检测方法。利用基于后缀数组的算法查找重复的Token子串,进而检测出克隆代码,开发相应的克隆检测工具SaCD,用其检测29款C语言开源软件。实验结果表明,SaCD能快速有效地检测软件中的Type-1和Type-2语句克隆,其检测速度比传统的克隆检测工具CCFinderx快了近20倍。 展开更多
关键词 克隆代码 克隆检测 Token串 后缀数组 重复子串 DC3算法
下载PDF
基于人工智能技术的乐曲节拍识别系统设计
15
作者 杨刘园 《自动化技术与应用》 2024年第3期128-131,共4页
为了高精度识别乐曲节拍,设计基于人工智能技术的乐曲节拍识别系统。首先采集乐曲节拍音频信号,对信号实施放大处理,然后采用复倒谱与子串匹配提取音频信号指纹特征,与乐曲数据库指纹进行匹配,根据匹配结果进行乐曲节拍识别,最后测试所... 为了高精度识别乐曲节拍,设计基于人工智能技术的乐曲节拍识别系统。首先采集乐曲节拍音频信号,对信号实施放大处理,然后采用复倒谱与子串匹配提取音频信号指纹特征,与乐曲数据库指纹进行匹配,根据匹配结果进行乐曲节拍识别,最后测试所设计系统应用性能。测试结果显示:所设计系统可以高精度识别多种乐曲节拍中有效音频信号,漏识率低,具有较高的实际应用价值。 展开更多
关键词 人工智能 音频指纹技术 乐曲节拍 识别系统 复倒谱 子串匹配
下载PDF
DNA片段拼接中基于定长特征子串的重复序列信息屏蔽方法 被引量:4
16
作者 张博锋 王正华 《国防科技大学学报》 EI CAS CSCD 北大核心 2002年第6期67-70,共4页
包含重复序列(repeats)的DNA序列的重构是大规模DNA片段拼接所面临的实际困难之一。在考虑片段数据所隐含的位置信息的基础上,提出了一种基于定长特征子串的屏蔽片段数据中重复序列信息的方法,即在进行序列相互比对前利用独特子串标识... 包含重复序列(repeats)的DNA序列的重构是大规模DNA片段拼接所面临的实际困难之一。在考虑片段数据所隐含的位置信息的基础上,提出了一种基于定长特征子串的屏蔽片段数据中重复序列信息的方法,即在进行序列相互比对前利用独特子串标识大多数片段,从而减少可能的错误重叠,讨论了方法中几个参数的确定问题并用计算结果说明了方法的有效性。 展开更多
关键词 重复序列 信息屏蔽 生物信息学 片段拼接 重复片段 定长特征子串 DNA序列
下载PDF
模式匹配算法的深入研究 被引量:1
17
作者 佟冶 刘娜 郑楠楠 《上海师范大学学报(自然科学版)》 2008年第6期581-586,共6页
模式匹配算法的应用较为广泛,KMP算法是一种性能较高的算法,所以对KMP算法的深入研究能够使模式匹配问题得到较大的改善.在匹配的过程中,从模式匹配算法的子串滑动出发,解决特殊的实际问题.通过特殊子串滑动算法与KMP算法整合的实践,在... 模式匹配算法的应用较为广泛,KMP算法是一种性能较高的算法,所以对KMP算法的深入研究能够使模式匹配问题得到较大的改善.在匹配的过程中,从模式匹配算法的子串滑动出发,解决特殊的实际问题.通过特殊子串滑动算法与KMP算法整合的实践,在一定程度上省略了KMP函数的求解过程,提高了模式匹配问题的工作效率,保证了模式匹配问题的具体划分. 展开更多
关键词 模式匹配 KMP算法 子串滑动 算法整合
下载PDF
一种针对DFA状态爆炸的正则表达式匹配方法 被引量:4
18
作者 王翔 卢毓海 +1 位作者 马伟 刘燕兵 《计算机工程》 CAS CSCD 北大核心 2019年第4期148-156,共9页
针对基于确定有限状态自动机的匹配引擎在大规模、复杂规则下会出现状态爆炸的问题,提出正则表达式子串抽取算法。通过将子串抽取算法应用于DFA状态爆炸场景,设计基于子串抽取的正则匹配引擎。实验结果表明,该算法在单个规则上运行时间... 针对基于确定有限状态自动机的匹配引擎在大规模、复杂规则下会出现状态爆炸的问题,提出正则表达式子串抽取算法。通过将子串抽取算法应用于DFA状态爆炸场景,设计基于子串抽取的正则匹配引擎。实验结果表明,该算法在单个规则上运行时间可达10 ms量级,抽取率高达99%,同时匹配引擎具有较好的稳定性和可拓展性,且匹配速度优于相关开源匹配引擎。 展开更多
关键词 正则表达式 确定有限自动机 状态爆炸 子串抽取 匹配引擎
下载PDF
基于改进动态时间规整算法的终端波形比对方法
19
作者 杨雄 郭佳豪 +1 位作者 方鑫 张旭辉 《电子测量技术》 北大核心 2023年第6期178-184,共7页
为深入挖掘配电终端录波性能分析,提出了一种用于一二次深度融合设备检测终端录波平台的改进型动态时间规整算法。通过分帧及加窗完成对波形的预处理,计算源信号波形与受噪声干扰的终端录波波形的短时能熵比;将两组波形的短时能熵比序... 为深入挖掘配电终端录波性能分析,提出了一种用于一二次深度融合设备检测终端录波平台的改进型动态时间规整算法。通过分帧及加窗完成对波形的预处理,计算源信号波形与受噪声干扰的终端录波波形的短时能熵比;将两组波形的短时能熵比序列作为输入测试向量,利用DTW对两个波形的能熵比序列进行路径规划并求解相似度;计算两组短时能熵比序列的公共子串长度定义优化匹配系数,修正波形相似度。实验仿真和实测数据分析结果表明,结合能熵比与公共子串的DTW算法提升了算法的计算效率和准确率。实验证明该方法能为配电终端的录波性能评估提供数据支撑。 展开更多
关键词 改进型DTW 波形相似度 配电终端 公共子串 短时能熵比
下载PDF
采用复倒谱和子串匹配的音频指纹算法研究 被引量:3
20
作者 周亦敏 牟同鑫 《上海理工大学学报》 CAS 北大核心 2010年第3期277-280,共4页
提出了一种基于复倒谱变换和子串匹配的数字音频指纹算法.该算法通过应用混沌方法生成用户指纹,并将原始音频信号分帧并实施复倒谱变换后,进行指纹嵌入.指纹的识别采用子串匹配的方法,计算出待检测的指纹与原始指纹之间的匹配结果,最终... 提出了一种基于复倒谱变换和子串匹配的数字音频指纹算法.该算法通过应用混沌方法生成用户指纹,并将原始音频信号分帧并实施复倒谱变换后,进行指纹嵌入.指纹的识别采用子串匹配的方法,计算出待检测的指纹与原始指纹之间的匹配结果,最终确定待检测的未知音频.实验结果表明:该算法具有良好的鲁棒性,能抵御常见的音频攻击,可应用于音乐版权保护、音频识别等领域. 展开更多
关键词 音频指纹 混沌方法 复倒谱变换 子串匹配
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部