期刊文献+
共找到114篇文章
< 1 2 6 >
每页显示 20 50 100
用后缀树构造XML路径字典加快路径查询评价速度
1
作者 成杰峰 王国仁 于戈 《小型微型计算机系统》 CSCD 北大核心 2004年第4期607-612,共6页
后缀树的重要性可以为多年来学术界对它总是有新的发现而印证 .它的结构简单 ,但可以在线性的时间里解决许多复杂的问题 ,被大量的使用在字符串及树的模式匹配中 .对于 XML标准 ,有很多基于关系库和对象库的索引技术和查询方案被提出来 ... 后缀树的重要性可以为多年来学术界对它总是有新的发现而印证 .它的结构简单 ,但可以在线性的时间里解决许多复杂的问题 ,被大量的使用在字符串及树的模式匹配中 .对于 XML标准 ,有很多基于关系库和对象库的索引技术和查询方案被提出来 ,我们试图给出一种基于后缀树进行路径导航的查询机制 :用后缀树构造 XML 路径字典加速路径查询评价速度 .我们提出可以在线地建立一个 trie树的后缀树 .讨论了 XML路径字典中的后缀树建树算法 ,阐述了整个索引方案和查询机制 ,并探讨了包括 RPE在内的它所支持的各种查询操作 .XML 展开更多
关键词 XML 查询处理 倒排文件 后缀树
下载PDF
Verbumculus and the Discovery of Unusual Words 被引量:1
2
作者 AlbertoApostolico Fang-ChengGong StefanoLonardi 《Journal of Computer Science & Technology》 SCIE EI CSCD 2004年第1期22-41,共20页
Measures relating word frequencies and expectations have been constantly ofinterest in Bioinformatics studies. With sequence data becoming massively available, exhaustiveenumeration of such measures have become concei... Measures relating word frequencies and expectations have been constantly ofinterest in Bioinformatics studies. With sequence data becoming massively available, exhaustiveenumeration of such measures have become conceivable, and yet pose significant computational burdeneven when limited to words of bounded maximum length. In addition, the display of the huge tablespossibly resulting from these counts poses practical problems of visualization and inference.VERBUMCULUS is a suite of software tools for the efficient and fast detection of over- orunder-represented words in nucleotide sequences. The inner core of VERBUMCULUS rests on subtlyinterwoven properties of statistics, pattern matching and combinatorics on words, that enable one tolimit drastically and a priori the set of over-or under-represented candidate words of all lengthsin a given sequence, thereby rendering it more feasible both to detect and visualize such words in afast and practically useful way. This paper is devoted to the description of the facility at theoutset and to report experimental results, ranging from simulations on synthetic data to thediscovery of regulatory elements on the upstream regions of a set of genes of the yeast. 展开更多
关键词 verbumculus unusual words subword statistics pattern discovery regulatoryelements suffix trees
原文传递
一种新的基于结构信息的双生物序列比对方法 被引量:1
3
作者 司秀华 陈国良 《小型微型计算机系统》 CSCD 北大核心 2006年第1期85-89,共5页
用于生物序列比对的经典动态规划算法是用一个固定的替换矩阵来逐点计算生物序列间的代价,这些方法可用来发现具有最大计分值的比对结果,但实际上,则更加倾向于考虑生物序列中所隐含的结构或功能信息.本文用可变长马尔科夫链方法来发现... 用于生物序列比对的经典动态规划算法是用一个固定的替换矩阵来逐点计算生物序列间的代价,这些方法可用来发现具有最大计分值的比对结果,但实际上,则更加倾向于考虑生物序列中所隐含的结构或功能信息.本文用可变长马尔科夫链方法来发现生物序列中所隐含的结构或功能信息子片断并定义其权值,最后提出一个新的基于结构信息的生物序列比对方法. 展开更多
关键词 序列比对 概率后缀树 可变长马尔科夫链
下载PDF
基于后缀树模型的文本实时分类系统的研究和实现 被引量:12
4
作者 郭莉 张吉 谭建龙 《中文信息学报》 CSCD 北大核心 2005年第5期16-23,共8页
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算... 本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N),远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。 展开更多
关键词 计算机应用 中文信息处理 实时文本分类 向量空间模型 后缀树
下载PDF
一种基于后缀树的Web访问模式挖掘算法 被引量:6
5
作者 何丽 韩文秀 《计算机应用》 CSCD 北大核心 2004年第11期68-70,共3页
在Web使用挖掘中,分析用户的行为模式是一个关键的问题。文中提出了一种基于后缀树的最大频繁序列MFS(MaximalFrequentSequences)的有效挖掘算法,该算法能够从增量数据中动态发现和输出MFS。
关键词 Web行为模式 WEB使用挖掘 后缀树 MFS
下载PDF
一种基于后缀树的中文网页层次聚类方法 被引量:11
6
作者 史庆伟 赵政 朝柯 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2006年第6期890-892,共3页
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。... 为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。 展开更多
关键词 WEB挖掘 层次聚类 WEB搜索 后缀树
下载PDF
SuffIndex——一种基于后缀树的XML索引结构 被引量:7
7
作者 包小源 宋再生 +2 位作者 唐世渭 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1793-1801,共9页
针对形如∥element1/element2 /… /elementm 的查询 ,提出了一种基于后缀树 (suffixtree)的XML索引结构SuffIndex SuffIndex的构造通过只对OEM数据树遍历一次以及在SuffIndex中引入后缀链 (Sufflink)的方法 ,从而达到较低的构造代价 S... 针对形如∥element1/element2 /… /elementm 的查询 ,提出了一种基于后缀树 (suffixtree)的XML索引结构SuffIndex SuffIndex的构造通过只对OEM数据树遍历一次以及在SuffIndex中引入后缀链 (Sufflink)的方法 ,从而达到较低的构造代价 SuffIndex中所有结点利用Hash表保存到其所有子结点的指针 ,最终使查询∥element1/element2 /… /elementm 的处理代价为O(m) 展开更多
关键词 后缀树 XML 索引
下载PDF
基于后缀树的Web检索结果聚类标签生成方法 被引量:9
8
作者 骆雄武 万小军 +1 位作者 杨建武 吴於茜 《中文信息学报》 CSCD 北大核心 2009年第2期83-88,共6页
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之... 对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。 展开更多
关键词 计算机应用 中文信息处理 检索结果聚类 聚类标签生成 后缀树
下载PDF
后缀数组创建算法的分析和比较 被引量:4
9
作者 杨笑天 陶晓鹏 《计算机工程》 CAS CSCD 北大核心 2007年第3期186-188,199,共4页
后缀数组构建算法的时间和空间开销是它在实际应用中的瓶颈。该文介绍了两种较好的构建算法,对它们的性能作了评估和分析,指出了各自的适用范围,给出并比较了两种算法在不同情况下的实验结果。
关键词 全文检索 后缀数组 后缀树 线性时间
下载PDF
基于微博的情感新词发现研究 被引量:8
10
作者 王非 《软件》 2015年第11期6-8,共3页
微博作为社交网络的典型应用,每天都有新的富含情感的新词涌现,面向微博短文本的情感新词发现研究成为自然语言处理领域一个新的研究热点。本文提出了一种基于重复串统计的方法抽取候选词串,使用广义后缀树抽取所有可能的候选词串。然... 微博作为社交网络的典型应用,每天都有新的富含情感的新词涌现,面向微博短文本的情感新词发现研究成为自然语言处理领域一个新的研究热点。本文提出了一种基于重复串统计的方法抽取候选词串,使用广义后缀树抽取所有可能的候选词串。然后利用本文提出的相关统计特征:候选词串的互信息与邻接信息熵等对候选词串进行筛选,实现新词过滤。 展开更多
关键词 微博 新词发现 新词过滤 后缀树
下载PDF
基于重复模式的Web信息抽取 被引量:6
11
作者 高强 张敬之 +1 位作者 耿桦 潘金贵 《计算机科学》 CSCD 北大核心 2007年第4期210-212,221,共4页
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实... 网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。 展开更多
关键词 WEB信息抽取 重复模式 后缀树
下载PDF
基于存储优化的多模式串匹配算法 被引量:6
12
作者 刘燕兵 刘萍 +1 位作者 谭建龙 郭莉 《计算机研究与发展》 EI CSCD 北大核心 2009年第10期1768-1776,共9页
多模式串匹配算法是网络内容过滤系统的核心技术之一.自动机的存储空间大小和Cache性能是影响多模式串匹配算法速度的关键因素.随着模式串规模的扩大,自动机的巨大存储开销导致现有的串匹配算法性能大幅度下降.从压缩存储空间以提高Cach... 多模式串匹配算法是网络内容过滤系统的核心技术之一.自动机的存储空间大小和Cache性能是影响多模式串匹配算法速度的关键因素.随着模式串规模的扩大,自动机的巨大存储开销导致现有的串匹配算法性能大幅度下降.从压缩存储空间以提高Cache命中率的思想出发,提出了一种对经典SBOM算法的优化策略,它用Suffix Tree代替SBOM算法中的Factor Oracle结构,同时用剪枝的方法将Suffix Tree降低为近似线性的空间复杂度,然后用双数组Trie表示之,以压缩存储空间.与SBOM算法相比,改进算法不仅能够有效地节省存储空间,而且显著地提高了串匹配的速度,非常适合于在线高速匹配的应用环境. 展开更多
关键词 网络内容过滤 多模式串匹配 后缀树 双数组结构 自动机压缩
下载PDF
基于后缀树的带有通配符的模式匹配研究 被引量:7
13
作者 侯宝剑 谢飞 +2 位作者 胡学钢 刘应玲 王海平 《计算机科学》 CSCD 北大核心 2012年第12期177-180,194,共5页
由于在生物序列分析、文本索引、网络入侵检测等领域的应用需求,带有通配符的模式匹配问题一直是研究的热点。针对已有的研究工作中通配符和长度约束具有较强的局限性问题,研究带有灵活通配符的模式匹配问题,其中通配符可以在模式的任... 由于在生物序列分析、文本索引、网络入侵检测等领域的应用需求,带有通配符的模式匹配问题一直是研究的热点。针对已有的研究工作中通配符和长度约束具有较强的局限性问题,研究带有灵活通配符的模式匹配问题,其中通配符可以在模式的任意两子串间出现且可以指定灵活的长度约束。采用非线性数据结构——后缀树,设计了求解模式所有解的完备算法PAST。预处理阶段采用在线增量式算法构建具有文本先验知识的后缀树,搜索阶段结合动态规划的思想,逐个匹配模式中字符,最终得到完备解。在基因序列上的实验表明,PAST比其他算法具有更好的时间性能。 展开更多
关键词 模式匹配 通配符 后缀树
下载PDF
后缀树聚类算法在元搜索引擎中的应用 被引量:5
14
作者 冯冰洁 杨天奇 《微计算机信息》 2010年第3期204-206,共3页
元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,并引入了短语特性,从而产生了较好的聚类效果。本文将后缀树聚类算法应用到元搜索引擎中,从而增强了结... 元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,并引入了短语特性,从而产生了较好的聚类效果。本文将后缀树聚类算法应用到元搜索引擎中,从而增强了结果的可浏览性,提高了搜索的精度。实验结果表明,STC算法在查准率和时间性能方面都高于传统的聚类算法。 展开更多
关键词 元搜索引擎 文本聚类 后缀树
下载PDF
基于后缀树的文本聚类算法 被引量:4
15
作者 刘亚明 马力 舒惠 《西安邮电学院学报》 2012年第1期62-66,共5页
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明... 提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。 展开更多
关键词 后缀树 后缀树聚类 多主题聚类
下载PDF
A Chinese Web Page Clustering Algorithm Based on the Suffix Tree 被引量:4
16
作者 YANGJian-wu 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期817-822,共6页
In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction p... In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. Key words clustering - suffix tree - Web mining CLC number TP 311 Foundation item: Supported by the National Information Industry Development Foundation of ChinaBiography: YANG Jian-wu (1973-), male, Ph. D, research direction: information retrieval and text mining. 展开更多
关键词 CLUSTERING suffix tree Web mining
下载PDF
一种基于后缀树的Web搜索结果聚类方法 被引量:5
17
作者 吴江宁 王治江 《情报学报》 CSSCI 北大核心 2010年第1期78-83,共6页
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别... 为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 WEB搜索 后缀树 文档聚类
下载PDF
网页搜索结果聚类与可视化 被引量:5
18
作者 赵华军 钟才明 +2 位作者 李文 王睿智 苗夺谦 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期542-551,共10页
搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结... 搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结果列表中选择所感兴趣的话题.针对这种状况,采用网页聚类技术对标题和摘要进行聚类后,并可视化地以树和图的方式向用户快速、全貌和直观地展示搜索结果,明显改善了用户搜索体验.在此基础上设计了网页聚类原型系统ECE(effective clustering engine),实验结果表明该算法具有聚类结果可读性好以及聚类准确度比较高的优点. 展开更多
关键词 网页聚类 后缀树 可视化 短语簇 算法
下载PDF
一种基于Nutch的网页聚类系统的设计与实现 被引量:3
19
作者 阳小兰 钱程 赵海廷 《计算机工程与应用》 CSCD 北大核心 2011年第5期118-122,共5页
设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通... 设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。 展开更多
关键词 NUTCH 聚类 K-MEANS 后缀树
下载PDF
STAG-CNS: An Order-Aware Conserved Noncoding Sequences Discovery Tool for Arbitrary Numbers of Species 被引量:3
20
作者 Xianjun Lai Sairam Behera +3 位作者 Zhikai Liang Yanli Lu Jitender S. Deogun James C. Schnable 《Molecular Plant》 SCIE CAS CSCD 2017年第7期990-999,共10页
One method for identifying noncoding regulatory regions of a genome is to quantify rates of divergence between related species, as functional sequence will generally diverge more slowly. Most approaches to identifying... One method for identifying noncoding regulatory regions of a genome is to quantify rates of divergence between related species, as functional sequence will generally diverge more slowly. Most approaches to identifying these conserved noncoding sequences (CNSs) based on alignment have had relatively large minimum sequence lengths (≥15 bp) compared with the average length of known transcription factor binding sites. To circumvent this constraint, STAG-CNS that can simultaneously integrate the data from the promoters of conserved orthologous genes in three or more species was developed. Using the data from up to six grass species made it possible to identify conserved sequences as short as 9 bp with false discovery rate ≤0.05. These CNSs exhibit greater overlap with open chromatin regions identified using DNase I hypersensitivity assays, and are enriched in the promoters of genes involved in transcriptional regulation. STAG-CNS was further employed to characterize loss of conserved noncoding sequences associated with retained duplicate genes from the ancient maize polyploidy. Genes with fewer retained CNSs show lower overall expression, although this bias is more apparent in samples of complex organ systems containing many cell types, suggesting that CNS loss may correspond to a reduced number of expression contexts rather than lower expression levels across the entire ancestral expression domain. 展开更多
关键词 conserved noncoding sequence comparative genomics suffix tree longest path algorithm grain crops
原文传递
上一页 1 2 6 下一页 到第
使用帮助 返回顶部