期刊文献+
共找到92篇文章
< 1 2 5 >
每页显示 20 50 100
一种基于Aho-Corasick算法改进的多模式匹配算法 被引量:14
1
作者 陈永杰 吾守尔.斯拉木 于清 《现代电子技术》 北大核心 2019年第4期89-93,共5页
目前互联网中以文本存在的数据非常庞大,针对在如此庞大的文本中如何准确、快速地找到多个不同的目标字符串的问题,在介绍常见的模式匹配算法的优点和缺点基础上,结合Trie速多模式匹配算法。根据对比性实验的结果分析得出,改进AC且匹配... 目前互联网中以文本存在的数据非常庞大,针对在如此庞大的文本中如何准确、快速地找到多个不同的目标字符串的问题,在介绍常见的模式匹配算法的优点和缺点基础上,结合Trie速多模式匹配算法。根据对比性实验的结果分析得出,改进AC且匹配速度大约是AC算法的5倍。 展开更多
关键词 字符串匹配 多模式匹配 trie 双数组 AC算法 匹配速度
下载PDF
一种有效的差分隐私事务数据发布策略 被引量:13
2
作者 欧阳佳 印鉴 +1 位作者 刘少鹏 刘玉葆 《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2195-2205,共11页
近年来,隐私保护事务数据发布得到了研究者的广泛关注.事务数据的稀疏性导致个体隐私保护与数据效用性之间很难达到平衡.目前已有的方法大多是基于分组的匿名模型,但该类模型依赖于攻击者背景知识,且发布的数据无法满足事务数据分析任... 近年来,隐私保护事务数据发布得到了研究者的广泛关注.事务数据的稀疏性导致个体隐私保护与数据效用性之间很难达到平衡.目前已有的方法大多是基于分组的匿名模型,但该类模型依赖于攻击者背景知识,且发布的数据无法满足事务数据分析任务的需要.针对事务数据隐私保护发布的数据安全性与效用性不足,基于差分隐私与压缩感知理论,提出一种有效的面向应用的事务数据发布策略(transaction data publish strategy,TDPS).首先构建事务数据库的完整Trie项集树,然后基于压缩感知技术对项集树添加满足差分隐私约束的噪音得到含噪Trie项集树,最后在含噪树上进行频繁项集挖掘任务.实验结果表明,TDPS不仅能很好地保护隐私,而且能有效保持数据效用性,满足事务数据分析任务对数据质量的要求. 展开更多
关键词 隐私保护 差分隐私 事务数据 trie 压缩感知
下载PDF
基于Trie树的词语左右熵和互信息新词发现算法 被引量:12
3
作者 郭理 张恒旭 +1 位作者 王嘉岐 秦怀斌 《现代电子技术》 北大核心 2020年第6期65-69,共5页
由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字... 由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字符,将每个字与其右邻的字组成二元组;然后利用左右信息熵和互信息进行成词概率的计算,根据计算到的成词概率和词频筛选出新词;并且设计了三个实验,验证了算法的有效性和可行性。实验结果表明,该新词发现算法成词准确率较高,比其他新词发现算法时间效率有较大的提高,对于中文分词结果的优化起到重要的作用。 展开更多
关键词 新词发现算法 左右熵 互信息 trie 算法设计 对比验证
下载PDF
Trie树路由查找算法在网络处理器中的实现 被引量:11
4
作者 张琦 金胤丞 +1 位作者 李苗 章建雄 《计算机工程》 CAS CSCD 2014年第1期98-102,共5页
Trie树数据结构的实现方法灵活,所需存储器空间小,是实现高速路由查找和分组转发的理想选择。为满足10 Gb/s线速度网络处理器中微引擎的设计要求,提出一种基于最优平衡、多层存储的Trie树路由查找算法。建立一种平衡的压缩树结构,将该... Trie树数据结构的实现方法灵活,所需存储器空间小,是实现高速路由查找和分组转发的理想选择。为满足10 Gb/s线速度网络处理器中微引擎的设计要求,提出一种基于最优平衡、多层存储的Trie树路由查找算法。建立一种平衡的压缩树结构,将该树中相邻的多层节点压缩到一个存储节点中。通过构造特定的数据存储结构来减小树的搜索深度,以空间换取时间,从而提高路由查找速度和分组转发效率。在网络处理器的查找微引擎设计中实现Trie路由查找算法,实验结果表明,单个微引擎的查找速度为4.4 Mb/s,能达到节省存储空间、提高查找效率的效果。 展开更多
关键词 网络处理器 路由查找 最长前缀匹配 路径压缩 trie 算法实现
下载PDF
基于Trie树的相似字符串查找算法 被引量:10
5
作者 刘丽霞 张志强 《计算机应用》 CSCD 北大核心 2013年第8期2375-2378,共4页
基于Trie树的相似字符串查找算法是利用编辑距离的阈值来计算每个节点的活跃节点集,已有算法由于存在大量的冗余计算,导致时间复杂度和空间复杂度都比较高。针对这个问题,采用了基于活跃节点的对称性和动态规划算法的思想对已有算法进... 基于Trie树的相似字符串查找算法是利用编辑距离的阈值来计算每个节点的活跃节点集,已有算法由于存在大量的冗余计算,导致时间复杂度和空间复杂度都比较高。针对这个问题,采用了基于活跃节点的对称性和动态规划算法的思想对已有算法进行改进,并对活跃节点集进行了修剪,提出了New-Trie-Stack算法。该算法避免了活跃节点的重复计算,以及已有算法在保存所有已遍历节点的活跃节点集时的空间开销。实验结果表明New-Trie-Stack算法在时间复杂度和空间复杂度上都有明显的下降。 展开更多
关键词 trie 相似字符串 编辑距离 活跃节点 动态规划
下载PDF
一种基于跳转表的多维IP分类算法 被引量:6
6
作者 徐恪 梁志勇 吴建平 《小型微型计算机系统》 CSCD 北大核心 2001年第12期1409-1413,共5页
网络应用的发展要求路由器必须有能力支持防火墙、提供 Qo S、流量计费等一系列功能 ,这些功能都要求路由器对 IP包进行分类来完成对数据包的不同处理 .本文提出的算法直接从多维 IP分类问题入手 ,经过一个跳转表 ,把多维 IP分类问题转... 网络应用的发展要求路由器必须有能力支持防火墙、提供 Qo S、流量计费等一系列功能 ,这些功能都要求路由器对 IP包进行分类来完成对数据包的不同处理 .本文提出的算法直接从多维 IP分类问题入手 ,经过一个跳转表 ,把多维 IP分类问题转化为二维的 IP分类问题 ,从而提高了分类速度 .该算法可以充分发挥二维分类算法高效率的特点 。 展开更多
关键词 INTERNET 多维IP分类算法 路由器 跳转表 服务质量
下载PDF
支持快速索引的高效大数据存储结构 被引量:1
7
作者 肖英 赵林洁 +1 位作者 张宇 屈晓芳 《计算机应用与软件》 北大核心 2024年第3期28-33,共6页
Trie树为处理字符串数据提供了高效的存储和索引。然而,当字符串数据很大时,利用Trie树进行数据存储会导致空间效率变得很低。因此,提出一种支持快速索引的高效大数据存储结构,称为16-bit Trie树,该结构使用16位表示子节点信息,同时用... Trie树为处理字符串数据提供了高效的存储和索引。然而,当字符串数据很大时,利用Trie树进行数据存储会导致空间效率变得很低。因此,提出一种支持快速索引的高效大数据存储结构,称为16-bit Trie树,该结构使用16位表示子节点信息,同时用映射表帮助快速索引至指定的子节点,使得16-bit Trie树在处理大数据时仍然具有高效的空间效率。结果表明,16-bit Trie树保留了传统Trie树较高的索引速度,同时提高了其空间效率。与红黑树和B+树相比,16-bit Trie树的插入时间和空间消耗基本相同,但在索引速度上比其快了2倍左右。 展开更多
关键词 字符串检索 trie树结构 字符串处理及索引 快速检索
下载PDF
基于相似度融合算法的主观题自动阅卷机制 被引量:8
8
作者 李纪扣 韩建宇 王嫄 《天津科技大学学报》 CAS 2019年第1期76-80,共5页
主观题自动阅卷可以通过计算文本相似度实现.本文从分析文本结构特征的角度出发,在Trie树搜索匹配理论的基础上提出基于相对距离的词序相似度算法,并通过统计回归方法将关键词相似度与词序相似度进行融合得到文本的综合相似度,从而实现... 主观题自动阅卷可以通过计算文本相似度实现.本文从分析文本结构特征的角度出发,在Trie树搜索匹配理论的基础上提出基于相对距离的词序相似度算法,并通过统计回归方法将关键词相似度与词序相似度进行融合得到文本的综合相似度,从而实现主观题自动阅卷.最后,进行了实验,证明通过该方法可以实现在规定场景下基于文本结构特征的主观题自动阅卷. 展开更多
关键词 主观题 自动阅卷 字符匹配 键树 相似度
下载PDF
基于语言模型词嵌入和注意力机制的敏感信息检测方法 被引量:7
9
作者 黄诚 赵倩锐 《计算机应用》 CSCD 北大核心 2022年第7期2009-2014,共6页
针对基于关键词字符匹配和短语级情感分析等传统敏感信息检测方法准确率低和泛化性差的问题,提出了一种基于语言模型词嵌入和注意力机制(A-ELMo)的敏感信息检测方法。首先,进行字典树快速匹配,以最大限度地减少无用字符的比较,从而极大... 针对基于关键词字符匹配和短语级情感分析等传统敏感信息检测方法准确率低和泛化性差的问题,提出了一种基于语言模型词嵌入和注意力机制(A-ELMo)的敏感信息检测方法。首先,进行字典树快速匹配,以最大限度地减少无用字符的比较,从而极大地提高查询效率;其次,构建了一个语言模型词嵌入模型(ELMo)进行语境分析,并通过动态词向量充分表征语境特征,从而实现较高的可扩展性;最后,结合注意力机制加强模型对敏感特征的识别度,从而进一步提升对敏感信息的检测率。在由多个网络数据源构成的真实数据集上进行实验,结果表明,所提敏感信息检测方法与基于短语级情感分析的方法相比,准确率提升了13.3个百分点;与基于关键字匹配的方法相比,准确率提升了43.5个百分点,充分验证了所提方法在加强敏感特征识别度、提高敏感信息检测率方面的优越性。 展开更多
关键词 敏感信息 语言模型词嵌入 语境分析 注意力机制 字典树
下载PDF
基于扩展Trie树的中文敏感词变体检测
10
作者 赵天舒 沈颖 +2 位作者 李柏岩 刘晓强 朱旻 《智能计算机与应用》 2024年第4期215-221,共7页
网络语言表达方式的随意性和自由性使词语变体在网页上经常出现,给网页信息安全带来了挑战。本文针对中文敏感词变体检测问题,提出一种基于扩展Trie树的敏感词变体快速检测方法。首先,对中文敏感词变体类型进行归类,结合中文敏感词特点... 网络语言表达方式的随意性和自由性使词语变体在网页上经常出现,给网页信息安全带来了挑战。本文针对中文敏感词变体检测问题,提出一种基于扩展Trie树的敏感词变体快速检测方法。首先,对中文敏感词变体类型进行归类,结合中文敏感词特点,通过增强节点内信息和节点间联系构建扩展Trie树;再依据中文变体的生成规则检索Trie树;最后,使用基于BERT的二分类算法对结果进行二次判别,降低误检率。实验表明:该算法精准度达到98.69%,召回率达到94.25%,能够识别常见的中文敏感词变体并在时间效率上满足应用需求。 展开更多
关键词 敏感词 词语变体 trie BERT
下载PDF
基于DBNet和改进的Trie树搜索的网络敏感词检测技术
11
作者 刘轩溢 《自动化与仪器仪表》 2024年第5期25-28,共4页
为进一步避免未成年人接触到网络中的不良信息,提出一种基于DBNet和改进的Trie树搜索的网络敏感词检测方法。其中,以DBNet网络为基础的文本检测方法,以Trie树为基础的敏感词检测方法。实验结果表明,与其他文本检测方法以及文本识别方法... 为进一步避免未成年人接触到网络中的不良信息,提出一种基于DBNet和改进的Trie树搜索的网络敏感词检测方法。其中,以DBNet网络为基础的文本检测方法,以Trie树为基础的敏感词检测方法。实验结果表明,与其他文本检测方法以及文本识别方法相比,设计使用的文本检测和识别方法具有更高的精度,能够为后续的敏感词检测提供更加准确的文本信息;与传统的敏感词检测方法相比,基于DBNet和改进的Trie树搜索的敏感词检测方法具有更高的检测精度,检测准确率、漏检率以及误检率分别为89.12%、5.80%和6.12%。综上可知,设计的敏感词检测方法检测性能良好,精度较高,能够应用于实际的网络信息敏感词检测中,保护未成年人接触到网络中的不良信息,具有一定的可行性。 展开更多
关键词 未成年人保护 敏感词检测 DBNet trie
原文传递
一种基于DFA的短文本信息过滤算法 被引量:2
12
作者 关兴义 赵敏 伍文昌 《软件导刊》 2023年第4期103-108,共6页
有关信息过滤的算法应用广泛,随着微信、微博等社交平台的迅速发展,短文本信息在网络通信中占据了主流,针对短文本信息的过滤也越来越重要。通过比较BF算法、KMP算法、AC算法等经典模式匹配算法的优缺点,选择更适合短文本过滤的DFA算法... 有关信息过滤的算法应用广泛,随着微信、微博等社交平台的迅速发展,短文本信息在网络通信中占据了主流,针对短文本信息的过滤也越来越重要。通过比较BF算法、KMP算法、AC算法等经典模式匹配算法的优缺点,选择更适合短文本过滤的DFA算法。介绍DFA算法基本原理,提出一种基于DFA的改进算法,改进后的算法通过敏感词预处理和过滤过程优化来提高检测率。实验结果表明,相比于SWDT-IFA算法,改进后的算法对中文对话数据集检测的查准率提高了3%,误报率降低了0.87%,具有较高的应用价值。 展开更多
关键词 短文本 信息过滤 DFA 模式匹配 trie
下载PDF
基于Aho-Corasick自动机算法的概率模型中文分词CPACA算法 被引量:5
13
作者 徐懿彬 《电子科技大学学报》 EI CAS CSCD 北大核心 2017年第2期426-433,共8页
Aho-Corasick自动机算法是著名的多模式串匹配算法,它在模式串失配时,通过fail指针转移至有效的后续状态,存在一个或多个有效的后续状态可能。据此特性,该文提出了一种适应于中文分词的自动机算法。该算法使用动态规划的方法,计算上下... Aho-Corasick自动机算法是著名的多模式串匹配算法,它在模式串失配时,通过fail指针转移至有效的后续状态,存在一个或多个有效的后续状态可能。据此特性,该文提出了一种适应于中文分词的自动机算法。该算法使用动态规划的方法,计算上下文匹配概率,转移至最佳的有效后续状态,即实现了基于字符串匹配的机械分词方法与基于统计概率模型的方法结合。实验结果表明,该算法分词准确率高。 展开更多
关键词 AC自动机 中文分词 动态规划 trie
下载PDF
一种基于Trie的快速IP路由查找算法 被引量:5
14
作者 郜国良 李广军 《微电子学与计算机》 CSCD 北大核心 2011年第6期163-167,共5页
Internet的飞速发展要求核心路由器能够实现快速的分组转发和路由更新功能,实现这一功能的关键是路由表的组织结构和快速的路由查找算法.提出了带有转发域信息树的多分支Trie结构路由查找算法,它由固定步长的多分支Trie结构的路由表和... Internet的飞速发展要求核心路由器能够实现快速的分组转发和路由更新功能,实现这一功能的关键是路由表的组织结构和快速的路由查找算法.提出了带有转发域信息树的多分支Trie结构路由查找算法,它由固定步长的多分支Trie结构的路由表和转发域信息树两部分组成.对于一个长度为w的路由前缀,其查找、插入、删除路由的时间复杂度均为O((w-m)/n+1),其中m、n为Trie树的步长.它解决路由查找过程中快速更新的问题,具有算法简单、查找速度快、易于更新、空间利用率高、便于向IPv6过渡等优点. 展开更多
关键词 最长前缀匹配 trie 快速查找 快速更新
下载PDF
基于查找树的IP地址分类算法研究 被引量:2
15
作者 王晓勇 邱玉辉 《计算机科学》 CSCD 北大核心 2007年第6期76-77,共2页
随着Internet的大规模发展,越来越多的网络业务需要对IP地址进行适时、快速分类。在分析二叉Trie树的基础上,改进了其结构,提出了基于256-叉查找树的IP地址分类算法,并详细介绍了其实现过程,比较了它们的优缺点。该算法在满足空间要求... 随着Internet的大规模发展,越来越多的网络业务需要对IP地址进行适时、快速分类。在分析二叉Trie树的基础上,改进了其结构,提出了基于256-叉查找树的IP地址分类算法,并详细介绍了其实现过程,比较了它们的优缺点。该算法在满足空间要求的情况下,提高了查找分类时间,具有通用性和实用价值。 展开更多
关键词 trie IP地址 分类 查找树
下载PDF
基于trie merging机制数据流滑动窗口模型的频繁树模式挖掘 被引量:4
16
作者 吉小洪 徐爱萍 《计算机应用研究》 CSCD 北大核心 2020年第7期1993-1998,共6页
因树型结构的良好表达能力,在互联网中传输的信息流越来越多以树型结构形式存储。但由于流式数据的时效性,隐含在数据流中的知识会随着时间的推移发生改变。针对数据流场景下挖掘最近时间段内的频繁子树模式的问题,提出了一种滑动窗口... 因树型结构的良好表达能力,在互联网中传输的信息流越来越多以树型结构形式存储。但由于流式数据的时效性,隐含在数据流中的知识会随着时间的推移发生改变。针对数据流场景下挖掘最近时间段内的频繁子树模式的问题,提出了一种滑动窗口模型下挖掘频繁子树模式算法——SWMiner算法,用于挖掘数据流下任意时刻窗口所有的频繁子树模式。SWMiner算法使用基于前缀树的结构来压缩存储生成的树模式,并且使用trie merging机制有效地更新子树模式的支持度。实验结果表明,SWMiner算法在滑动窗口模型中的性能优于目前现有的常用算法,能有效地挖掘最近时间段内的频繁树模式。 展开更多
关键词 trie 数据流 滑动窗口 频繁树模式
下载PDF
中文短文本去重方法研究 被引量:4
17
作者 高翔 李兵 《计算机工程与应用》 CSCD 2014年第16期192-197,共6页
针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimH... 针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimHash算法进行相似去重。设计了该算法框架的各项参数,并通过仿真实验证实了该算法框架的可行性及合理性。 展开更多
关键词 文本去重 中文短文本 trie SimHash算法
下载PDF
中文垃圾邮件过滤系统中的实时分词算法设计 被引量:1
18
作者 申庆永 张建忠 +1 位作者 何云 杨洁 《计算机工程与应用》 CSCD 北大核心 2007年第3期179-181,184,共4页
在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此,提出一种应用在中文垃圾邮件过滤系统中的实时... 在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此,提出一种应用在中文垃圾邮件过滤系统中的实时分词算法。该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则,同时,在实时分类阶段结合hash表进行特征查询,极大地提高了系统的时间效率。 展开更多
关键词 中文分词 垃圾邮件 trie
下载PDF
基于改进Trie树的变形敏感词过滤算法 被引量:4
19
作者 叶情 《现代计算机》 2018年第22期3-7,共5页
在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏... 在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏感词过滤算法。该算法经过对变形敏感词分析归类、文本进行分立预处理、构建符合中文特点的Trie树、变形敏感词过滤等阶段,形成一套完整的中文文本过滤体系。经过反复实验表明,该算法不仅可以有效查找中文本中的普通敏感词,并且能高效地过滤出变形敏感词,其中对总敏感词和变形敏感词的查全率分别达到95.46%和92.49%,扩大敏感词查找范围,提高敏感词过滤的精确度。 展开更多
关键词 敏感词过滤 trie 变形敏感词 文本分立 模糊匹配
下载PDF
基于产生式规则的计费引擎研究 被引量:2
20
作者 吴杰 王文杰 《计算机应用》 CSCD 北大核心 2004年第11期149-152,共4页
通过分析现有电信计费系统,结合人工智能技术和专家系统技术,设计实现基于产生式规则的计费引擎,有效提高了计费系统对业务支撑能力以及计费系统的扩展性和适应性,适应未来电信业务发展的需求。
关键词 计费系统 规则 键树索引 人工智能
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部