期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
网络敏感信息自适应多重过滤模型研究 被引量:11
1
作者 胡传志 程显毅 曹小峰 《计算机科学》 CSCD 北大核心 2015年第1期272-275,307,共5页
敏感信息过滤是既重要又复杂的任务。针对当前一些敏感信息过滤模型所存在的时间滞后、准确性低、自适应性差等问题,提出了一个敏感信息自适应多重过滤模型。该模型以互联网中文文本媒体为研究对象,采用意见挖据、机器学习、高性能计算... 敏感信息过滤是既重要又复杂的任务。针对当前一些敏感信息过滤模型所存在的时间滞后、准确性低、自适应性差等问题,提出了一个敏感信息自适应多重过滤模型。该模型以互联网中文文本媒体为研究对象,采用意见挖据、机器学习、高性能计算和自然语言处理等技术,从整体和语义角度自适应识别敏感信息。对敏感信息自适应多重过滤模型的研究将为舆情监控、商业智能、辅助决策等应用系统开发提供技术支持。 展开更多
关键词 敏感信息 敏感词 信息过滤 自适应
下载PDF
一种基于Word2vec的敏感内容识别技术 被引量:8
2
作者 金贵涛 石元兵 +2 位作者 魏忠 王雍 刘峻豪 《通信技术》 2019年第11期2750-2756,共7页
随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从... 随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从语义层面识别文本中的敏感词,并根据提出的敏感度模型计算文本敏感度,判断文本敏感等级。实验结果表明,与传统方法相比,提出的技术方法能够更准确、全面地识别文本敏感内容,并确定文本敏感等级。 展开更多
关键词 敏感词 TextRank算法 word2vec 文本敏感等级
下载PDF
基于深度学习识别算法的文件敏感词多维度检测技术研究
3
作者 邓又琦 张明 马敬济 《计算机与数字工程》 2024年第8期2435-2439,共5页
在文件利用环节,采用深度学习智能识别算法,实现对用户上传的待测文件内容进行自动化、智能化检测和分析评估。通过采用面向敏感词专用训练集的OCR检测深度学习算法、基于IF-IDF算法的文件敏感词主题识别算法,实现敏感词多维度智能检测... 在文件利用环节,采用深度学习智能识别算法,实现对用户上传的待测文件内容进行自动化、智能化检测和分析评估。通过采用面向敏感词专用训练集的OCR检测深度学习算法、基于IF-IDF算法的文件敏感词主题识别算法,实现敏感词多维度智能检测,并将检测出来的敏感信息生成检测报告,供用户或审核人进行检查确认,辅助用户对敏感信息进行处理,以大幅提升敏感词检测准确度和检测效率,降低人工核验差错率,从而最大程度地保证企业数据的安全。 展开更多
关键词 深度学习 算法 文件 敏感词 检测
下载PDF
校园网舆情监控系统的设计与实现 被引量:3
4
作者 蔡洪民 陈铿 《计算机安全》 2013年第2期51-54,共4页
随着网络的发展,网络上一些负面舆情信息给社会和个人带来巨大危害,网络舆情信息越来越受到各级部门重视。为了保障校园网络的公共安全,基于全文索引与检索技术设计实现了一个针对校内各门户网站的舆情监控系统,通过关键字匹配技术实现... 随着网络的发展,网络上一些负面舆情信息给社会和个人带来巨大危害,网络舆情信息越来越受到各级部门重视。为了保障校园网络的公共安全,基于全文索引与检索技术设计实现了一个针对校内各门户网站的舆情监控系统,通过关键字匹配技术实现对校内各门户网站内容的检测,从而实现对各门户网站的实时监控,实验表明能够发现舆情敏感词并进行预警。 展开更多
关键词 网络舆情 WEB监控 检索 敏感词
下载PDF
模糊遗传算法在敏感词分类优化中的应用 被引量:2
5
作者 叶蕾 邹国奇 肖健 《计算机应用研究》 CSCD 北大核心 2012年第7期2549-2551,2578,共4页
针对以往敏感词分类优化的不足,提出一种基于模糊遗传算法的敏感词分类优化方法,该方法把模糊逻辑理论用于遗传算法,模拟生物进化过程和机制来求解实际的敏感词定性结构优化问题。研究表明,对于敏感词词性以及结构的变化有很好的分类优... 针对以往敏感词分类优化的不足,提出一种基于模糊遗传算法的敏感词分类优化方法,该方法把模糊逻辑理论用于遗传算法,模拟生物进化过程和机制来求解实际的敏感词定性结构优化问题。研究表明,对于敏感词词性以及结构的变化有很好的分类优化效果,从而保证了整体的分类质量、快速的分类效率、鲁棒和可靠的分类性能。 展开更多
关键词 敏感词 遗传算法 模糊逻辑 分类优化
下载PDF
校园网钓鱼邮件监控系统的研究与实现 被引量:1
6
作者 蔡洪民 《计算机技术与发展》 2013年第10期103-106,共4页
随着计算机网络的发展,垃圾邮件问题和邮件欺骗问题变得越来越严重,给广大网民带来巨大危害。为了保障网络公共安全,减轻垃圾邮件和钓鱼邮件对网络用户的危害,基于深度包检测技术设计实现了一个针对钓鱼邮件的监控系统。通过数据包捕获... 随着计算机网络的发展,垃圾邮件问题和邮件欺骗问题变得越来越严重,给广大网民带来巨大危害。为了保障网络公共安全,减轻垃圾邮件和钓鱼邮件对网络用户的危害,基于深度包检测技术设计实现了一个针对钓鱼邮件的监控系统。通过数据包捕获技术和协议解析技术对电子邮件进行还原,实现对邮件内容的检查,结合关键字匹配技术实现了对垃圾邮件和钓鱼邮件的检测和报警。实验证明,通过协议分析与数据包还原技术,可以对垃圾邮件和敏感邮件进行过滤。 展开更多
关键词 网络钓鱼 深度包检测技术 LIBNIDS ICTCLAS 敏感词
下载PDF
编写放松套语应注意的问题
7
作者 李 勋 《衡水师专学报》 2001年第1期78-79,共2页
编写放松套语要考虑运动员的文化水平、接受能力及其语言特点。放松套语中应尽量排除专业术语,使语言通俗易懂,贴近生活。放松顺序切不可采取随机地、跳跃式地选择不同部位放松,否则影响放松效果。放松套语要使用正面语言,并因人而异,... 编写放松套语要考虑运动员的文化水平、接受能力及其语言特点。放松套语中应尽量排除专业术语,使语言通俗易懂,贴近生活。放松顺序切不可采取随机地、跳跃式地选择不同部位放松,否则影响放松效果。放松套语要使用正面语言,并因人而异,可长可短,还要注意每一个运动员的敏感词,放松套语要不断完善。 展开更多
关键词 放松套语 敏感词 正面语言 顺序性 通俗性 疲劳消除方法 心理疲劳
下载PDF
网页主题相关性判别的聚焦爬虫系统的设计与实现
8
作者 刘娟 赵晓楠 《计算机与现代化》 2012年第10期116-120,共5页
网络舆情分析是智能信息处理领域的研究热点,本模型及时从互联网上获得相关网站信息,从中检测出舆情信息并借助数据分析模型对其进行深层次追踪分析,反映出网络舆情的发展趋势和特点,达到预警和监督的目的。
关键词 网络舆情 敏感词 预警
下载PDF
基于决策树的敏感词变形体识别算法研究及应用 被引量:19
9
作者 余敦辉 张笑笑 +1 位作者 付聪 张万山 《计算机应用研究》 CSCD 北大核心 2020年第5期1395-1399,1405,共6页
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏... 针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1%。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。 展开更多
关键词 敏感词识别 敏感词变形体 决策树 敏感程度计算 多因子模型
下载PDF
面向中文敏感词变形体的识别方法研究 被引量:16
10
作者 付聪 余敦辉 张灵莉 《计算机应用研究》 CSCD 北大核心 2019年第4期988-991,共4页
针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设... 针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体时有较高的查全率和查准率。 展开更多
关键词 变形体 敏感词识别 编辑距离 KMP算法
下载PDF
基于改进的Trie树和DFA的敏感词过滤算法 被引量:13
11
作者 吴珊 李英祥 +2 位作者 徐鸿雁 张仕霞 施宜军 《计算机应用研究》 CSCD 北大核心 2021年第6期1678-1682,1688,共6页
通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性。提出的算法包括三个步骤:基于... 通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性。提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进行检测和过滤。通过分析得到构建敏感词树算法的时间复杂度为O(n×len),敏感词检测及过滤算法时间复杂度为O(L)。实验结果表明,本算法其查准率为100%,查全率约为87%~100%。 展开更多
关键词 改进的Trie树 确定有穷自动机(DFA) 敏感词过滤 最小匹配规则
下载PDF
一种不良信息过滤的文本预处理方法研究 被引量:2
12
作者 吴慧玲 耿西伟 +1 位作者 沈建京 贺广生 《微计算机信息》 北大核心 2006年第12X期58-60,共3页
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前... 目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前,对不良信息形式的变化进行预处理,能够提高过滤的效率。 展开更多
关键词 信息安全 信息过滤 文本预处理 敏感词识别
下载PDF
基于主动学习的SVM评论内容分类算法的研究 被引量:6
13
作者 段友祥 张晓天 《计算机与数字工程》 2022年第3期608-612,共5页
随着信息时代的到来,互联网平台上的文本数据开始爆发式增长,其中难免夹杂着一些不法数据。这些数据往往隐藏在海量数据中,因此给平台检索这些不法数据增加了难度。在这种情况下再用传统的文本分类方法已经不能满足需求了。因此论文根... 随着信息时代的到来,互联网平台上的文本数据开始爆发式增长,其中难免夹杂着一些不法数据。这些数据往往隐藏在海量数据中,因此给平台检索这些不法数据增加了难度。在这种情况下再用传统的文本分类方法已经不能满足需求了。因此论文根据文本数据的特点提出了基于主动学习的SVM评论内容分类方法,该方法使用主动学习的思想将敏感词向量、k-means聚类算法和SVM分类算法结合在一起,在使用更少训练集的基础上提高文本分类的准确率。实验结果表明,使用论文提出的方法对文本进行分类,在分类时间和结果准确率方面上都得到了一定程度的提高。 展开更多
关键词 文本分类 主动学习 K-MEANS SVM 敏感词向量
下载PDF
基于Bi-LSTM神经网络的短文本敏感词识别方法 被引量:2
14
作者 周军芽 吴进伟 +1 位作者 吴广飞 张何为 《武汉理工大学学报(信息与管理工程版)》 CAS 2024年第2期312-316,共5页
为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉... 为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉字),引入Bi-LSTM神经网络构建短文本分词模型,二次训练确定最佳参数,反复计算词语的敏感性数值,通过敏感性对比函数,提取短文本敏感词,并匹配敏感词库,确定敏感词的类别与等级,实现短文本敏感词识别。实验结果表明:在不同实验组别下,应用本文方法获得的短文本分词时延均低于给定最大限值,短文本敏感词识别精度高于84.42%,应用性能较佳。 展开更多
关键词 短文本 敏感词识别 文本过滤 编辑距离 双向长短期记忆神经网络
下载PDF
基于改进Trie树的变形敏感词过滤算法 被引量:4
15
作者 叶情 《现代计算机》 2018年第22期3-7,共5页
在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏... 在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏感词过滤算法。该算法经过对变形敏感词分析归类、文本进行分立预处理、构建符合中文特点的Trie树、变形敏感词过滤等阶段,形成一套完整的中文文本过滤体系。经过反复实验表明,该算法不仅可以有效查找中文本中的普通敏感词,并且能高效地过滤出变形敏感词,其中对总敏感词和变形敏感词的查全率分别达到95.46%和92.49%,扩大敏感词查找范围,提高敏感词过滤的精确度。 展开更多
关键词 敏感词过滤 TRIE树 变形敏感词 文本分立 模糊匹配
下载PDF
基于DBNet和改进的Trie树搜索的网络敏感词检测技术 被引量:1
16
作者 刘轩溢 《自动化与仪器仪表》 2024年第5期25-28,共4页
为进一步避免未成年人接触到网络中的不良信息,提出一种基于DBNet和改进的Trie树搜索的网络敏感词检测方法。其中,以DBNet网络为基础的文本检测方法,以Trie树为基础的敏感词检测方法。实验结果表明,与其他文本检测方法以及文本识别方法... 为进一步避免未成年人接触到网络中的不良信息,提出一种基于DBNet和改进的Trie树搜索的网络敏感词检测方法。其中,以DBNet网络为基础的文本检测方法,以Trie树为基础的敏感词检测方法。实验结果表明,与其他文本检测方法以及文本识别方法相比,设计使用的文本检测和识别方法具有更高的精度,能够为后续的敏感词检测提供更加准确的文本信息;与传统的敏感词检测方法相比,基于DBNet和改进的Trie树搜索的敏感词检测方法具有更高的检测精度,检测准确率、漏检率以及误检率分别为89.12%、5.80%和6.12%。综上可知,设计的敏感词检测方法检测性能良好,精度较高,能够应用于实际的网络信息敏感词检测中,保护未成年人接触到网络中的不良信息,具有一定的可行性。 展开更多
关键词 未成年人保护 敏感词检测 DBNet TRIE树
原文传递
基于深度学习的图片敏感文字检测 被引量:4
17
作者 吴财贵 唐权华 《计算机工程与应用》 CSCD 北大核心 2015年第14期203-206,230,共5页
为快速检测图片文字中的敏感词汇,引入深度学习的方法进行文字检测和识别。对图片预处理,对连通区域进行标记;利用两层限制玻尔兹曼机(RBM)对连通区域进行文字区域的判别和选取;利用水平投影和区域生长的方法对得到的文字区域进行字符... 为快速检测图片文字中的敏感词汇,引入深度学习的方法进行文字检测和识别。对图片预处理,对连通区域进行标记;利用两层限制玻尔兹曼机(RBM)对连通区域进行文字区域的判别和选取;利用水平投影和区域生长的方法对得到的文字区域进行字符的分割;用BP神经网络算法和深信度网络(DBN)算法结合对敏感信息进行检测。敏感文字检测理论分析和实验数据表明该方法的算法复杂度低,检测速度快。 展开更多
关键词 图像处理 文字区域提取 敏感词检测 深度学习 限制玻尔兹曼机 深信度网络
下载PDF
档案开放智能审核中的敏感词识别与控制技术研究
18
作者 卞咸杰 《档案管理》 北大核心 2024年第5期29-32,共4页
随着档案法律法规的日趋完善和信息技术的迭代进步,档案开放智能审核工作面临越来越多的挑战。敏感词的识别与控制在防止敏感信息泄露中起着关键作用。通过分析敏感词识别技术与方法,构建基于大模型与多模态训练的敏感词库,包括敏感词... 随着档案法律法规的日趋完善和信息技术的迭代进步,档案开放智能审核工作面临越来越多的挑战。敏感词的识别与控制在防止敏感信息泄露中起着关键作用。通过分析敏感词识别技术与方法,构建基于大模型与多模态训练的敏感词库,包括敏感词库的构建、敏感词库的动态更新机制,选择合适的开发工具和技术平台,进行系统架构设计、数据库设计、界面设计等,实现档案开放智能审核中敏感词的自动化、智能化处理,以增强档案信息的安全性和可靠性。 展开更多
关键词 档案开放 开放审核 敏感词识别 控制技术 大模型 多模态 监督学习 智能审核
下载PDF
网络钓鱼检测研究
19
作者 刘大恒 《信息与电脑》 2024年第10期24-27,共4页
信息技术的发展是一把双刃剑,给用户带来便捷生活方式的同时也给用户带来网络攻击威胁。其中网络钓鱼是比较常见的攻击方式。因此,文章针对此现象提出基于敏感词分词方法的双向长短期记忆(Bidirectional Long Short-Term Memory,BLSTM)... 信息技术的发展是一把双刃剑,给用户带来便捷生活方式的同时也给用户带来网络攻击威胁。其中网络钓鱼是比较常见的攻击方式。因此,文章针对此现象提出基于敏感词分词方法的双向长短期记忆(Bidirectional Long Short-Term Memory,BLSTM)网络模型钓鱼网站检测方案,从不同分词方法出发,对URL地址进行提取、整合,并对网络模型进行训练。实验表明,此方案能够有效检测网络钓鱼攻击。 展开更多
关键词 钓鱼网站 敏感词分词 双向长短期记忆网络
下载PDF
基于自然语言处理技术的敏感信息识别
20
作者 王琦凤 《移动信息》 2024年第11期165-167,共3页
数据时代给人们带来了便利,但也带来了信息保护方面的挑战,如信息可能通过各种渠道被泄露或被非法使用。数据隐私的保护在个人、企业和组织之间的数据治理和数据协作中有着举足轻重的作用。文中基于自然语言处理技术来检测文本中是否存... 数据时代给人们带来了便利,但也带来了信息保护方面的挑战,如信息可能通过各种渠道被泄露或被非法使用。数据隐私的保护在个人、企业和组织之间的数据治理和数据协作中有着举足轻重的作用。文中基于自然语言处理技术来检测文本中是否存在敏感信息,从而对该文本是否可用作出判断。项目主要研究内容包括建立检测敏感内容的算法模型并探讨自然语言处理技术在文本语义识别中的表现及意义。 展开更多
关键词 LSTM 敏感词识别 自然语言处理技术 数据隐私
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部