-
题名一种基于Word2vec的敏感内容识别技术
被引量:8
- 1
-
-
作者
金贵涛
石元兵
魏忠
王雍
刘峻豪
-
机构
卫士通信息产业股份有限公司
-
出处
《通信技术》
2019年第11期2750-2756,共7页
-
基金
“核高基”国家科技重大专项(No.2017ZX01030-201)~~
-
文摘
随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从语义层面识别文本中的敏感词,并根据提出的敏感度模型计算文本敏感度,判断文本敏感等级。实验结果表明,与传统方法相比,提出的技术方法能够更准确、全面地识别文本敏感内容,并确定文本敏感等级。
-
关键词
敏感词
TextRank算法
Word2vec
文本敏感等级
-
Keywords
sensitive word
TextRank algorithm
Word2vec
text sensitive level
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-