非结构化文档敏感数据识别与异常行为分析被引量：11

Unstructured document sensitive data identification and abnormal behavior analysis

下载PDF

导出

摘要在海量数据中快速、准确地对数据进行分类分级,快速识别用户异常行为是目前数据安全领域的重要研究内容。在数据分类分级研究领域,自然语言处理技术提升了分类分级的准确率,但是中文语体混杂、无监督学习准确率低、有监督学习样本标注工作量大等问题亟待取得关键突破。本文提出多元中文语言模型和基于无监督算法构建样本,突破数据分类分级领域面临的关键问题。在用户异常行为分析研究领域,由于样本依赖度过高,导致异常行为识别准确率较低,本文提出利用离群点检测方法构建异常行为样本库,解决样本依赖过高问题。为验证方法可行性,进一步构建实验系统开展实验分析,通过实验验证所提出方法可以显著提高数据分类分级和异常行为分析的准确率。 It is an important research content in the field of data security to classify data quickly and accurately in mass data,and to quickly identify user abnormal behavior.In the field of data classification research,natural language pro-cessing technology improves the accuracy of classification,but the problems of mixed Chinese language,low accuracy of unsupervised learning,and large workload of supervised learning sample labeling need to be Chinese made urgently.In the field of user anomaly analysis,due to high sample dependence,which leads to low accuracy of abnormal behavi-or recognition,this paper proposes to use outlier detection to build an abnormal behavior sample library to solve the problem of excessive sample dependence.In order to verify feasibility of the method,the experimental system is further constructed to carry out experimental analysis,and the proposed method can significantly improve the accuracy of data classification and abnormal behavior analysis.

作者喻波王志海孙亚东谢福进安鹏 YU Bo;WANG Zhihai;SUN Yadong;XIE Fujin;AN Peng(Beijing Wondersoft Technology Co.,Ltd,Beijing 100876,China)

机构地区北京明朝万达科技股份有限公司

出处《智能系统学报》 CSCD 北大核心 2021年第5期931-939,共9页 CAAI Transactions on Intelligent Systems

基金国家火炬计划项目(2011GH010018) 国家电子发展基金项目(工信部财【2014】425号).

关键词数据安全人工智能分类分级语言模型用户异常行为分析样本自然语言处理监督学习 data security artificial intelligence classification language model user’s behavior analysis sample nlp supervised learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP319 [自动化与计算机技术—控制科学与工程]

引文网络
相关文献

参考文献12

1罗军舟,韩志耕,王良民.一种可信可控的网络体系及协议结构[J].计算机学报,2009,32(3):391-404. 被引量：31
2王琨,陆艳军.数据文件安全管控技术的研究与实现[J].信息安全研究,2018,4(1):84-90. 被引量：2
3李增局,彭乾,史汝辉,李超,马志鹏,李海滨.CRT-RSA 算法的选择明文攻击[J].密码学报,2016,3(5). 被引量：4
4赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：484
7万里鹏,兰旭光,张翰博,郑南宁.深度强化学习理论及其应用综述[J].模式识别与人工智能,2019,32(1):67-81. 被引量：70
8窦宇宸,胡勇.基于BERT的安全事件命名实体识别研究[J].信息安全研究,2021,7(3):242-249. 被引量：4
9刘思琴,冯胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227. 被引量：26
10陈红松,王钢,宋建林.基于云计算入侵检测数据集的内网用户异常行为分类算法研究[J].信息网络安全,2018(3):1-7. 被引量：13

二级参考文献170

1甘刚,王敏,杜之波,吴震.基于Montgomery算法安全漏洞的SPA攻击算法[J].通信学报,2013,34(S1):156-161. 被引量：2
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
4顾冠群,罗军舟.Some Issues on Computer Networks:Architecture and Key Technologies[J].Journal of Computer Science & Technology,2006,21(5):708-722. 被引量：2
5王慧强,赖积保,朱亮,梁颖.网络态势感知系统研究综述[J].计算机科学,2006,33(10):5-10. 被引量：126
6余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
7张宏科,苏伟.新网络体系基础研究——一体化网络与普适服务[J].电子学报,2007,35(4):593-598. 被引量：126
8林闯,雷蕾.下一代互联网体系结构研究[J].计算机学报,2007,30(5):693-711. 被引量：64
9高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
10MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533. 被引量：1

共引文献756

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：11
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
6张建盛,牟健君.基于云原生的东西向流量攻击检测方案研究[J].信息网络安全,2020(S01):115-118.
7李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：46
8舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
9屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：7
10钟玮琦,喻仁虹,李明柱.基于DDPG算法的供热末端运行策略研究[J].暖通空调,2022,52(S02):170-174. 被引量：1

同被引文献113

1俞志龙,杨明辉.基于机器学习算法的数据安全稽核模型搭建[J].信息网络安全,2020(S01):1-5. 被引量：2
2孙怡帆,王彩晶,罗梓烨.基于变系数模型的高维数据异同性识别方法研究[J].统计研究,2021,38(5):136-146. 被引量：2
3段美然,赵辉,谷松原,徐伟峰,王洪涛.基于深度迁移学习的多变量时间序列异常检测[J].中国电子科学研究院学报,2023,18(2):138-145. 被引量：3
4杨观赐,林家丞,李杨,李少波.基于改进Cycle-GAN的机器人视觉隐私保护方法[J].华中科技大学学报（自然科学版）,2020,48(2):73-78. 被引量：7
5钟嶒楒,方志军.基于循环神经网络的人体异常行为识别模型[J].智能计算机与应用,2021,11(11):76-78. 被引量：1
6邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32
7李海林,郭崇慧,杨丽彬.基于时间序列数据挖掘的故障检测方法[J].数据采集与处理,2016,31(4):782-790. 被引量：24
8苏兴华.非结构化生产信息的向量表示提取方法[J].中国管理信息化,2018,21(23):159-161. 被引量：2
9段忠祥.一种基于正态分布的复杂网络结构划分算法[J].软件工程,2019,22(3):23-25. 被引量：2
10施伟锋,卓金宝,兰莹.一种基于属性空间相似性的模糊聚类算法[J].电子与信息学报,2019,41(11):2722-2728. 被引量：13

引证文献11

1茅颖.基于GAN的HDFS敏感数据安全增强方法[J].宁夏师范学院学报,2023,44(4):105-112.
2徐世权,倪宁宁,刘佳,张高山,陈敏时.基于transformer的非结构化文档敏感数据识别方法研究[J].电信工程技术与标准化,2023,36(9):28-32. 被引量：1
3杨飞,宋吉星,王宜春,杨伟迪,赵璟.基于OCR识别技术的碎片化时空信息库异常文件检测方法[J].武汉理工大学学报（信息与管理工程版）,2023,45(6):967-971. 被引量：3
4杨丽娜,刘长胜,刘璐璐.基于区块链技术的非结构化文本关键信息智能抽取模型[J].信息技术,2024,48(2):154-159.
5吕长松.海量异构资源敏感信息时间序列数据挖掘算法[J].桂林航天工业学院学报,2024,29(1):61-66.
6闫丽飞,褚宇宁,赵维伟,何壮壮,刘晓强.大规模非结构化数据资源快速存储方法研究[J].集成电路与嵌入式系统,2024,24(4):77-81.
7孙剑钢,曾晨煌.通信数据中的异常模式挖掘及其在网络安全中的应用[J].通信电源技术,2024,41(3):152-154.
8周军芽,吴进伟,吴广飞,张何为.基于Bi-LSTM神经网络的短文本敏感词识别方法[J].武汉理工大学学报（信息与管理工程版）,2024,46(2):312-316. 被引量：2
9吕忠闯,周豪洁,方枝.基于异步交互聚合网络的卷烟厂危险作业区人员异常行为图像识别[J].计算技术与自动化,2024,43(2):110-115.
10郑浩,王鹰.嵌入式异构物联网敏感数据流动态挖掘研究[J].电子设计工程,2024,32(15):12-15.

二级引证文献6

1臧国全,柴文科,张盼盼,张凯亮,孙倬,张恒苗.个人教育数据的敏感性识别与隐私计量研究[J].情报理论与实践,2024,47(8):84-94. 被引量：2
2蓝飘.OCR识别技术在文档智能化领域运用分析[J].信息与电脑,2024,36(10):67-69.
3邓又琦,张明,马敬济.基于深度学习识别算法的文件敏感词多维度检测技术研究[J].计算机与数字工程,2024,52(8):2435-2439.
4杜强娜,曹宇航,贾云峰.制管企业质证书识别新技术探索研究[J].焊管,2024,47(11):64-68.
5胡长生.基于深度学习与OCR识别技术的合同审核与标注方法[J].福建技术师范学院学报,2024,42(5):30-37.
6王琦凤.基于自然语言处理技术的敏感信息识别[J].移动信息,2024,46(11):165-167.

1奚笑冬.城市轨道交通跨专业数据融合分析的预处理及时间同步方法[J].城市轨道交通研究,2021,24(S01):40-46. 被引量：2
2覃日升,何觅,何鑫,段锐敏.基于主成分分析与Wasserstein距离的低压用户相别识别[J].电工技术,2021(15):69-72.
3史秋衡,黄蕴蓓.高质量教育体系的主要功能是服务全民终身学习[J].中国高等教育,2021(21):11-13. 被引量：11
4闫西慧,周敬召,李岩,张爱伟.基于自编码神经网络和随机森林的窃电识别算法[J].电力大数据,2021,24(6):44-51. 被引量：2
5张劲松.基于用户生成文本的图书标签关联规则识别方法[J].情报杂志,2021,40(11):182-189. 被引量：4

智能系统学报

2021年第5期

浏览历史

内容加载中请稍等...

非结构化文档敏感数据识别与异常行为分析被引量：11

参考文献12

二级参考文献170

共引文献756

同被引文献113

引证文献11

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

非结构化文档敏感数据识别与异常行为分析 被引量：11

参考文献12

二级参考文献170

共引文献756

同被引文献113

引证文献11

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

非结构化文档敏感数据识别与异常行为分析被引量：11