基于局部对抗训练的命名实体识别方法研究被引量：4

Name entity recognition based on local adversarial training

下载PDF

导出

摘要命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量边界样本的困难样本,利用边界样本易被扰动偏离正确类别的特性,采用按照混淆矩阵错误概率分布的目标攻击方法,生成对抗样本用于对抗训练,增强模型对混淆边界样本的识别能力.为验证该方法的优越性,设计非目标攻击方式的全局、局部对抗训练方法与目标攻击全局对抗训练方法作为对比实验.实验结果表明,该方法提高了对抗样本质量,保留了对抗训练的优势,在JNLPBA、MalwareTextDB、Drugbank三个数据集上F1值分别提升1.34%、6.03%、3.65%. Boundary samples of different categories staggered on the boundary in the datasets of named entity recognition research,which affects the performance of named entity recognition model.A method based on local adversarial training and BiLSTM-CRF model is proposed to solve the problem above.The method selects hard examples which contain a lot of boundary samples to crafting adversarial samples.The process is based on the characteristics of boundary samples that are easily perturbed to leave from the correct category,and then get adversarial samples from the target attack step according to the confusion matrix error probability distribution.Finally,the datasets mixing with the original data and the adversarial is used to adversarial training to enhance the model’s recognition ability.In order to verify the superiority of this method,global/local adversarial training based on non-target attack method and local adversarial training based on target attack are designed as comparative experiments.Experimental results show that the method proposed improves the quality of adversarial samples while retaining the advantages of adversarial training.The F1 scores on the three datasets of JNLPBA,MalwareTextDB,and Drugbank are increased by 1.34%,6.03%,and 3.65%respectively.

作者李静程芃森许丽丹刘嘉勇 LI Jing;CHENG Peng-Sen;XU Li-Dan;LIU Jia-Yong(College of Cybersecurity,Sichuan University,Chengdu 610065,China)

机构地区四川大学网络空间安全学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2021年第2期107-114,共8页 Journal of Sichuan University(Natural Science Edition)

基金四川省重点研发项目(2020YFG0076) 四川大学基金(2020SCUNG205) 国家自然科学基金(U2066203,61473197)。

关键词命名实体识别对抗训练困难样本目标攻击 Named entity recognition Adversarial training Hard samples Target attack

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1周玉,朱安福,周林,钱旭.一种神经网络分类器样本数据选择方法[J].华中科技大学学报（自然科学版）,2012,40(6):39-43. 被引量：18
2张莉,郭军.基于边界样本的训练样本选择方法[J].北京邮电大学学报,2006,29(4):77-80. 被引量：15
3许丽丹,刘嘉勇,何祥.一种解决命名实体识别数据集类别标记失衡的方法[J].四川大学学报（自然科学版）,2020,57(1):82-88. 被引量：6
4GUL Khan Safi Qamas,尹继泽,潘丽敏,罗森林.基于深度神经网络的命名实体识别方法研究[J].信息网络安全,2017(10):29-35. 被引量：16

二级参考文献28

1刘刚,张洪刚,郭军.不同训练样本对识别系统的影响[J].计算机学报,2005,28(11):1923-1928. 被引量：15
2Wilson D R, Martinez T R. Instance pruning techniques [C]// Proceedings of the 14th International Conference. San Francisco: Morgan Kaufmann Publishers Inc, 1997:404-411. 被引量：1
3Astrahan M M. Speech analysis by clustering, or the hyper-phoneme method [R]. Calif: Stanford Univ, 1970. 被引量：1
4Mitra P, Pal S K. Density-based multiscale data condensation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(6): 734-747. 被引量：1
5Ng W W Y, Yeung D S, Cloete I. Input sample selection for rbf neural network classification problems using sensitivity measure [C]// IEEE International Conference on Systems Man and Cybernetics. Washington: [s. n.], 2003: 2593-2598. 被引量：1
6Tambouratzis T. Counter-clustering for training pattern selection [J]. The Computer Journal, 2000, 43 (3) :177-190. 被引量：1
7Lyhyaoui A, Ynez M M, Mora I. Sample selection via clustering to construct support vector-like classifiers [J]. IEEE Transactions on Neural Networks, 1999, 10 (6) :1474-1480. 被引量：1
8Brighton H, Mellish C. Advances in instance selection for instance-based learning algorithms [J]. Data Mining and Knowledge Discovery, 2002, 6(2): 153-172. 被引量：1
9Luo Dingsheng, Chen Ke. Refine decision boundaries of a statistical ensemble by active learning [C] // International Joint Conference on Neural Networks. Portland: [s.n.], 2003: 1523-1528. 被引量：1
10Guan Donghai,Yuan Weiwei,Lee Youngkoo,et al.Improving supervised learning performance by using fuzzy clustering method to select training data[J].Journal of Intelligent and Fuzzy Systems,2008,19(4):321-334. 被引量：1

共引文献46

1邓红平,宋婉娟.基于反例样本的原始凭证的手写数字识别[J].武汉理工大学学报,2008,30(3):154-156. 被引量：2
2张羽,王慧强,贺英杰.网络态势感知系统的告警阈值确定方法研究[J].世界科技研究与发展,2008,30(4):443-445. 被引量：1
3吴丽芳,徐圆,朱群雄.基于组件的石化过程智能建模与优化系统的设计与开发[J].计算机与应用化学,2009,26(8):979-984. 被引量：1
4陈先来,杨路明.基于均矢量相似性的机器学习样本集划分[J].中南大学学报（自然科学版）,2009,40(6):1636-1641. 被引量：7
5丁晓剑,赵银亮.双边界支持向量机的理论研究与分析[J].北京邮电大学学报,2010,33(2):20-23. 被引量：2
6孙鹏飞,张健沛.基于样本选择的蛋白质关联结构预测[J].计算机与应用化学,2010,27(7):937-940.
7喻东风.浅析班主任培训上岗制的实施[J].教学与管理（中学版）,2000(8):10-11.
8李树强,赵旭辉,李民赞,李修华,赵瑞娇,张彦娥.基于矩阵变换的车载玉米叶绿素含量快速预测系统偏差分析[J].农业工程学报,2013,29(11):44-51. 被引量：4
9杨发权,李赞,李红艳,郝本建,潘忠显.基于蜂群算法和神经网络的通信调制识别方法[J].系统工程与电子技术,2013,35(10):2186-2191. 被引量：4
10王峰林,王长龙,江涛,王建斌.基于改进半监督FCM聚类的复合材料超声检测脱粘缺陷识别[J].军械工程学院学报,2013,25(6):49-53.

同被引文献56

1孔锋.我国城市暴雨内涝灾害风险综合治理初探[J].中国减灾,2021,31(17):23-27. 被引量：10
2霍娜,吕国英.基于规则匹配的灾难性追踪事件信息抽取的研究[J].电脑开发与应用,2012,25(6):7-9. 被引量：6
3陈伟宏,安吉尧,李仁发,李万里.深度学习认知计算综述[J].自动化学报,2017,43(11):1886-1897. 被引量：37
4刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：141
5王国胤,李帅,杨洁.知识与数据双向驱动的多粒度认知计算[J].西北大学学报（自然科学版）,2018,48(4):488-500. 被引量：14
6宋青松,张超,陈禹,王兴莉,杨小军.组合全卷积神经网络和条件随机场的道路分割[J].清华大学学报（自然科学版）,2018,58(8):725-731. 被引量：15
7司念文,王衡军,李伟,单义栋,谢鹏程.基于注意力长短时记忆网络的中文词性标注模型[J].计算机科学,2018,45(4):66-70. 被引量：21
8权波,杨博辰,胡可奇,郭晨萱,李巧勤.基于LSTM的船舶航迹预测模型[J].计算机科学,2018,45(B11):126-131. 被引量：66
9杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：367
10张庆林,杜嘉晨,徐睿峰.基于对抗学习的讽刺识别研究[J].北京大学学报（自然科学版）,2019,55(1):29-36. 被引量：7

引证文献4

1李洋,邢林林,蔡红珍,徐航,苏展鹏.基于对抗网络的农业生物质材料检测领域命名实体识别[J].农业与技术,2021,41(16):30-34.
2李攀锋,陈樱珏,钟泠韵,林锋.基于多粒度认知的命名实体识别方法[J].四川大学学报（自然科学版）,2022,59(2):58-64. 被引量：1
3方美丽,郑莹莹,陶坤旺,赵习枝,仇阿根,陆文.基于MacBERT和对抗训练的城市内涝信息识别方法[J].集成技术,2023,12(1):56-67. 被引量：1
4马月坤,郝益锋.考虑特征稀疏特性的短文本命名实体快速识别方法[J].吉林大学学报（工学版）,2023,53(12):3529-3535.

二级引证文献2

1樊建平,须成忠,沈鸿,尹凌.序言:政务大数据管理与智能服务[J].集成技术,2023,12(1):1-3.
2孙玉芹,肖静婷,王海超.基于多模型融合的电力运检命名实体识别[J].科学技术与工程,2023,23(36):15545-15552.

1司念文,张文林,屈丹,常禾雨,李盛祥,牛铜.基于对抗补丁的可泛化的Grad-CAM攻击方法[J].通信学报,2021,42(3):23-35. 被引量：3
2陈栋,连细南,陈朋.一种基于增强现实技术的炮兵实弹对抗训练方法研究[J].舰船电子工程,2021,41(3):89-92. 被引量：1
3王曙燕,金航,孙家泽.GAN图像对抗样本生成方法[J].计算机科学与探索,2021,15(4):702-711. 被引量：7
4陈钰,张安勤,许春辉.基于多粒度和语义信息的中文关系抽取[J].计算机系统应用,2021,30(3):190-195. 被引量：1
5孙乾宇,张振东.基于YOLOv3增强模型融合的人流密度估计[J].计算机系统应用,2021,30(4):271-276. 被引量：3
6焦红霞.用末梢血与静脉血进行血常规检验的准确性及稳定性分析对比[J].山西医药杂志,2021,50(5):845-847. 被引量：9
7杨煜,赵河明,彭志凌,张鸿涛,纪春佳,苏士昕.基于多层前向型神经网络的步态分类方法[J].自动化与仪器仪表,2021(3):18-21. 被引量：1
8刘翱宇,吴云志,朱小宁,范国华,乐毅,张友华.基于深度残差网络的玉米病害识别[J].江苏农业学报,2021,37(1):67-74. 被引量：22
9李忠智,尹航,左剑凯,刘鹤丹.不平衡训练数据下的基于生成对抗网络的轴承故障诊断[J].小型微型计算机系统,2021,42(1):46-51. 被引量：8
10王作广,朱红松,孙利民.社工概念演化分析[J].信息安全学报,2021,6(2):12-29.

四川大学学报（自然科学版）

2021年第2期

浏览历史

内容加载中请稍等...

基于局部对抗训练的命名实体识别方法研究被引量：4

参考文献4

二级参考文献28

共引文献46

同被引文献56

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于局部对抗训练的命名实体识别方法研究 被引量：4

参考文献4

二级参考文献28

共引文献46

同被引文献56

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于局部对抗训练的命名实体识别方法研究被引量：4