融合字词特征的互联网敏感言论识别研究被引量：2

Research on Internet Sensitive Speeches Recognition Combining Features of Characters and Words

下载PDF

导出

摘要互联网敏感言论与普通言论之间存在显著差异,为规避过滤规则,其语义较为隐晦,一词多义现象频出,不规范程度较高。为高效识别互联网中的敏感言论并对其进行准确分类,针对敏感言论的特点与现有模型的缺点,对文本卷积神经网络进行了改进,结合ALBERT(a Lite BERT)动态字级编码模型、文本卷积神经网络、多头自注意力机制与门控机制的优势,提出了一种融合字词特征的双通道分类模型ALBERT-CCMHSAG。该模型将文本的字级与词级语义信息、局部关键特征与上下文语义进行了充分提取与融合,以此提升敏感言论的分类效果。ALBERTCCMHSAG模型在敏感言论数据集上、噪声敏感言论数据集、小样本敏感言论数据集上的表现均为最优,证明了该模型对敏感言论识别与分类能力更强,能应对噪声数据与适应训练数据不足的情况,鲁棒性更强。在酒店评论数据集上,该模型的性能同样优于对比模型,证明了模型在其他语料上也很可能具有优异表现。 Sensitive speeches on the Internet are quite different from ordinary speeches.In order to avoid filtering rules,they have a high degree of irregularity,more obscure semantics,and frequent multiple meanings of words.In order to efficiently identify sensitive speeches on the Internet and classify them accurately,according to the characteristics of sensitive speeches and the shortcomings of existing models,the text convolutional neural network is improved.Combining the advantages of ALBERT(a Lite BERT)dynamic character-level encoding model,text convolutional neural network,multi-head self-attention mechanism and gating mechanism,a dual-channel classification model ALBERT-CCMHSAG that combines features of characters and words is proposed.The model fully extracts and integrates the characterlevelandword-levelsemantic information,local key features and contextual semantics of the text to improve the classification effect of sensitive speeches.The ALBERT-CCMHSAG model performs optimally on the sensitive speeches dataset,the noisy sensitive speeches dataset,and the small-sample sensitive speeches dataset,proving that the model is more capable of recognizing and classifying sensitive speech,coping with noisy data and adapting to the situation of insufficient training data,and being more robust.The model also outperforms the comparison models on the hotel reviews dataset,demonstrating that the model is likely to perform well in other corpora.

作者闫尚义王靖亚朱少武崔雨萌陶知众 YAN Shangyi;WANG Jingya;ZHU Shaowu;CUI Yumeng;TAO Zhizhong(School of Information Network Security,People’s Public Security University of China,Beijing 100045,China)

机构地区中国人民公安大学信息网络安全学院

出处《计算机工程与应用》 CSCD 北大核心 2023年第13期129-138,共10页 Computer Engineering and Applications

基金国家社会科学基金(20AZD114) CCF-绿盟科技“鲲鹏”科研基金(CCF-NSFOCUS 2020011) 中国人民公安大学公共安全行为科学实验室开放课题基金(2020sys08)。

关键词敏感言论识别字特征词特征多头自注意力机制门控机制 sensitive speeches recognition characters features words features multi-head self-attention mechanism gating mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1孔建华..当代中国网络舆情治理：行动逻辑、现实困境与路径选择[D].吉林大学,2019:
2张昊..目标网站访客舆情信息获取方法研究[D].哈尔滨工业大学,2017:
3李扬,潘泉,杨涛.基于短文本情感分析的敏感信息识别[J].西安交通大学学报,2016,50(9):80-84. 被引量：20
4高广尚.深度学习推荐模型中的注意力机制研究综述[J].计算机工程与应用,2022,58(9):9-18. 被引量：33
5卢琪,潘志松,谢钧.融合知识表示学习的双向注意力问答模型[J].计算机工程与应用,2021,57(23):171-177. 被引量：4
6袁勋,刘蓉,刘明.融合多层注意力的方面级情感分析模型[J].计算机工程与应用,2021,57(22):147-152. 被引量：12
7杨兴锐,赵寿为,张如学,杨兴俊,陶叶辉.结合自注意力和残差的BiLSTM_CNN文本分类模型[J].计算机工程与应用,2022,58(3):172-180. 被引量：17
8石磊,王毅,成颖,魏瑞斌.自然语言处理中的注意力机制研究综述[J].数据分析与知识发现,2020,4(5):1-14. 被引量：63

二级参考文献20

1赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：546
2徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：238
3杨立公,朱俭,汤世平.文本情感分析综述[J].计算机应用,2013,33(6):1574-1578. 被引量：123
4张鲁民,贾焰,周斌,赵金辉,洪锋.一种基于情感符号的在线突发事件检测方法[J].计算机学报,2013,36(8):1659-1667. 被引量：23
5周东浩,韩文报.DiffRank:一种新型社会网络信息传播检测算法[J].计算机学报,2014,37(4):884-893. 被引量：17
6刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：261
7何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：131
8徐冠华,赵景秀,杨红亚,刘爽.文本特征提取方法研究综述[J].软件导刊,2018,17(5):13-18. 被引量：16
9黄立威,江碧涛,吕守业,刘艳博,李德毅.基于深度学习的推荐系统研究综述[J].计算机学报,2018,41(7):1619-1647. 被引量：428
10杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：410

共引文献142

1曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
2周涛,谢立华,王啸飞.基于改进Wide&Deep的卷烟焦油指标预测模型[J].计算机应用,2023,43(S01):95-99.
3石磊,李敬明,朱家明.基于BERT-BiLSTM-CRF的突发公共卫生事件抽取研究[J].哈尔滨师范大学自然科学学报,2022,38(2):37-42. 被引量：2
4刘祥学.杨廷和与嘉靖初年的政治革新[J].西南师范大学学报（人文社会科学版）,2000,26(2):122-128. 被引量：1
5赵炜,王茂贵.以腹痛为突出表现的小儿肺炎20例分析[J].河南医科大学学报,2000,35(1):119-120. 被引量：1
6宋继红,葛达明.基于微博文本的情感倾向分析[J].软件工程,2016,19(12):33-35. 被引量：3
7朱敏玲,吴海艋,石磊.粗糙集规则匹配算法及其在文本分类中的应用[J].计算机系统应用,2018,27(4):131-137. 被引量：1
8林学峰,夏元轶,郭金龙,于晓文.基于卷积神经网络的敏感文件检测方法[J].计算机与现代化,2018(7):28-32.
9付聪,余敦辉,张灵莉.面向中文敏感词变形体的识别方法研究[J].计算机应用研究,2019,36(4):988-991. 被引量：16
10倪铉珣.智能通讯网络敏感信息连接可靠性监测仿真[J].计算机仿真,2019,36(7):449-453. 被引量：1

同被引文献7

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：5
2王洁,朱贝贝.面向中文歌词的音乐情感分类方法[J].计算机系统应用,2019,28(8):24-29. 被引量：11
3王嘉伟,胡曦,丁子怡,刘雨.基于GA-IPSO-BSVM算法的新浪微博评论信息分类[J].计算机系统应用,2022,31(8):169-175. 被引量：2
4林浩,王春东,孙永杰.面向社交媒体数据的人格识别研究进展[J].计算机科学与探索,2023,17(5):1002-1016. 被引量：2
5庞宁.基于深度学习的非结构化敏感信息识别系统设计[J].微型电脑应用,2023,39(7):146-148. 被引量：1
6蔡泽晗,钟保强,魏莱,何倩,崔玮洪.面向结构化数据库的敏感属性自动识别方法[J].自动化与仪器仪表,2023(11):82-86. 被引量：3
7周军芽,吴进伟,吴广飞,张何为.基于Bi-LSTM神经网络的短文本敏感词识别方法[J].武汉理工大学学报（信息与管理工程版）,2024,46(2):312-316. 被引量：2

引证文献2

1肖博健,曹霑懋,许莉芬.多任务学习在不良言论与个体特征检测中的应用[J].计算机系统应用,2024,33(7):74-83.
2王琦凤.基于自然语言处理技术的敏感信息识别[J].移动信息,2024,46(11):165-167.

1陈秀春.认知语言学视角下的“一词多义”现象分析[J].对外经贸,2023(2):103-106. 被引量：1
2李昂,袁芳.词义学相关理论述评[J].海外英语,2023(9):76-78.
3姚月齐.基于图形—背景理论分析英语中的双关语[J].英语广场（学术研究）,2023(13):46-49.
4高玮军,赵华洋,李磊,朱婧.基于ALBERT-HACNN-TUP模型的文本情感分析[J].计算机仿真,2023,40(5):491-496. 被引量：3
5路寒梅,蔡春,李皎.曲靖市麒麟区农户参与农民专业合作社行为的影响因素研究[J].安徽农业科学,2023,51(11):231-235.
6李书敏.露天矿开采过程中边坡稳定性分析[J].世界有色金属,2023(7):40-42. 被引量：2
7李庆学,邹存阳.采矿工程英语词句特征分析及翻译策略研究[J].英语广场（学术研究）,2023(16):27-30.
8陈娇娜,陶伟俊,靳引利,王鹏,张静.多模态文本信息的高速公路交通事件持续时间预测[J].中国安全生产科学技术,2023,19(6):180-186. 被引量：2
9上官泽明,白玮东.国家审计如何提升贫困地区农村居民收入?——兼论5年过渡期巩固拓展脱贫攻坚成果的审计应对策略[J].南京审计大学学报,2023,20(3):11-20. 被引量：4
10鲁志琴,陈林祥,沈玲丽.中国体育产业数字化发展的趋势、挑战与应对[J].成都体育学院学报,2023,49(3):35-41. 被引量：15

计算机工程与应用

2023年第13期

浏览历史

内容加载中请稍等...

融合字词特征的互联网敏感言论识别研究被引量：2

参考文献8

二级参考文献20

共引文献142

同被引文献7

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合字词特征的互联网敏感言论识别研究 被引量：2

参考文献8

二级参考文献20

共引文献142

同被引文献7

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合字词特征的互联网敏感言论识别研究被引量：2