摘要
在社交媒体中,存在大量的反讽和讽刺等语言现象,这些语言现象往往表征了一定的情感倾向性。然而这些特殊的语言现象所表达的语义倾向性,通常与其浅层字面含义相去甚远,因此加大了社交媒体中文本情感分析的难度。鉴于此,该文主要研究中文社交媒体中的讽刺语用识别任务,构建了一个覆盖反讽、讽刺两种语言现象的语料库。基于此挖掘反讽和讽刺的语言特点,该文通过对比一些有效领域特征,验证了在反讽和讽刺文本的识别中,其结构和语义等深层语义特征的重要性。同时,该文提出了一种有效的多特征融合的混合神经网络判别模型,融合了卷积神经网络与LSTM序列神经网络模型,通过深层模型学习深层语义特征和深层结构特征,该模型获得了较好的识别精度,优于传统的单一的神经网络模型和BOW(Bag-of-Words)模型。
In social media,there are a lot of ironies or satires,which imply certain emotional tendencies.However,the pragmatic tendency of these special language phenomena is most often a far cry from its literal meaning,which challerges the text sentiment analysis in social media.This paper studies irony recognition in Chinese social media,and constructs a corpus contains irony and satire.It demonstrates the importance of structural and semantic features of ironies in text recognition.This paper also presents an efficient multi-feature hybrid neural network model,which fuses the Convolutional Neural Network and LSTM sequential models.The experimental resitst prove that the proposed model is superior to the traditional neural network models and BOW(bag-of-words)model.
出处
《中文信息学报》
CSCD
北大核心
2016年第6期215-223,共9页
Journal of Chinese Information Processing
基金
安徽省自然基金(1508085QF119)
国家自然基金(61432004)
模式识别国家重点实验室开放课题(NLPR)(201407345)
中国博士后科学基金(2015M580532)
关键词
讽刺
神经网络
多特征融合
情感分析
irony
neural networks
multi-feature fusion
sentiment analysis