-
题名基于胶囊异构图注意力网络的中文表格型数据事实验证
- 1
-
-
作者
杨鹏
查显宇
赵广振
林茜
-
机构
东南大学计算机科学与工程学院
计算机网络和信息集成教育部重点实验室(东南大学)
福州大学计算机与大数据学院
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第9期4324-4345,共22页
-
基金
国家自然科学基金(62272100)
中国工程院院地合作项目(JS2021ZT05)
中国工程院咨询项目(2023-XY-09)。
-
文摘
事实验证旨在检查一个文本陈述是否被给定的证据所支持.由于表格结构上具有依赖性、内容上具有隐含性,以表格作为证据的事实验证任务仍面临很多挑战.现有工作或者利用逻辑表达式来解析基于表格证据的陈述,或者设计表格感知神经网络来编码陈述-表格对,以此实现基于表格的事实验证任务.但是,这些方法没有充分利用陈述背后隐含的表格信息,从而导致模型的推理性能下降,并且基于表格证据的中文陈述具有更加复杂的语法和语义,也给模型推理带来更大的困难.为此,提出基于胶囊异构图注意力网络(CapsHAN)的中文表格型数据事实验证方法,所提方法能充分理解陈述的结构和语义,进而挖掘和利用陈述所隐含的表格信息,有效提升基于表格的事实验证任务准确性.具体而言,首先通过对陈述进行依存句法分析和命名实体识别来构建异构图,接着对该图采用异构图注意力网络和胶囊图神经网络进行学习和理解,然后将得到的陈述文本表示与经过编码的表格文本表示进行拼接,最后完成结果的预测.更进一步,针对现有中文表格型事实验证数据集匮乏而难以支持基于表格的事实验证方法性能评价的难题,首先对主流TABFACT和INFOTABS表格事实验证英文数据集进行中文转化,并且专门针对中文表格型数据的特点构建了基于UCL国家标准的数据集UCLDS,该数据集将维基百科信息框作为人工注释的自然语言陈述的证据,并被标记为蕴含、反驳或中立3类.UCLDS在同时支持单表和多表推理方面比传统TABFACT和INFOTABS数据集更胜一筹.在上述3个中文基准数据集上的实验结果表明,所提模型的表现均优于基线模型,证明该模型在基于中文表格的事实验证任务上的优越性.
-
关键词
基于表格的事实验证
异构图注意力网络
胶囊图神经网络
依存句法分析
命名实体识别
-
Keywords
table-based fact verification
heterogeneous graph attention network(han)
capsule graph neural network(CapsGNN)
dependency parsing
named entity recognition
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于异构图注意力网络的微博谣言监测模型
被引量:4
- 2
-
-
作者
毕蓓
潘慧瑶
陈峰
隋京言
高扬
王耀君
-
机构
中国农业大学信息与电气工程学院
北京理工大学计算机学院
北京工业大学经济与管理学院
中国科学院计算技术研究所
-
出处
《计算机应用》
CSCD
北大核心
2021年第12期3546-3550,共5页
-
基金
北京市自然科学基金青年项目(5214026)
中国农业大学2115人才工程。
-
文摘
社交媒体方便了人们的日常交流和信息传播,同时也是谣言滋生和传播的温床,因此如何在谣言传播早期自动监测极具现实意义,而现有的检测方法没有充分利用微博信息传播图的语义信息。为了解决这个问题,基于异构图注意力网络(HAN)构建了谣言监测模型MicroBlog-HAN。该模型采用含有节点级注意力和语义级注意力的分层注意力机制。首先,节点级注意力结合微博节点的邻居生成两组具有特定语义的节点嵌入;然后,语义级注意力融合不同语义,得到最终的节点嵌入,并输入到分类器中执行二分类任务;最后,给出输入微博是谣言还是非谣言的分类结果。在两个真实的微博谣言数据集上的实验结果表明,MicroBlog-HAN模型可以实现微博谣言较准确的识别,准确率超过87%。
-
关键词
微博
谣言监测
异构图
元路径
异构图注意力网络
-
Keywords
microblog
rumor detection
heterogeneous graph
meta-path
heterogeneous graph attention network(han)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-