-
题名基于多模型的新闻标题分类
被引量:4
- 1
-
-
作者
董孝政
宋睿
洪宇
朱芬红
朱巧明
-
机构
苏州大学江苏省计算机信息处理技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2018年第10期69-77,共9页
-
基金
国家自然科学基金(61672367
61672368
+1 种基金
61773276)
国防部科技战略先导计划(17-ZLXD-XX-02-06-04)
-
文摘
该文研究中文新闻标题的领域分类方法(domain-oriented headline classification,DHC)。现有研究将DHC限定为一种短文本分类问题,并将传统分类模型和基于卷积神经网络的分类模型应用于这一问题的求解。然而,这类方法忽视了新闻标题的内在特点,即为"标题是建立在凝练全文且弱相关的词语之上的一种强迫性的语义表述"。目前,融合了序列化记忆的循环神经网络在语义理解方面取得了重要成果。借助这一特点,该文将长短时记忆网络模型(long-short term memory,LSTM)及其变型——门控循环单元(gated recurrent unit,GRU)也应用于标题的语义理解与领域分类,实验验证其性能可达81%的F1值。此外,该文对目前前沿的神经网络分类模型进行综合分析,尝试寻找各类模型在DHC任务上共有的优势和劣势。通过对比"全类型多元分类"与"单类型二元分类",发现在领域性特征较弱和领域歧义性较强的样本上,现有方法难以取得更为理想的结果(F1值<81%)。借助上述分析,该文旨在推动DHC研究在标题语言特性上投入更为充分的关注。
-
关键词
领域标题分类
卷积神经网络
循环神经网络
-
Keywords
domain-oriented headline classification
convolutional neural network
recurrent neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-