-
题名面向新闻文档的子话题划分方法研究
被引量:1
- 1
-
-
作者
苏婧琼
刘建霞
谢珺
郝洁
任密蜂
-
机构
太原理工大学信息工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第8期1850-1855,共6页
-
基金
山西省回国留学人员科研项目(2015-045
2013-033)资助
+1 种基金
山西省留学回国人员科技活动择优项目(2013年度)资助
山西省自然科学基金项目(2014011018-2)资助
-
文摘
针对新闻话题中存在的难以区分多个子话题现象,在全覆盖粒计算模型的基础上,提出一种基于LDA和Derived Partition的子话题划分方法.首先利用LDA主题模型对文档集进行建模,提取隐含主题,对产生的θ矩阵设定合适的阈值,使其转换为全覆盖的形式;其次利用全覆盖粒约简的方法,删除冗余覆盖元,并提出诱导划分算法;最后通过诱导划分算法对覆盖元进行对称差运算和交运算,寻找诱导等价类,实现子话题划分.通过在新闻语料库上与三种baseline方法以及single-pass的对比实验,验证了该方法的有效性.实验结果表明,本文所提方法能有效地降低新闻子话题划分的误报率和错误识别代价.
-
关键词
主题模型
全覆盖粒约简
诱导划分
子话题划分
-
Keywords
latent dirichlet allocation
full covering granular reduction
derived partition
subtopic division
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-