-
题名基于条件随机场的敏感话题检测模型研究
被引量:7
- 1
-
-
作者
翟东海
崔静静
聂洪玉
于磊
杜佳
-
机构
西南交通大学信息科学与技术学院
西藏大学工学院
-
出处
《计算机工程》
CAS
CSCD
2014年第8期158-162,167,共6页
-
基金
国家语委"十二五"科研规划基金资助项目(YB125-49)
教育部科学技术研究基金资助重点项目(212167)
+1 种基金
中央高校基本科研业务费专项资金科技创新基金资助项目(SWJTU12CX096)
国家级大学生创新创业训练计划基金资助项目(201210694017)
-
文摘
敏感话题通常包含态度倾向性,且具有一定的先验知识,如何有效利用这些先验知识来判断网络文本的敏感性是敏感话题检测的研究难点和热点。在充分利用条件随机场强大知识拟合能力的基础上,提出一种基于条件随机场的敏感话题检测模型。抽取特征词项,并结合敏感词汇库,将待检测文档和敏感话题类别分别表示为条件随机场中的观察序列和状态序列,再利用敏感话题类别中的先验知识来构造特征函数,从而使观察序列和状态序列建立联系。将待测文档中的特征项根据概率标注为敏感话题类别中的词项,在此过程中采用Viterbi算法对观察序列的可信度进行估计,并依据估计所得的概率值对待测文档中的特征项进行敏感性标注。实例验证结果表明,该算法能够得到较好的准确率、召回率和F度量值。
-
关键词
敏感话题检测
条件随机场
特征函数
特征词项
VITERBI算法
敏感性标注
-
Keywords
sensitive topic detection
Conditional Random Fields (CRFs)
feature function
feature item
Viterbi algorithm
sensitivity label
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名敏感话题发现中的增量型文本聚类模型
被引量:6
- 2
-
-
作者
张越今
丁丁
-
机构
北京市互联网信息办公室
武汉大学计算机学院
-
出处
《信息网络安全》
2015年第9期170-174,共5页
-
文摘
面对网络上更新快速的海量新闻,如何快速、有效地从中自动发现敏感话题并进行持续跟踪是当下研究的热点。文章以网络舆情分析系统为应用背景,针对其敏感话题发现过程,通过对TDT领域应用较多的Single-pass算法进行改进,提出了一种基于相似哈希的增量型文本聚类算法。基于实际应用中抓取到的新闻文本数据,实验结果表明,文章提出的算法相比于原Single-pass算法在聚类效率方面具有明显提升。从实际应用的效果来看,该算法达到了实时话题发现的预期需求,具有较高的实用价值。
-
关键词
敏感话题发现
相似哈希
增量文本聚类
Single—pass
-
Keywords
sensitive topic detection
Simhash
incremental text clustering
Single-pass
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CRFs模型的敏感话题识别研究
被引量:4
- 3
-
-
作者
翟东海
聂洪玉
崔静静
杜佳
-
机构
西南交通大学信息科学与技术学院
西藏大学工学院
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第4期993-996,共4页
-
基金
国家语委"十二五"科研规划资助项目(YB125-49)
国家教育部科学技术研究重点资助项目(212167)
+1 种基金
中央高校基本科研业务费专项资金科技创新资助项目(SWJTU12CX096)
国家级大学生创新创业训练计划资助项目(201210694017)
-
文摘
条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。
-
关键词
条件随机场
敏感话题识别
相关性概率值
-
Keywords
conditional random field (CRFs)
sensitive topic detection
correlative probabilities
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-