-
题名网络舆情监控中新词识别问题的研究
被引量:8
- 1
-
-
作者
唐籍涛
李飞
郭昌松
-
机构
成都信息工程学院计算机系
成都信息工程学院网络工程系
-
出处
《计算机技术与发展》
2012年第1期119-121,125,共4页
-
基金
四川省教育科研项目(川教函【2011】210号)
-
文摘
在网络舆情监控中,由于事件的突发性和网络词汇的泛滥,各种各样的新兴词汇以及新的字符串大量涌现,而有穷的分词词典对新词的识别基本上无能为力,这些无法识别的字符串将被现有的分词系统分为零散的碎片,这将极大地影响热点词和主题词提取的准确性,成为网络舆情监控系统性能提升的瓶颈。文中分析了当前主要的几种分词技术的优缺点,利用网络舆情监控中未被词典收录的主题词的局部高频这一特性,通过计算异常分词与周围分词之间的粘结度,从而识别出未被词典收录的主题词。实验结果表明:所提出的分词算法能识别出未被词典收录的主题词,相比传统的分词算法,更加适合于网络舆情监控。
-
关键词
网络舆情监控
新词识别
分词词典
-
Keywords
network monitoring public opinion
new word pattem recognization
dictionary
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-