-
题名基于话题相似性改进的K-means新闻话题聚类
被引量:7
- 1
-
-
作者
陈龙
徐建
于亚男
胡建洪
-
机构
南京理工大学计算机科学与工程学院
-
出处
《计算机与数字工程》
2017年第8期1560-1565,共6页
-
基金
国家自然科学基金项目"虚拟计算环境下的软件自愈机理和方法研究"(编号:61300053)资助
-
文摘
新闻话题聚类在舆情监督、热点话题发现、突发事件实时追踪等领域有着重要的应用。基于K-means的文本聚类算法由于算法简单易实现,时空复杂度低,聚类效果优异等特点被广泛用作新闻话题聚类算法。但传统的K-means算法又具有其局限性,如对初始中心点的选择敏感和用户必须自定义分组K等,导致算法收敛于局部最优而无法得到全局最优解。针对传统的K-means算法中初始聚类中心点随机选择导致聚类结果不稳定的问题,提出了一种改进的K-means算法用于新闻话题检测,该算法基于新闻报道相似性选择初始聚类中心点,保证各新闻话题集群具有很好的区分度。并在此基础上,根据新闻话题覆盖率自动确定话题集群个数K。实验结果表明,改进后的算法能够生成稳定的,高质量的话题集群。
-
关键词
K-MEANS算法
新闻话题检测
舆情监督
文本相似性
话题覆盖率
-
Keywords
K-means algorithm
news topic detection
public opinion supervision
text similarity
topic coverage
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于语义共现图的中文微博新闻话题识别
被引量:1
- 2
-
-
作者
王路路
郑涛
程倩倩
姬东鸿
-
机构
武汉大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2014年第17期150-154,共5页
-
基金
国家自然科学基金重点项目(No.61133012)
国家自然科学基金面上项目(No.61173062)
-
文摘
提出一种在大规模微博短文本数据集中自动发现新闻话题的方法。该方法在微博数据预处理之后,综合TF-IDF、文档频率增长率和命名实体识别等几个因素抽取微博数据中的主题词。根据主题词之间的语义关系来构建主题词的语义共现图,计算出语义共现图的连通子图,把每个不连通的簇集看成一个新闻话题。在新浪微博数据集上进行实验,实现了对微博中新闻话题的识别。该方法能较好检测出当前时间的热门话题,能够在一定程度上有效地避免错误传播,实验结果验证了该方法的有效性。
-
关键词
微博
语义共现图
新闻话题识别
-
Keywords
microblog
keywords
semantic co-occurrence graph
news topic detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于音频的电视新闻节目的主题检索和聚类
- 3
-
-
作者
王磊
杜利民
王劲林
-
机构
中国科学院声学研究所
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2007年第10期2498-2503,共6页
-
文摘
随着流媒体应用的蓬勃兴起,基于媒体内容的检索和管理逐渐成为当前的学术研究热点。新闻节目作为电视节目的一种常见形式,对其主题进行自动提取检索具有重要的实际意义。该文从电视新闻节目的音频入手,综合应用了播音室语音/非播音室语音分类、说话人转换点检测以及按说话人聚类等多种技术,实现了对电视新闻节目的主题的检索和聚类。实验表明,该文中的方法能够找到新闻节目中96%以上的播音室段落,并对其进行准确归类,显示了这种方法的可行性和潜在价值。
-
关键词
新闻主题检索
音频分类
说话人检测
说话人聚类
贝叶斯信息准则
-
Keywords
news topic retrieval
Studio / non-studio classification
Speaker change detection
Speaker clustering
Bayesian Information Criterion (BIC)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于动态进化模型的事件探测和追踪算法
被引量:58
- 4
-
-
作者
贾自艳
何清
张海俊
李嘉佑
史忠植
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院研究生院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第7期1273-1280,共8页
-
基金
国家自然科学基金项目 ( 90 10 40 2 1
60 173 0 17)
北京市自然科学基金重点项目 ( 4 0 110 0 3 )
-
文摘
在大量分析网络新闻特点的基础上 ,借鉴Single Pass聚类思想 ,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法 该动态模型是基于新闻事件的生存特点提出的 ,包括 :基于时间距离的相似度计算模型、事件模板进化策略以及动态阈值设置思想 该算法可以自动对新闻资料进行组织生成新闻专题 ,进而为用户提供个性化服务
-
关键词
新闻事件
新闻专题
事件探测
事件追踪
聚类
-
Keywords
news event
news special topic
event detection
event tracking
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-