-
题名面向互联网新闻的在线话题检测算法
被引量:8
- 1
-
-
作者
程葳
龙志祎
-
机构
北京城市学院人工智能研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第18期28-30,共3页
-
基金
北京市教育委员会科技发展计划面上基金资助项目(KM200600006002)
-
文摘
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。
-
关键词
在线话题检测
话题检测与跟踪
文本聚类
-
Keywords
Online Topic Detection(ODT)
Topic Detection and Tracking(TDT)
text clustering
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于组合相似度动态聚类和词熵的网络话题在线检测
- 2
-
-
作者
郭慧
王亚楠
王欣艳
魏艺泽
王养廷
-
机构
华北科技学院
河北科技大学经济管理学院
应急管理部大数据中心
-
出处
《情报杂志》
CSSCI
北大核心
2024年第5期159-166,共8页
-
基金
国家社会科学基金项目“重大疫情下社区健康边际及防护体系构建研究”(编号:21BSH072)研究成果。
-
文摘
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。
-
关键词
网络话题
在线话题检测
增量式聚类
主题词提取
组合相似度
动态聚类算法
词熵
-
Keywords
online topics
online topic detection
incremental clustering
topic word extraction
combination similarity
dynamic clustering algorithm
word entropy
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-