期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
主题不平衡新闻文本数据集的主题识别方法研究 被引量:5
1
作者 王红斌 王健雄 +1 位作者 张亚飞 杨恒 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第3期109-120,共12页
【目的】针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不... 【目的】针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不同的特征检测方法来识别文本的主题。【结果】在10000篇新闻文本规模的数据集上实验验证,该方法相比传统的LDA主题识别方法,查全率提高了0.2121、查准率提高了0.0407,F1值提高了0.1520。【局限】由于新闻文本中新词较多,实验中使用的分词工具的分词准确率会降低,新闻文本主题识别的效果因对分词准确率的依赖而受到影响。【结论】实验证明,所提方法能够在一定程度上解决LDA对新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题。 展开更多
关键词 主题不平衡 新闻文本数据集 主题识别 潜在狄利克雷分布
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部