期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
主题不平衡新闻文本数据集的主题识别方法研究
被引量:
5
1
作者
王红斌
王健雄
+1 位作者
张亚飞
杨恒
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2021年第3期109-120,共12页
【目的】针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不...
【目的】针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不同的特征检测方法来识别文本的主题。【结果】在10000篇新闻文本规模的数据集上实验验证,该方法相比传统的LDA主题识别方法,查全率提高了0.2121、查准率提高了0.0407,F1值提高了0.1520。【局限】由于新闻文本中新词较多,实验中使用的分词工具的分词准确率会降低,新闻文本主题识别的效果因对分词准确率的依赖而受到影响。【结论】实验证明,所提方法能够在一定程度上解决LDA对新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题。
展开更多
关键词
主题不平衡
新闻文本数据集
主题识别
潜在狄利克雷分布
原文传递
题名
主题不平衡新闻文本数据集的主题识别方法研究
被引量:
5
1
作者
王红斌
王健雄
张亚飞
杨恒
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
云南唯恒基业科技有限公司
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2021年第3期109-120,共12页
基金
国家自然科学基金项目(项目编号:61966020,61762056)
云南省重大科技专项项目(项目编号:2018ZF019)的研究成果之一。
文摘
【目的】针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不同的特征检测方法来识别文本的主题。【结果】在10000篇新闻文本规模的数据集上实验验证,该方法相比传统的LDA主题识别方法,查全率提高了0.2121、查准率提高了0.0407,F1值提高了0.1520。【局限】由于新闻文本中新词较多,实验中使用的分词工具的分词准确率会降低,新闻文本主题识别的效果因对分词准确率的依赖而受到影响。【结论】实验证明,所提方法能够在一定程度上解决LDA对新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题。
关键词
主题不平衡
新闻文本数据集
主题识别
潜在狄利克雷分布
Keywords
Topic Imbalanced
News Text Data Set
Topic Recognition
Latent Dirichlet Allocation(LDA)
分类号
TP393 [自动化与计算机技术—计算机应用技术]
G250 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
主题不平衡新闻文本数据集的主题识别方法研究
王红斌
王健雄
张亚飞
杨恒
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2021
5
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部