-
题名基于概念簇的多主题提取算法
被引量:3
- 1
-
-
作者
马甲林
张永军
王志坚
-
机构
河海大学计算机与信息学院
淮阴工学院计算机工程学院
-
出处
《智能系统学报》
CSCD
北大核心
2015年第2期261-266,共6页
-
基金
国家自然科学青年科学基金资助项目(11201168)
-
文摘
现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K-means算法进行概念聚类时,通过"预设种子"方法对其进行改进,以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。
-
关键词
语义
稀疏
上下文背景
知识库
概念簇
多主题提取
K-MEANS
meabcc
-
Keywords
semantic
sparsity
context
knowledge base
concept clusters
multi-topic extraction
K-means
ME-ABCC
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-