-
题名基于文本主题相似性的专题文献检索结果的聚类分析
被引量:4
- 1
-
-
作者
王秀艳
崔雷
-
机构
中国医科大学信息管理与信息系统(医学)系
-
出处
《情报学报》
CSSCI
北大核心
2011年第5期456-463,共8页
-
文摘
在向文献数据库发送检索提问后,用户检索到的往往是数量众多且线性排列的文献记录,如何进一步分类这些文献记录以方便用户使用是信息检索领域的重要课题之一。本文以一个比较狭小的主题(脊髓损伤)为文献查询提问,探索利用原数据库中提供的论文主题相似性信息对检索到的文献记录进行聚类的方法,并对每个类别赋予类别标签。本文①利用生物医学权威文献数据库Medline,分别检索PubMed中有关脊髓损伤的部分文献(源文献),实际操作中我们抽取近两年发表的有关脊髓损伤的1906篇文献中前50篇;②利用PubMed中的"相关文献"功能分别检索出源文献的相关文献(共5108篇),筛选出频次较高的相关文献(出现频次大于或等于5次,共31篇);③形成源文献和相关文献的关联矩阵,根据该矩阵对来源文献进行聚类分析;④分别采用人工分析和主题词的向量空间模型算法提取各类的文献内容或类标签,初步评价分类结果的正确性。经过基于相似性的聚类分析,可以将脊髓损伤的源文献分为3个大类,对比人工分析和主题词向量空间模型方法对来源文献的内容提取,二者基本相符。就本文研究涉及的主题而言,利用文献数据库中提供的论文相关性信息对检索结果进行再次分类的方法是可行的。
-
关键词
相关文献
文本分类
聚类分析
脊髓损伤
向量空间模型
特征项频率
文档频率
-
Keywords
text categorization
related articles
cluster analysis
spinal cord injuries
vector space model
term frequency
document frequency
-
分类号
G256
[文化科学—图书馆学]
-
-
题名使用进化神经网络进行文本自动分类
被引量:1
- 2
-
-
作者
耿俊成
牛霜霞
张才俊
-
机构
河南电力试验研究院智能电网研究所
安阳供电公司科技信息部
-
出处
《计算机与现代化》
2011年第11期59-63,共5页
-
文摘
人工神经网络是一种有效的文本分类技术,但网络本身的不确定性使得很难找到合适的网络。本文提出粒子群优化算法优化神经网络,使得该网络在进化过程中自适应地调节其连接权重和网络结构。首先把文本集合表示为向量空间;然后使用信息增益算法选择特征项,使用特征项频率-倒排文档频率计算特征项权值;最后使用进化神经网络对中文文本进行自动分类。实验结果表明,与原BP神经网络相比,进化BP神经网络的分类效果更好。
-
关键词
文本分类
信息增益
特征项频率-倒排文档频率
神经网络
粒子群优化算法
-
Keywords
text categorization
information gain
term frequency-inverse document frequency
neural network
particle swarm optimization algorithm
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-