摘要
针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通过基于TF IDF特征权重的向量空间模型进行文本表示;最后采用机器学习算法中的极限学习机对图书语料进行学习和测试。实验结果表明,相比朴素贝叶斯分类、K最近邻策略分类和支持向量机分类,基于极限学习机的分类方法可以有效实现图书自动分类过程,并具有较高的准确率和分类效果。
An automatic book information classification based on extreme learning machine is proposed in this paper for automatic classification of Chinese bibliography in the field of digital library. The book information is preprocessed to form the feature item set by using the word segmentation method based on statistics. The information gain(IG) is used to realize feature selection to reduce the number of feature items. The text representation is performed by a vector space model based on the TF IDF feature weight. The extreme learning machine in the machine learning algorithm is used to learn and test the book corpus. The experimental results show that the classification method based on extreme learning machine can more effectively realize the automatic classification of books, and has higher accuracy and classification effect in comparison with naive Bayesian classification,Knearest neighbor strategy classification and support vector machine classification.
作者
潘辉
PAN Hui(South China University of Technology,Guangzhou 510641,China)
出处
《现代电子技术》
北大核心
2019年第17期183-186,共4页
Modern Electronics Technique
基金
2015年度广东省图书馆科研课题:基于领域本体的数字图书馆读者兴趣大数据挖掘与建模研究(GDTK1527)
2015年度广东省图书馆科研课题:社交网络服务在高校图书馆阅读推广中的应用研究(GDTK1532)
2017年华南理工大学中央高校基本科研业务费项目:基于ESI的学科分析模型构建及应用研究(Z2TS/C2170520)
2018年华南理工大学中央高校基本科研业务费项目:智慧图书馆资源聚合与服务推荐研究(Z2TS/D2181380)~~