SVM和K-means结合的文本分类方法研究被引量：5

Research on Text Classification Method of SVM and K-means

下载PDF

导出

摘要有监督的分类方法是文本分类中常用的方法,它需要采用人工标识的样本进行训练,对样本的人工标识是一个比较繁锁的过程。无监督的分类方法没有这一过程,但其分类的效果往往不太好。针对两者各自的优缺点,利用一种基于SVM和K-means相结合的文本分类方法,首先用K-means方法进行文本聚类,然后选取每类中距离聚类中心较近的一些文本作为该类的训练样本训练SVM分类器,最后用训练好的SVM对文本进行分类。此方法避免了无监督方法分类效果不好的缺点,同时也省去了SVM方法中对样本进行人工标识的繁锁过程。基于灾害文本的实验结果也表明了这种新方法的可行性。 Supervised classification is commonly used in the text classification, but it needs manual identified samples for training, which made the process relatively cumbersome. Unsupervised classification does not in the process, hut the classification result often not good enough. According to the advantages and disadvantages of each method, uses a text classification method based on the combination of SVM and K - means. Using K - means cluster text first, and then chose some samples which are close to each cluster center as study samples to training SVM classifier. Finally, classify texts with the SVM classifier. This method avoids the shortocoming of unsupervised classification, and eliminates the cumhersome process of manual identifying samples of SVM. The experimental result based on disaster text also demonstrates the feasibility of this new approach.

作者晋幼丽周明全王学松

机构地区北京师范大学信息科学学院北京师范大学教育技术学院

出处《计算机技术与发展》 2009年第11期35-37,44,共4页 Computer Technology and Development

基金国家科技支撑计划项目(2006BAD20B02)

关键词文本分类 K—means 支持向量机 text classification K - means support vector machines

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1朱树先,张仁杰.支持向量机核函数选择的研究[J].科学技术与工程,2008,8(16):4513-4517. 被引量：54
2熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
3索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
4饶文碧,柯慧燕.Web文本分类技术研究及其实现[J].计算机技术与发展,2006,16(3):116-118. 被引量：5
5郑小霞,钱锋.高斯核支持向量机分类和模型参数选择研究[J].计算机工程与应用,2006,42(1):77-79. 被引量：39
6田盛丰.基于核函数的学习算法[J].北方交通大学学报,2003,27(2):1-8. 被引量：37
7Inderjit S. Dhillon,Dharmendra S. Modha. Concept Decompositions for Large Sparse Text Data Using Clustering[J] 2001,Machine Learning(1-2):143～175 被引量：1

二级参考文献62

1何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
2宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
3张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
5张文进.文本信息检索中的概率模型[J].情报杂志,2005,24(3):107-110. 被引量：7
6刘向东,骆斌,陈兆乾.支持向量机最优模型选择的研究[J].计算机研究与发展,2005,42(4):576-581. 被引量：49
7张芬,陶亮,孙艳.基于混合核函数的SVM及其应用[J].计算机技术与发展,2006,16(2):176-178. 被引量：23
8刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
9张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
10Müller K-R Smola A Rtsch G et al In: Schlkopf B Burges C J C Smola A J. Eds.Predicting time Series with Support vector machines[A].In: Schlkopf B， Burges C J C， Smola A J. Eds.Advances in Kernel Methods-Support Vector Learning[C].MA:MIT Press,1999.243-254. 被引量：1

共引文献191

1吴崧霖,吴能简,何志明,陈伟文,黄淑仪,曾杜娟.支持向量机在深圳市坪山区成蚊密度预测中的应用[J].医学动物防制,2020,0(3):208-211. 被引量：1
2吴宗亮,窦衡.一种广义最小二乘支持向量机算法及其应用[J].计算机应用,2009,29(3):877-879. 被引量：5
3孟继成,杨万麟.基于核函数的雷达一维距离像目标识别[J].电子与信息学报,2005,27(3):462-466. 被引量：9
4辛宪会,郭建星,解志刚,邱振戈.一种基于支持向量机的纹理图像分类法[J].海洋测绘,2005,25(2):41-43. 被引量：8
5摩尼珠[J].现代交际（社交商圈）,2005(5):58-58.
6朱根标,张凤鸣,董群立.基于核函数和相似度的动态聚类算法[J].微电子学与计算机,2006,23(3):178-179. 被引量：8
7张友静,黄浩,马雪梅.基于KPCA和SAM的城市植被遥感分类研究[J].地理与地理信息科学,2006,22(3):35-38. 被引量：13
8唐万梅.基于灰色支持向量机的新型预测模型[J].系统工程学报,2006,21(4):410-413. 被引量：36
9尚燕,练秋生.应用Gabor小波和支持向量机的纹理分类[J].电视技术,2006,30(9):14-16. 被引量：1
10王思臣,倪友平,辛玉林,陈曾平.核Fisher判别方法在低分辨雷达目标识别中的应用[J].现代电子技术,2007,30(3):8-10. 被引量：2

同被引文献44

1马海英.基于混合系统的信用风险评估[J].清华大学学报（自然科学版）,2006,46(z1):1099-1102. 被引量：3
2许增福,梁静国,田晓宇.基于加权模糊推理网络的文本自动分类方法[J].哈尔滨工程大学学报,2004,25(4):504-508. 被引量：1
3范英,张忠能,凌君逸.聚类方法在通信行业客户细分中的应用[J].计算机工程,2004,30(B12):440-441. 被引量：9
4刘蓉,陈晓红.基于数据挖掘的移动通信客户消费行为分析[J].计算机应用与软件,2006,23(2):60-62. 被引量：19
5刘英姿,吴昊.客户细分方法研究综述[J].管理工程学报,2006,20(1):53-57. 被引量：86
6邵华平,覃征,游诚曦.SVM算法及其应用研究[J].兰州交通大学学报,2006,25(1):104-106. 被引量：13
7王烨青,杨永跃.机器视觉在流水线条形码识别中的应用[J].电子测量与仪器学报,2006,20(6):102-105. 被引量：19
8肖文兵,费奇,万虎.基于支持向量机的信用评估模型及风险评价[J].华中科技大学学报（自然科学版）,2007,35(5):23-26. 被引量：20
9Cross V,Yi Wenting.Formal concept analysis for ontologies and their annotation files[J].Fuzzy Systems,2008(3):2014-2021. 被引量：1
10Leacock C,Chodorow M,Miller G.Using corpus statistics and WordNet relations for sense identification[J].Computational Linguistics,1998,24(1):147-166. 被引量：1

引证文献5

1侯亚南,黄映辉.用于形式背景提取的中文文本表示[J].计算机技术与发展,2010,20(9):36-39.
2何云,李辉,姚能坚,赵榕生.改进K-means算法实现移动通信行为特征分析[J].计算机技术与发展,2011,21(6):63-65. 被引量：1
3王煜,刘敏.基于支持向量机的规则零件检测技术研究[J].电子测量技术,2012,35(1):80-84. 被引量：7
4刘夫成,高尚.基于聚类和支持向量机的个人信誉评估方法[J].信息技术,2013,37(2):42-44. 被引量：1
5崔莹.深度学习在文本表示及分类中的应用研究[J].电脑知识与技术,2019,15(6):174-177. 被引量：6

二级引证文献15

1戴映炘,朱磊,邱桢,罗露瑾,曼苏乐,张秀彬.图像网格法及应用[J].电子测量技术,2013,36(3):58-61. 被引量：3
2何高楼,王刚.敏感系数对微波毫米波器件性能指标影响分析[J].国外电子测量技术,2013,32(6):55-57.
3何永强,杨福彪,徐振朋,陈少华.基于改进GA的RBF核函数参数优化模型[J].电子测量技术,2013,36(9):45-48. 被引量：2
4闫蓓,王晓晶,蒋兆国.基于支持向量机回归模型的视线定位算法研究[J].仪器仪表学报,2014,35(10):2299-2305. 被引量：9
5费贤举.基于改进K均值聚类的机械故障智能检测[J].计算机测量与控制,2015,23(4):1121-1123. 被引量：2
6尹红敏,葛广英.基于快速PCA—SVM的人脸识别研究[J].科教导刊（电子版）,2016,0(18):147-147.
7李永战,谢磊,夏政,高宝成.基于SVM的风电机组偏航系统声学检测方法[J].电子测量技术,2019,42(17):169-173. 被引量：5
8陈菲琪,王珂.基于NLP技术的企业名称智能分类系统设计[J].信息与电脑,2020,32(2):46-48. 被引量：3
9齐永锋,陈静,火元莲,李发勇.基于多尺度卷积神经网络的高光谱图像分类算法[J].红外技术,2020,42(9):855-862. 被引量：12
10刘高军,王小宾.基于CNN+LSTMAttention的营销新闻文本分类[J].计算机技术与发展,2020,30(11):59-63. 被引量：1

1周利萍,杨家红,黄务兰.基于SVM的增量学习算法及其在网页分类中的应用[J].计算机时代,2004(11):17-19. 被引量：1
2薛笑荣,章慧蓉,赵荣椿.一种有效的SAR图像目标识别方法[J].北京工业大学学报,2007,33(12):1262-1266. 被引量：2
3李聪.基于FPGA的增强现实人工标识识别[J].电子科技,2014,27(5):119-122. 被引量：9
4李海龙,刘玉庆,朱秀庆.航天员辅助操作系统中人工标识的选取[J].计算机系统应用,2013,22(5):184-187. 被引量：1
5赵晓霞.基于支持向量机的车牌定位方法[J].现代电子技术,2008,31(9):184-186. 被引量：2
6夏德芳,刘传才.基于人工标识的移动增强现实配准方法[J].现代电子技术,2015,38(8):26-30. 被引量：12
7焦伟超,郑伯川,袁秀芳.一种基于SVM的真伪车牌分类算法[J].西华师范大学学报（自然科学版）,2016,37(2):233-236. 被引量：1
8居红云,张俊本,李朝峰,王正友.基于K-means与SVM结合的遥感图像全自动分类方法[J].计算机应用研究,2007,24(11):318-320. 被引量：23
9赵英男,杨静宇.基于Gabor滤波器和SVM分类器的红外车辆检测[J].计算机工程,2005,31(10):191-192. 被引量：7
10韩晓晖,马军,邵海敏,薛冉.一种基于LDA的Web论坛低质量回帖检测方法[J].计算机研究与发展,2012,49(9):1937-1946. 被引量：4

计算机技术与发展

2009年第11期

浏览历史

内容加载中请稍等...

SVM和K-means结合的文本分类方法研究被引量：5

参考文献7

二级参考文献62

共引文献191

同被引文献44

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

SVM和K-means结合的文本分类方法研究 被引量：5

参考文献7

二级参考文献62

共引文献191

同被引文献44

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

SVM和K-means结合的文本分类方法研究被引量：5