基于聚类中心文本串联的并行MKNN文本分类被引量：1

PMKNN:Parallel MKNN Text Classification Based on Clustering Center Text Series

下载PDF

导出

摘要传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行（Mapreduce for KNN,MKNN）文本分类算法。首先,基于文本聚类方式,对相似度较高的文档进行串联合并,并以合并文档取代原有独立文档进行KNN查询过程,可有效实现文本相似度指标计算量降维;其次,针对上述文本串联及KNN查询过程,构建基于Mapreduce算法的并行化KNN执行过程,实现算法计算效率的快速提升;最后,通过与同类单线程算法在文本分类精度和算法计算效率实验上对比显示,在保证足够精度前提下,所提算法分类速度可得到有效提升。 The traditional KNN query is a kind of algorithm with stability and accuracy properties, but when the sample size is too large, the computational efficiency of the algorithm is greatly affected, this paper presents a kind of parallel MKNN algorithm for text classification based on clustering center text series. Firstly, based on the text clustering method, the high degree of similarity of the document is merged in series, and the merged document is used to replace the original independent document KNN query process, which can effectively reduce the text similarity index calculation; Secondly, the parallel KNN algorithm for text series process is constructed based on the Mapreduce algorithm and the KNN algorithm, which could further improve the calculation efficiency of the algorithm; Finally, by comparing with the similar single threaded algorithm in the text classification accuracy and computational efficiency of the algorithm, the results show that the proposed algorithm can effectively improve the classification speed under the premise of sufficient accuracy.

作者董博王雪 DONG Bo;WANG Xue(School of Innovation and Entrepreneurship;Information Technology Center, Liaoning University, Shenyang 110036, China)

机构地区辽宁大学创新创业学院辽宁大学信息化中心

出处《控制工程》 CSCD 北大核心 2018年第6期1012-1018,共7页 Control Engineering of China

基金辽宁省教育厅科技项目(LYB201620) 国家档案局科技项目(2016-X-25) 辽宁省档案局科技项目(L-2016-R-6,L-2016-R-8,L-2017-X-7) 2017辽宁大学“大学生创新创业训练计划”(x201710140136 x201710140333)

关键词聚类中心文本中心 Mapreduce并行分类串联合并 Clustering center text center Mapreduce classification series mergence

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘露,彭涛,左万利,戴耀康.一种基于聚类的PU主动文本分类方法[J].软件学报,2013,24(11):2571-2583. 被引量：23
2李静,杨小帆,孙启干.面向Web信息检索的虚核文本分类算法[J].计算机工程,2012,38(10):182-184. 被引量：3
3夏华林,张仰森.基于规则与统计的Web突发事件新闻多层次分类[J].计算机应用,2012,32(2):392-394. 被引量：8
4唐云,罗俊松.基于粗糙集和BP神经网络的文本分类研究[J].计算机仿真,2011,28(6):219-222. 被引量：7

二级参考文献68

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2瞿彬彬,卢炎生.基于粗糙集的属性约简算法研究[J].华中科技大学学报（自然科学版）,2005,33(8):30-33. 被引量：33
3史晶蕊,郑玉明,韩希.人工神经网络在文本分类中的应用[J].计算机应用研究,2005,22(10):213-216. 被引量：10
4梁琰,何中市.一种基于粗糙集启发式的特征选择算法[J].计算机科学,2007,34(6):162-165. 被引量：6
5朱万富赵仕俊.基于粗糙集的神经网络结构优化设计.计算机防真,2006,(4):12-14. 被引量：7
6Z Pawalk. Rough sets: Theoretical aspects of reasoning about data [ M]. Norwell, USA: Kluwer Academic Publishers, 1991. 被引量：1
7B S Ahn, S S Cho, C Kim. The integrated methodology of rough set theory and artificial neural network for business failure prediction [J]. Expert Systems with Applications, 2000, 18 ( 2 ) : 65 - 74. 被引量：1
8A Skowron. Rough sets and Boolean reasoning [ M ]. NewYork: Physical Verlag, 2000. 被引量：1
9MARKOV A,LAST M,KANDEL A.The hybrid representation model for Web document classification[J].International Journal of Intelligent Systems,2008,23(6):654-679. 被引量：1
10沈志斌,白清源.基于加权修正的KNN文本分类算法[C]//第二十五届中国数据库学术会议论文集.重庆:计算机科学,2008:123-126. 被引量：1

共引文献37

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2董元元,陈基漓,唐小侠.基于BP_Adaboost的文本分类研究[J].网络安全技术与应用,2012(3):42-43. 被引量：3
3赵佰亭,贾晓芬,曾庆双.转台的粗糙神经网络故障诊断系统设计[J].中国惯性技术学报,2012,20(4):501-504. 被引量：2
4贾长云,梁海军.基于B-ISVM算法的物联网云存储数据伪装不良信息检测[J].计算机科学,2013,40(2):95-97. 被引量：3
5王聪,周沫.Web信息检索及应用设计优化技术研究[J].信息通信,2013,26(5):102-104.
6陈福集,杜锦锦.网络舆情监测技术研究及应用综述[J].情报探索,2014(5):16-18. 被引量：5
7王海荣.基于加权频繁子图挖掘的图模型在文本分类中的应用[J].科学技术与工程,2014,22(22):80-85. 被引量：3
8刘建粉,史永昌.基于用户兴趣分类优化的聚类模型仿真[J].微电子学与计算机,2014,31(5):171-174. 被引量：2
9翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2
10赵丽,齐兴斌,李雪梅,田涛.基于PTM潜在Dirichlet分配的少量标记样本文本分类[J].计算机应用研究,2015,32(5):1428-1432. 被引量：2

同被引文献13

1郭东亮,刘小明,郑秋生.基于卷积神经网络的互联网短文本分类方法[J].计算机与现代化,2017(4):78-81. 被引量：13
2王晓玉,李斌.基于CRFs和词典信息的中古汉语自动分词[J].数据分析与知识发现,2017,1(5):62-70. 被引量：25
3李红灵,邹建鑫.基于SVM和文本特征向量提取的SQL注入检测研究[J].信息网络安全,2017(12):40-46. 被引量：12
4武永亮,赵书良,李长镜,魏娜娣,王子晏.基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31(5):138-145. 被引量：92
5刘国锋,吴陈.基于支持向量机和稀疏表示的文本分类研究[J].计算机与数字工程,2017,45(12):2479-2481. 被引量：1
6李永忠,郑滔.基于标签的半监督HDP文本分类主题模型[J].模式识别与人工智能,2017,30(12):1138-1148. 被引量：4
7孔希希,廖述魁,程兵.基于不同分词模式的文本分类研究[J].数学的实践与认识,2018,48(1):116-123. 被引量：5
8彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J].计算机科学,2018,45(12):148-152. 被引量：13
9黄俐.“翻转式课堂”教学模式在高职英语应用文写作教学中的应用探讨[J].青年与社会（中）,2018,0(12):100-100. 被引量：1
10张春英,李春虎,付其峰.基于WV-CNN的中文文本语义相似度计算方法[J].华北理工大学学报（自然科学版）,2019,41(1):123-132. 被引量：7

引证文献1

1马艳荣,温煜坤.基于向量空间模型的对外汉语应用文写作词汇分类系统研究[J].现代电子技术,2021,44(8):137-140. 被引量：2

二级引证文献2

1栗婧,张志珍,杜璇,王真,刘紫薇,辛艳丽.基于文本分类技术的煤矿违章行为统计方法研究[J].矿业科学学报,2022,7(3):344-353. 被引量：4
2黄阿娜.基于Attention-Based LSTM算法的文本分类模型[J].自动化技术与应用,2022,41(8):169-171. 被引量：2

1许中荣.《三国演义》中诸葛亮与刘备父子“对手戏”的文化解读[J].临沂大学学报,2018,40(2):67-75.
2罗晓.陆军:杏坛有奇人,铁肩担道义[J].上海采风,2017,0(11):65-67.
3张伟鹏,李振军,李荣华,刘宇鸿,毛睿,乔少杰.基于MapReduce的图结构聚类算法[J].软件学报,2018,29(3):627-641. 被引量：4
4陈旭,陈可佳.一种改进的加权网络链接预测方法[J].计算机科学,2017,44(10):96-98. 被引量：1
5张虹,张红云,刘旭,朱振坤.基于数据集相似度的VSC-HVDC系统性能评估与诊断[J].东北电力大学学报,2017,37(5):87-95. 被引量：1
6王梓龙.高中生物实验分析的方法[J].高中生学习,2018,0(2):108-108.
7冯艳霞,陈艳楠.基于基因表达数据的双向聚类算法的综述[J].科技风,2017(26):56-56. 被引量：1
8韩平平,张祥民,丁明,张晓安.Hadoop数据存储分析技术在风电并网系统中的应用[J].电力系统及其自动化学报,2018,30(1):43-50. 被引量：13
9尹永超,徐敏,傅皇麟,孙胜男.链路预测中的一种局部结构相似度算法[J].小型微型计算机系统,2018,39(1):27-31. 被引量：2
10华倩.从小组合坐到小组合作——基于文本开展小组合作探究的阅读教学实践[J].教学月刊（中学版）（语文教学）,2018(4):43-45. 被引量：1

控制工程

2018年第6期

浏览历史

内容加载中请稍等...

基于聚类中心文本串联的并行MKNN文本分类被引量：1

参考文献4

二级参考文献68

共引文献37

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于聚类中心文本串联的并行MKNN文本分类 被引量：1

参考文献4

二级参考文献68

共引文献37

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于聚类中心文本串联的并行MKNN文本分类被引量：1