基于双重并行计算模型的TFIDF算法被引量：2

TFIDF algorithm based on dual parallel calculation model

下载PDF

导出

摘要针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document frequency)改进算法的特点,实现基于双重并行自适应计算模型的改进TFIDF算法。实验中,在不同的运行环境下对改进TFIDF算法的运行效率进行对比分析,比较不同计算节点下算法的执行效率,实验结果表明,改进TFIDF算法可实现对海量数据的高速有效处理,随着节点数量的增加,双重并行自适应计算下,算法执行效率更加高效。 Text classification algorithm achieves the low efficiency for the large data sets on the stand-alone.The double parallel cloud computing framework based on GPU and MapReduce was put forward.The improved TFIDF text categorization algorithm with double parallel adaptive computing was realized by constructing the adaptive computation process of double parallel computing and combining the advantage of improved TFIDF algorithm.In the experiment,the efficiency of improved TFIDF algorithm was compared in different operating environments.The algorithm execution efficiency was also compared with different computing nodes in the meantime.The results show that massive data can be processed in high-speed and effectively using improved TFIDF algorithm adopting double parallel adaptive computing.With the increase of the number of nodes,the algorithm execution efficiency with double parallel adaptive computing is more effective.

作者孙玉强巢碧霞 SUN Yu-qiang CHAO Bi-xia(School of Information Science and Engineering, Changzhou University, Changzhou 213164, China)

机构地区常州大学信息科学与工程学院

出处《计算机工程与设计》北大核心 2016年第11期3016-3021,共6页 Computer Engineering and Design

关键词 TFIDF改进算法 MAPREDUCE模型图形处理器并行计算自适应 improved TFIDF algorithm MapReduce model GPU parallel computing adaptive

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20. 被引量：37
2刘勇,王志亮,黄玉龙.GPU平台上大规模文本分类的研究[J].计算机工程与应用,2012,48(8):141-143. 被引量：2
3崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
4李玉林,董晶.基于Hadoop的MapReduce模型的研究与改进[J].计算机工程与设计,2012,33(8):3110-3116. 被引量：36
5周奇年,张振浩,徐登彩.用于中文文本分类的基于类别区分词的特征选择方法[J].计算机应用与软件,2013,30(3):193-195. 被引量：8
6张瑜,张德贤.一种改进的特征权重算法[J].计算机工程,2011,37(5):210-212. 被引量：20
7曾青华,袁家斌.基于MapReduce和GPU双重并行计算的云计算模型[J].计算机与数字工程,2013,41(3):333-336. 被引量：4

二级参考文献61

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
4张杨,诸昌钤,何太军.图形硬件通用计算技术的应用研究[J].计算机应用,2005,25(9):2192-2195. 被引量：6
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：388
6张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
7蒋建洪.主要分布式搜索引擎技术的研究[J].科学技术与工程,2007,7(10):2418-2424. 被引量：10
8Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C]//European Conferrence on Machine Learning (ECML).Berlin:Springer,1998:137-142. 被引量：1
9Yang Y,Liu X.A re-examination of text categorization methods[C]//The 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,1999:42-49. 被引量：1
10Yang Yi-ming,Pederson Jan O.A comparative study on feature se-lection in text categorization[C]//Proceedings of the 14th International Conference on Machine learning,Bled:Morgan Kaufmann,1997:258-267. 被引量：1

共引文献236

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2李威耀,范国梅,马俊才.基于微生物分类的信息推荐模型[J].计算机应用研究,2020,37(S01):211-212.
3陈小样.关于数据统计的课程推荐算法在远程教育平台的应用概述[J].吉林广播电视大学学报,2021(6):21-23. 被引量：1
4左学刚,邹滨,胡晨霞,李沈鑫,贺晨骋.自然资源大数据助力的城市可持续发展评估[J].测绘科学,2023,48(1):189-200. 被引量：4
5王少锋,伍少成,刘涛,邓琨,黄兵.对Hadoop的用电信息大数据计算服务应用分析[J].自动化与仪器仪表,2016(4):221-222. 被引量：6
6常青,严小文,陶晓峰,付峰.基于大数据技术的智能电表运行状态分析系统研究[J].自动化与仪器仪表,2015(12):4-6. 被引量：20
7席程成,李文化.基于精准农户信息的农业文本数据自动挖掘模型[J].热带农业科学,2011,31(9):87-89.
8许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
9陈剑,张冬梅,陈钊.林产品贸易信息推送梯级过滤技术[J].计算机工程与应用,2012,48(14):134-138. 被引量：1
10黄云,洪佳明,颜一鸣.基于图的特征词权重算法及其在文档排序中的应用[J].计算机系统应用,2012,21(6):216-218. 被引量：2

同被引文献18

1谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
2张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
3王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
5奉国和.SVM分类核函数及参数选择比较[J].计算机工程与应用,2011,47(3):123-124. 被引量：277
6杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145. 被引量：12
7范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
8翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34
9冶忠林,杨燕,贾真,尹红风.基于语义扩展的短问题分类[J].计算机应用,2015,35(3):792-796. 被引量：16
10吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：50

引证文献2

1马晓丽,刘杰,周建设,骆力明,史金生.一种中小学汉语作文表现手法分类方法[J].计算机应用与软件,2018,35(10):49-54. 被引量：1
2杨浩天,胡勇,王正.基于中文文本的同义词提取方法研究[J].现代计算机,2020,26(15):56-59. 被引量：1

二级引证文献2

1阿木古楞,德·青格乐图.蒙古语近义复合词自动抽取方法研究[J].中央民族大学学报（自然科学版）,2022,31(1):28-36.
2薛嗣媛,周建设,任福继.写作智能评测研究综述和发展前景[J].中文信息学报,2023,37(2):1-14. 被引量：4

1路金泉,徐开勇,戴乐育.基于文本过滤的贝叶斯分类算法的改进[J].计算机与现代化,2016(9):100-103. 被引量：3
2刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：125
3刘露,彭涛,左万利,戴耀康.一种基于聚类的PU主动文本分类方法[J].软件学报,2013,24(11):2571-2583. 被引量：24
4王晟,赵壁芳.云计算中MapReduce技术研究[J].通信技术,2011,44(12):159-161. 被引量：9
5方锦明.一种面向云计算的改进的Mapreduce模型[J].计算机测量与控制,2012,20(5):1417-1419. 被引量：4
6窦万春,江澄.大数据应用的技术体系及潜在问题[J].中兴通讯技术,2013,19(4):8-16. 被引量：37
7李锐,王斌.文本处理中的MapReduce技术[J].中文信息学报,2012,26(4):9-20. 被引量：18
8丁智,林治.MapReduce编程模型、方法及应用综述[J].电脑知识与技术,2014,10(10X):7060-7064. 被引量：3
9韩彦菊,许超.JPEG2000分数位平面编码器的FPGA电路实现[J].计算机工程,2005,31(15):183-185. 被引量：1
10陈朔鹰,金镇晟.基于改进的TF-IDF算法的微博话题检测[J].科技导报,2016,34(2):282-286. 被引量：16

计算机工程与设计

2016年第11期

浏览历史

内容加载中请稍等...

基于双重并行计算模型的TFIDF算法被引量：2

参考文献7

二级参考文献61

共引文献236

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于双重并行计算模型的TFIDF算法 被引量：2

参考文献7

二级参考文献61

共引文献236

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于双重并行计算模型的TFIDF算法被引量：2