基于MapReduce网页文本并行化计算的研究

Research on parallel computing of web pages based on MapReduce

下载PDF

导出

摘要为了快速在浩如烟海的网页里定位用户感兴趣的信息,提出基于Hadoop的网页文本聚类的算法,网页文本以key,value形式存储到分布式文件系统(HDFS),使用基于统计的方法进行分词操作,去噪,特征提取,构建向量空间模型,提出基于Map Reduce实现改进的k-means聚类算法。经实验验证,不同规模的数据集实现分布式计算,数据集越大,聚类效果越好。 In order to find the information what user interestingin over the multitude web pages quickly,A text clustering algor-ithm based on Hadoop is proposed.The page text is stored in the form of key,value to the distributed file system（HDFS）,using statistical method for word segmentation operation,removing the noise’Feature extraction and construction of vector space model.Improved k-means clustering algorithm based on MapReduce.Byexperimental verification,Distributed computing with differ-ent scale data sets,The greater the data set,the better the clustering effect.

作者尹铁源张瑞琴 Ying Tieyuan;Zhang Ruiqin(School of information Science and Engineering,Shenyang University of Technology,shenyang 110000,China)

机构地区沈阳工业大学信息科学与工程学院

出处《信息通信》 2018年第4期32-34,共3页 Information & Communications

关键词文本聚类 K-MEANS算法 MAPREDUCE HDFS Text clustermg k-means algorithm MapReduce HDFS

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
2詹志建,杨小平.一种基于复杂网络的短文本语义相似度计算[J].中文信息学报,2016,30(4):71-80. 被引量：14
3武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9
4程艳,苗永春.高维数据流的聚类离群点检测算法研究[J].江西师范大学学报（自然科学版）,2014,38(5):449-453. 被引量：2
5刘澎..大数据在专利信息分析中的应用研究[D].江苏科技大学,2016:

二级参考文献58

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
2朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
3王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
4张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
5谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
6许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
7柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
8张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
9史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
10初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14

共引文献239

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：4
5LIAO Yunyan,HUANG Qing,WANG Changjing,ZUO Zhengkang,LU Jiaxing.Course Intelligent Brain Model Based on Crowd Intelligence[J].Wuhan University Journal of Natural Sciences,2022,27(4):331-340.
6王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：5
7陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
8杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：3
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1

1叶敏,汤世平,牛振东.一种基于多特征因子改进的中文文本分类算法[J].中文信息学报,2017,31(4):132-137. 被引量：11
2李楠,于孟渤,贾珍珍,王一惠,李昕宸,邹淑雪.基于改进MapReduce模型的BP神经网络并行化研究[J].通信技术,2018,51(4):799-804. 被引量：2
3万德美.针对区域图书馆数字特色资源的分布式云存储研究[J].农业图书情报学刊,2018,30(4):36-40. 被引量：3
4朱昭建.文靠词装[J].校园英语,2018,0(9):217-217.
5王波,余相君.自适应布谷鸟搜索的并行K-means聚类算法[J].计算机应用研究,2018,35(3):675-679. 被引量：14
6张剑波,夏灯城,赵加奥,李谢清,崔永键,袁国斌.分布式计算环境下的栅格数据存储策略[J].国防科技大学学报,2017,39(6):51-58. 被引量：5
7汪云,周大军.基于语料库的机器翻译的现状与展望[J].大学英语教学与研究,2017,56(5):45-50. 被引量：6
8艾金勇.结合语义知识的藏文网页主题句抽取算法研究[J].图书馆理论与实践,2017,0(8):39-44. 被引量：1
9李春生,卢鹏飞,张可佳.基于语句相似度计算的智能答疑系统机理研究[J].计算机技术与发展,2018,28(4):91-94. 被引量：3
10潘腾辉,林金城,郑细烨,刘雅婷.面向数据库清洗的数据质量控制设计[J].信息技术,2017,41(10):133-136. 被引量：8

信息通信

2018年第4期

浏览历史

内容加载中请稍等...

基于MapReduce网页文本并行化计算的研究

参考文献5

二级参考文献58

共引文献239

相关作者

相关机构

相关主题

浏览历史