期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种基于云计算的网络流量分析系统结构 被引量:7
1
作者 孙韩林 《西安邮电大学学报》 2013年第4期75-79,共5页
基于云计算平台Hadoop提出一种新的分布式网络流量分析系统结构。在关键监测点附近部署小型本地云,采集的流量发送到本地云进行存储和分析,本地云规模可根据监测点流量大小按需配置;分析结果传输到协调节点,存入关系数据库供查询;协调... 基于云计算平台Hadoop提出一种新的分布式网络流量分析系统结构。在关键监测点附近部署小型本地云,采集的流量发送到本地云进行存储和分析,本地云规模可根据监测点流量大小按需配置;分析结果传输到协调节点,存入关系数据库供查询;协调节点调度分析任务在各本地云上运行。新结构具有统一的并行处理编程框架,且能减小大量数据传输对被监测网络性能的影响。在小型云平台上用实际流量数据验证用Map-Reduce程序对分组进行统计分析的性能,相对于顺序程序处理,执行速度可提高90%以上,表明用小型云实现快速海量流量分析的方案是有效的。 展开更多
关键词 网络流量分析 网络监控 云计算 HADOOP平台 map-reduce框架
下载PDF
云环境下基于超球面投影分区的Skyline计算 被引量:5
2
作者 雷婷 王涛 +1 位作者 曲武 韩晓光 《计算机科学》 CSCD 北大核心 2013年第6期164-171,共8页
目前,Skyline查询在集中式数据库、分布式数据库、数据流及分类属性数据集上的良好应用前景,使其成为当前数据库界研究的重点和热点之一,受到了学术界和工业界的广泛关注,它作为一种重要的数据挖掘技术广泛应用于多目标优化、城市导航... 目前,Skyline查询在集中式数据库、分布式数据库、数据流及分类属性数据集上的良好应用前景,使其成为当前数据库界研究的重点和热点之一,受到了学术界和工业界的广泛关注,它作为一种重要的数据挖掘技术广泛应用于多目标优化、城市导航系统、用户偏好查询及约束决策、智能防御系统以及地理信息系统等领域。随着人类可以采集和利用的数据信息的急剧增长,如何处理大数据的Skyline查询成为急需解决的问题。针对云计算环境,在Map-Reduce框架下设计并实现了基于超球面投影分区的分布式Skyline算法HSPD-Skyline,其主要思想是通过对高维数据点的超平面投影映射,即由空间坐标转换为超球面坐标,可以有效提高分区内数据点的平均减枝力度,降低Skyline的计算代价。同时,使用基于空间分区树的启发式策略HA-SPT,进一步提高了HSPD-Skyline算法的处理效率。通过详细的理论分析和实验验证表明,在不考虑数据分布和进一步优化算法的条件下,提出的HSPD-Skyline算法的总体性能(可扩展性、Skyline查询时间等)优于同类算法。 展开更多
关键词 分布式Skyline计算 map-reduce框架 分区策略 HSPD-Skyline算法
下载PDF
基于Hadoop平台的文本相似度检测系统的研究 被引量:5
3
作者 王小林 肖慧 邰伟鹏 《计算机技术与发展》 2015年第8期90-93,共4页
在现有的文本相似度计算方法中,获取关键词权值的TFIDF算法没有完全考虑到关键词在文本中的位置和其在文本库中的离散度对权值的影响,且当处理的文本库中信息量过大时,运行效率较低。针对上述问题,文中提出一种基于语义的信息熵与信息... 在现有的文本相似度计算方法中,获取关键词权值的TFIDF算法没有完全考虑到关键词在文本中的位置和其在文本库中的离散度对权值的影响,且当处理的文本库中信息量过大时,运行效率较低。针对上述问题,文中提出一种基于语义的信息熵与信息增益的TFIDF算法(TFIDFWGE)。该算法通过对给定的关键词添加位置权重与计算熵值和信息增益,得到关键词的最终权值,并利用Hadoop平台的Map/Reduce框架来实现TFIDFWGE算法和向量空间模型(VSM)的文本相似度计算过程。通过对两组真实的数据集进行的实验结果表明,与现有的TFIDF算法相比,TFIDFWGE算法的查全率和查准率更高,且在Hadoop平台上实现的文本相似度检测系统对信息量大的文本库处理效率更加高效。 展开更多
关键词 文本相似度 语义 map/reduce框架 TFIDF算法 TFIDFWGE算法
下载PDF
云环境下基于LSH的分布式数据流聚类算法 被引量:3
4
作者 曲武 王莉军 韩晓光 《计算机科学》 CSCD 北大核心 2014年第11期195-202,共8页
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流... 近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流聚类分析是当前数据流挖掘研究的热点问题。单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性。为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式。通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势。 展开更多
关键词 数据流聚类 位置敏感哈希方法 map-reduce框架 DLCStream算法
下载PDF
大数据处理平台Spark基础实践研究 被引量:1
5
作者 邱丽娟 《无线互联科技》 2017年第1期44-45,共2页
Spark是主流的大数据并行计算框架。文章将通过几段Scala脚本,演示在Spark环境下通过Map-Reduce框架处理大数据。
关键词 大数据 SPARK map.reduce框架
下载PDF
云环境下基于MKd-Tree的大规模图数据索引技术
6
作者 雷婷 《电讯技术》 北大核心 2013年第7期909-916,共8页
由于高维属性和海量数据所带来的影响,数据管理需要相当高的计算负载,传统的集中索引技术已经变得不切实际。为满足数据的快速增长、海量和高维特性的要求,实现了一个高层次的分布式树形索引结构框架MRC-Tree。基于MRC-Tree框架基础上,... 由于高维属性和海量数据所带来的影响,数据管理需要相当高的计算负载,传统的集中索引技术已经变得不切实际。为满足数据的快速增长、海量和高维特性的要求,实现了一个高层次的分布式树形索引结构框架MRC-Tree。基于MRC-Tree框架基础上,提出了两种MKd-Tree索引结构构建方法,即OMKd-Tree和MMKd-Tree。理论分析和实验结果表明,基于MRC-Tree框架的MKd-Tree索引结构构建方法具有良好的可扩展性和较高的检索效率。 展开更多
关键词 高维数据库 图数据 索引结构 分布式树形索引结构框架 mapreduce框架 MKd-Tree
下载PDF
云环境下大规模图像索引技术
7
作者 雷婷 曲武 +1 位作者 王涛 韩晓光 《计算机工程与设计》 CSCD 北大核心 2013年第8期2788-2795,共8页
为满足海量高维数据快速计算和检索的需求,基于一个高层次的分布式树形索引结构抽象框架MRC-Tree,以及不同的KD-Tree建树方式,提出两种基于Map-Reduce机制的分布式KD-Tree索引结构构建方法,分别为MKDTM方法和OKDTM方法。通过并行对数据... 为满足海量高维数据快速计算和检索的需求,基于一个高层次的分布式树形索引结构抽象框架MRC-Tree,以及不同的KD-Tree建树方式,提出两种基于Map-Reduce机制的分布式KD-Tree索引结构构建方法,分别为MKDTM方法和OKDTM方法。通过并行对数据进行切分和建树,多个节点并发检索,可以有效地提高检索性能。理论分析和实验结果表明,基于MRC-Tree框架的分布式KD-Tree索引结构具有良好的可扩展性和较高的检索效率,且OKDTM索引结构比MKDTM具有更优良的性能。 展开更多
关键词 高维索引技术 k维树 分布式树形索引结构 map-reduce框架 分布式k维树
下载PDF
一种基于云计算的并行流生成方法
8
作者 孙韩林 《计算机工程》 CAS CSCD 2013年第10期10-13,共4页
在高速网络中,网络设备的分组转发性能在打开流采集功能后会受其影响。为此,提出一种在网络设备外基于云计算平台的并行流生成方法。在需要监测的网络设备附近部署小型云,把分组流量复制到云中,采用云的Map-Reduce并行处理框架快速地从... 在高速网络中,网络设备的分组转发性能在打开流采集功能后会受其影响。为此,提出一种在网络设备外基于云计算平台的并行流生成方法。在需要监测的网络设备附近部署小型云,把分组流量复制到云中,采用云的Map-Reduce并行处理框架快速地从海量分组数据中生成流记录。设计基于Map-Reduce框架的并行流生成算法,通过配置合适数量的云节点,可分析任意大小的网络流量。用实际网络分组数据对并行流生成方法的性能进行验证,实验结果表明,在由3台、5台或7台节点构成的小型云平台上,从超过40 GB的文本分组数据中共提取了15 160 052条流,与顺序处理相比,耗费时间至少可减小85%、90%和94%。 展开更多
关键词 网络流量分析 并行处理 mapreduce框架 HADOOP平台
下载PDF
基于云计算的分布式搜索引擎研究
9
作者 谢智勇 《机电信息》 2016年第30期109-109,111,共2页
首先阐述了云计算的概念及其优点,并着重介绍了云计算中的关键技术——分布式计算;然后分析了搜索引擎的工作原理,包括数据抓取和存储、数据整理和索引的构建、检索服务的提供;接着详细描述了分布式搜索引擎里两项最重要的技术——数据... 首先阐述了云计算的概念及其优点,并着重介绍了云计算中的关键技术——分布式计算;然后分析了搜索引擎的工作原理,包括数据抓取和存储、数据整理和索引的构建、检索服务的提供;接着详细描述了分布式搜索引擎里两项最重要的技术——数据的分布式存储和搜索的分布式计算。 展开更多
关键词 云计算 分布式 搜索引擎 map/reduce框架
下载PDF
一种稳定的并行分布式频繁集挖掘算法及其应用
10
作者 秘中凯 姜晓红 雷蕾 《计算机应用与软件》 CSCD 2011年第3期83-85,124,共4页
为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM。该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁... 为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM。该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁棒性和负载均衡能力。采用最大规模为512万条记录的中医药方剂数据进行算法性能分析实验,其结果表明,该算法在分布式集群环境中表现稳定,而且随着集群规模的增加其加速比接近线性。以P-FIM算法为基础设计实现的中医药数据相关性分析方案,可有效地从大规模临床数据中获得全面、可靠的病、症、药间相关性的信息。 展开更多
关键词 数据挖掘 频繁集挖掘 map/reduce并行框架 医药数据分析
下载PDF
基于Map-Reduce的自适应双语短语挖掘系统
11
作者 李彬 杨世泉 陈文杰 《昆明学院学报》 2013年第3期83-87,共5页
对于跨语言信息检索,统计翻译等应用,双语短语都是极其重要的资源.提出了基于自适应模式的双语短语挖掘算法,该算法可以自动的学习当前Web页面的翻译模式,然后利用学习到的模式抽取当前页面中的双语短语.同时,将自适应双语短语挖掘算法... 对于跨语言信息检索,统计翻译等应用,双语短语都是极其重要的资源.提出了基于自适应模式的双语短语挖掘算法,该算法可以自动的学习当前Web页面的翻译模式,然后利用学习到的模式抽取当前页面中的双语短语.同时,将自适应双语短语挖掘算法与Map-Reduce并行编程模型融合起来,大大提高了系统的运行效率,并且通过实验验证了该方法的有效性. 展开更多
关键词 自适应模式 双语短语 map-reduce并行计算框架 分布式计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部