期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于云计算的网络流量分析系统结构
被引量:
7
1
作者
孙韩林
《西安邮电大学学报》
2013年第4期75-79,共5页
基于云计算平台Hadoop提出一种新的分布式网络流量分析系统结构。在关键监测点附近部署小型本地云,采集的流量发送到本地云进行存储和分析,本地云规模可根据监测点流量大小按需配置;分析结果传输到协调节点,存入关系数据库供查询;协调...
基于云计算平台Hadoop提出一种新的分布式网络流量分析系统结构。在关键监测点附近部署小型本地云,采集的流量发送到本地云进行存储和分析,本地云规模可根据监测点流量大小按需配置;分析结果传输到协调节点,存入关系数据库供查询;协调节点调度分析任务在各本地云上运行。新结构具有统一的并行处理编程框架,且能减小大量数据传输对被监测网络性能的影响。在小型云平台上用实际流量数据验证用Map-Reduce程序对分组进行统计分析的性能,相对于顺序程序处理,执行速度可提高90%以上,表明用小型云实现快速海量流量分析的方案是有效的。
展开更多
关键词
网络流量分析
网络监控
云计算
HADOOP平台
map
-
reduce
框架
下载PDF
职称材料
云环境下基于超球面投影分区的Skyline计算
被引量:
5
2
作者
雷婷
王涛
+1 位作者
曲武
韩晓光
《计算机科学》
CSCD
北大核心
2013年第6期164-171,共8页
目前,Skyline查询在集中式数据库、分布式数据库、数据流及分类属性数据集上的良好应用前景,使其成为当前数据库界研究的重点和热点之一,受到了学术界和工业界的广泛关注,它作为一种重要的数据挖掘技术广泛应用于多目标优化、城市导航...
目前,Skyline查询在集中式数据库、分布式数据库、数据流及分类属性数据集上的良好应用前景,使其成为当前数据库界研究的重点和热点之一,受到了学术界和工业界的广泛关注,它作为一种重要的数据挖掘技术广泛应用于多目标优化、城市导航系统、用户偏好查询及约束决策、智能防御系统以及地理信息系统等领域。随着人类可以采集和利用的数据信息的急剧增长,如何处理大数据的Skyline查询成为急需解决的问题。针对云计算环境,在Map-Reduce框架下设计并实现了基于超球面投影分区的分布式Skyline算法HSPD-Skyline,其主要思想是通过对高维数据点的超平面投影映射,即由空间坐标转换为超球面坐标,可以有效提高分区内数据点的平均减枝力度,降低Skyline的计算代价。同时,使用基于空间分区树的启发式策略HA-SPT,进一步提高了HSPD-Skyline算法的处理效率。通过详细的理论分析和实验验证表明,在不考虑数据分布和进一步优化算法的条件下,提出的HSPD-Skyline算法的总体性能(可扩展性、Skyline查询时间等)优于同类算法。
展开更多
关键词
分布式Skyline计算
map
-
reduce
框架
分区策略
HSPD-Skyline算法
下载PDF
职称材料
基于Hadoop平台的文本相似度检测系统的研究
被引量:
5
3
作者
王小林
肖慧
邰伟鹏
《计算机技术与发展》
2015年第8期90-93,共4页
在现有的文本相似度计算方法中,获取关键词权值的TFIDF算法没有完全考虑到关键词在文本中的位置和其在文本库中的离散度对权值的影响,且当处理的文本库中信息量过大时,运行效率较低。针对上述问题,文中提出一种基于语义的信息熵与信息...
在现有的文本相似度计算方法中,获取关键词权值的TFIDF算法没有完全考虑到关键词在文本中的位置和其在文本库中的离散度对权值的影响,且当处理的文本库中信息量过大时,运行效率较低。针对上述问题,文中提出一种基于语义的信息熵与信息增益的TFIDF算法(TFIDFWGE)。该算法通过对给定的关键词添加位置权重与计算熵值和信息增益,得到关键词的最终权值,并利用Hadoop平台的Map/Reduce框架来实现TFIDFWGE算法和向量空间模型(VSM)的文本相似度计算过程。通过对两组真实的数据集进行的实验结果表明,与现有的TFIDF算法相比,TFIDFWGE算法的查全率和查准率更高,且在Hadoop平台上实现的文本相似度检测系统对信息量大的文本库处理效率更加高效。
展开更多
关键词
文本相似度
语义
map
/
reduce
框架
TFIDF算法
TFIDFWGE算法
下载PDF
职称材料
云环境下基于LSH的分布式数据流聚类算法
被引量:
3
4
作者
曲武
王莉军
韩晓光
《计算机科学》
CSCD
北大核心
2014年第11期195-202,共8页
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流...
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流聚类分析是当前数据流挖掘研究的热点问题。单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性。为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式。通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势。
展开更多
关键词
数据流聚类
位置敏感哈希方法
map
-
reduce
框架
DLCStream算法
下载PDF
职称材料
大数据处理平台Spark基础实践研究
被引量:
1
5
作者
邱丽娟
《无线互联科技》
2017年第1期44-45,共2页
Spark是主流的大数据并行计算框架。文章将通过几段Scala脚本,演示在Spark环境下通过Map-Reduce框架处理大数据。
关键词
大数据
SPARK
map
.
reduce
框架
下载PDF
职称材料
云环境下基于MKd-Tree的大规模图数据索引技术
6
作者
雷婷
《电讯技术》
北大核心
2013年第7期909-916,共8页
由于高维属性和海量数据所带来的影响,数据管理需要相当高的计算负载,传统的集中索引技术已经变得不切实际。为满足数据的快速增长、海量和高维特性的要求,实现了一个高层次的分布式树形索引结构框架MRC-Tree。基于MRC-Tree框架基础上,...
由于高维属性和海量数据所带来的影响,数据管理需要相当高的计算负载,传统的集中索引技术已经变得不切实际。为满足数据的快速增长、海量和高维特性的要求,实现了一个高层次的分布式树形索引结构框架MRC-Tree。基于MRC-Tree框架基础上,提出了两种MKd-Tree索引结构构建方法,即OMKd-Tree和MMKd-Tree。理论分析和实验结果表明,基于MRC-Tree框架的MKd-Tree索引结构构建方法具有良好的可扩展性和较高的检索效率。
展开更多
关键词
高维数据库
图数据
索引结构
分布式树形索引结构
框架
map
—
reduce
框架
MKd-Tree
下载PDF
职称材料
云环境下大规模图像索引技术
7
作者
雷婷
曲武
+1 位作者
王涛
韩晓光
《计算机工程与设计》
CSCD
北大核心
2013年第8期2788-2795,共8页
为满足海量高维数据快速计算和检索的需求,基于一个高层次的分布式树形索引结构抽象框架MRC-Tree,以及不同的KD-Tree建树方式,提出两种基于Map-Reduce机制的分布式KD-Tree索引结构构建方法,分别为MKDTM方法和OKDTM方法。通过并行对数据...
为满足海量高维数据快速计算和检索的需求,基于一个高层次的分布式树形索引结构抽象框架MRC-Tree,以及不同的KD-Tree建树方式,提出两种基于Map-Reduce机制的分布式KD-Tree索引结构构建方法,分别为MKDTM方法和OKDTM方法。通过并行对数据进行切分和建树,多个节点并发检索,可以有效地提高检索性能。理论分析和实验结果表明,基于MRC-Tree框架的分布式KD-Tree索引结构具有良好的可扩展性和较高的检索效率,且OKDTM索引结构比MKDTM具有更优良的性能。
展开更多
关键词
高维索引技术
k维树
分布式树形索引结构
map
-
reduce
框架
分布式k维树
下载PDF
职称材料
一种基于云计算的并行流生成方法
8
作者
孙韩林
《计算机工程》
CAS
CSCD
2013年第10期10-13,共4页
在高速网络中,网络设备的分组转发性能在打开流采集功能后会受其影响。为此,提出一种在网络设备外基于云计算平台的并行流生成方法。在需要监测的网络设备附近部署小型云,把分组流量复制到云中,采用云的Map-Reduce并行处理框架快速地从...
在高速网络中,网络设备的分组转发性能在打开流采集功能后会受其影响。为此,提出一种在网络设备外基于云计算平台的并行流生成方法。在需要监测的网络设备附近部署小型云,把分组流量复制到云中,采用云的Map-Reduce并行处理框架快速地从海量分组数据中生成流记录。设计基于Map-Reduce框架的并行流生成算法,通过配置合适数量的云节点,可分析任意大小的网络流量。用实际网络分组数据对并行流生成方法的性能进行验证,实验结果表明,在由3台、5台或7台节点构成的小型云平台上,从超过40 GB的文本分组数据中共提取了15 160 052条流,与顺序处理相比,耗费时间至少可减小85%、90%和94%。
展开更多
关键词
网络流量分析
并行处理
map
—
reduce
框架
HADOOP平台
下载PDF
职称材料
基于云计算的分布式搜索引擎研究
9
作者
谢智勇
《机电信息》
2016年第30期109-109,111,共2页
首先阐述了云计算的概念及其优点,并着重介绍了云计算中的关键技术——分布式计算;然后分析了搜索引擎的工作原理,包括数据抓取和存储、数据整理和索引的构建、检索服务的提供;接着详细描述了分布式搜索引擎里两项最重要的技术——数据...
首先阐述了云计算的概念及其优点,并着重介绍了云计算中的关键技术——分布式计算;然后分析了搜索引擎的工作原理,包括数据抓取和存储、数据整理和索引的构建、检索服务的提供;接着详细描述了分布式搜索引擎里两项最重要的技术——数据的分布式存储和搜索的分布式计算。
展开更多
关键词
云计算
分布式
搜索引擎
map
/
reduce
框架
下载PDF
职称材料
一种稳定的并行分布式频繁集挖掘算法及其应用
10
作者
秘中凯
姜晓红
雷蕾
《计算机应用与软件》
CSCD
2011年第3期83-85,124,共4页
为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM。该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁...
为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM。该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁棒性和负载均衡能力。采用最大规模为512万条记录的中医药方剂数据进行算法性能分析实验,其结果表明,该算法在分布式集群环境中表现稳定,而且随着集群规模的增加其加速比接近线性。以P-FIM算法为基础设计实现的中医药数据相关性分析方案,可有效地从大规模临床数据中获得全面、可靠的病、症、药间相关性的信息。
展开更多
关键词
数据挖掘
频繁集挖掘
map
/
reduce
并行
框架
医药数据分析
下载PDF
职称材料
基于Map-Reduce的自适应双语短语挖掘系统
11
作者
李彬
杨世泉
陈文杰
《昆明学院学报》
2013年第3期83-87,共5页
对于跨语言信息检索,统计翻译等应用,双语短语都是极其重要的资源.提出了基于自适应模式的双语短语挖掘算法,该算法可以自动的学习当前Web页面的翻译模式,然后利用学习到的模式抽取当前页面中的双语短语.同时,将自适应双语短语挖掘算法...
对于跨语言信息检索,统计翻译等应用,双语短语都是极其重要的资源.提出了基于自适应模式的双语短语挖掘算法,该算法可以自动的学习当前Web页面的翻译模式,然后利用学习到的模式抽取当前页面中的双语短语.同时,将自适应双语短语挖掘算法与Map-Reduce并行编程模型融合起来,大大提高了系统的运行效率,并且通过实验验证了该方法的有效性.
展开更多
关键词
自适应模式
双语短语
map
-
reduce
并行计算
框架
分布式计算
下载PDF
职称材料
题名
一种基于云计算的网络流量分析系统结构
被引量:
7
1
作者
孙韩林
机构
西安邮电大学计算机学院
出处
《西安邮电大学学报》
2013年第4期75-79,共5页
基金
陕西省教育厅自然科学研究基金资助项目(11JK1018)
文摘
基于云计算平台Hadoop提出一种新的分布式网络流量分析系统结构。在关键监测点附近部署小型本地云,采集的流量发送到本地云进行存储和分析,本地云规模可根据监测点流量大小按需配置;分析结果传输到协调节点,存入关系数据库供查询;协调节点调度分析任务在各本地云上运行。新结构具有统一的并行处理编程框架,且能减小大量数据传输对被监测网络性能的影响。在小型云平台上用实际流量数据验证用Map-Reduce程序对分组进行统计分析的性能,相对于顺序程序处理,执行速度可提高90%以上,表明用小型云实现快速海量流量分析的方案是有效的。
关键词
网络流量分析
网络监控
云计算
HADOOP平台
map
-
reduce
框架
Keywords
network traffic analysis
network monitoring
cloud computing
Hadoop
map
-
reduce
framework
分类号
TP393.07 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
云环境下基于超球面投影分区的Skyline计算
被引量:
5
2
作者
雷婷
王涛
曲武
韩晓光
机构
成都工业学院通信工程系成都
湖南城市学院信息科学与工程学院益阳
清华大学知识工程研究室北京
北京启明星辰信息技术股份有限公司北京
中关村科技园区海淀园企业博士后科研工作站北京
北京科技大学计算机与通信工程学院北京
出处
《计算机科学》
CSCD
北大核心
2013年第6期164-171,共8页
基金
基于大规模复杂结构知识库的知识发现机理、模型与算法研究(60875029)
多关系频繁模式挖掘模型、方法与一般架构的研究(60675030)
基于多关系的模糊认知图挖掘模型、算法与评价机制研究(61175048)资助
文摘
目前,Skyline查询在集中式数据库、分布式数据库、数据流及分类属性数据集上的良好应用前景,使其成为当前数据库界研究的重点和热点之一,受到了学术界和工业界的广泛关注,它作为一种重要的数据挖掘技术广泛应用于多目标优化、城市导航系统、用户偏好查询及约束决策、智能防御系统以及地理信息系统等领域。随着人类可以采集和利用的数据信息的急剧增长,如何处理大数据的Skyline查询成为急需解决的问题。针对云计算环境,在Map-Reduce框架下设计并实现了基于超球面投影分区的分布式Skyline算法HSPD-Skyline,其主要思想是通过对高维数据点的超平面投影映射,即由空间坐标转换为超球面坐标,可以有效提高分区内数据点的平均减枝力度,降低Skyline的计算代价。同时,使用基于空间分区树的启发式策略HA-SPT,进一步提高了HSPD-Skyline算法的处理效率。通过详细的理论分析和实验验证表明,在不考虑数据分布和进一步优化算法的条件下,提出的HSPD-Skyline算法的总体性能(可扩展性、Skyline查询时间等)优于同类算法。
关键词
分布式Skyline计算
map
-
reduce
框架
分区策略
HSPD-Skyline算法
Keywords
Distributed Skyline processing,
map
-
reduce
frame, Partitioning strategy, HSPD-Skyline
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Hadoop平台的文本相似度检测系统的研究
被引量:
5
3
作者
王小林
肖慧
邰伟鹏
机构
安徽工业大学计算机与技术学院
出处
《计算机技术与发展》
2015年第8期90-93,共4页
基金
国家自然科学基金资助项目(6100311)
安徽省自然科学研究重点项目(KJ2013Z023
KJ2013A058)
文摘
在现有的文本相似度计算方法中,获取关键词权值的TFIDF算法没有完全考虑到关键词在文本中的位置和其在文本库中的离散度对权值的影响,且当处理的文本库中信息量过大时,运行效率较低。针对上述问题,文中提出一种基于语义的信息熵与信息增益的TFIDF算法(TFIDFWGE)。该算法通过对给定的关键词添加位置权重与计算熵值和信息增益,得到关键词的最终权值,并利用Hadoop平台的Map/Reduce框架来实现TFIDFWGE算法和向量空间模型(VSM)的文本相似度计算过程。通过对两组真实的数据集进行的实验结果表明,与现有的TFIDF算法相比,TFIDFWGE算法的查全率和查准率更高,且在Hadoop平台上实现的文本相似度检测系统对信息量大的文本库处理效率更加高效。
关键词
文本相似度
语义
map
/
reduce
框架
TFIDF算法
TFIDFWGE算法
Keywords
text similarity
semantic
map
/
reduce
framework
TFIDF
TFIDFWGE
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
云环境下基于LSH的分布式数据流聚类算法
被引量:
3
4
作者
曲武
王莉军
韩晓光
机构
清华大学计算机科学与技术系
北京启明星辰信息安全技术有限公司核心研究院
中国科学技术信息研究所
北京科技大学计算机与通信工程学院
出处
《计算机科学》
CSCD
北大核心
2014年第11期195-202,共8页
基金
国家"九七三"重点基础研究发展规划项目基金(2007CB310803)
国家自然科学基金重点项目(61035004)
+1 种基金
国家自然科学基金(60875029)
国家科技部博士后基金(2013M541005)资助
文摘
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流聚类分析是当前数据流挖掘研究的热点问题。单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性。为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式。通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势。
关键词
数据流聚类
位置敏感哈希方法
map
-
reduce
框架
DLCStream算法
Keywords
Data stream clustering
Locality sensitive hashing
map
-
reduce
frame
DLCStream
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
大数据处理平台Spark基础实践研究
被引量:
1
5
作者
邱丽娟
机构
厦门南洋职业学院
出处
《无线互联科技》
2017年第1期44-45,共2页
文摘
Spark是主流的大数据并行计算框架。文章将通过几段Scala脚本,演示在Spark环境下通过Map-Reduce框架处理大数据。
关键词
大数据
SPARK
map
.
reduce
框架
Keywords
big data
Spark
map
-
reduce
framework
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
云环境下基于MKd-Tree的大规模图数据索引技术
6
作者
雷婷
机构
成都工业学院通信工程系
出处
《电讯技术》
北大核心
2013年第7期909-916,共8页
文摘
由于高维属性和海量数据所带来的影响,数据管理需要相当高的计算负载,传统的集中索引技术已经变得不切实际。为满足数据的快速增长、海量和高维特性的要求,实现了一个高层次的分布式树形索引结构框架MRC-Tree。基于MRC-Tree框架基础上,提出了两种MKd-Tree索引结构构建方法,即OMKd-Tree和MMKd-Tree。理论分析和实验结果表明,基于MRC-Tree框架的MKd-Tree索引结构构建方法具有良好的可扩展性和较高的检索效率。
关键词
高维数据库
图数据
索引结构
分布式树形索引结构
框架
map
—
reduce
框架
MKd-Tree
Keywords
high-demensional database
graph data
index structure
distributed tree index structure framework
map
-
reduce
framework
MKd-Tree
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
云环境下大规模图像索引技术
7
作者
雷婷
曲武
王涛
韩晓光
机构
成都工业学院通信工程系
材料领域知识工程北京市重点实验室
北京启明星辰信息安全技术有限公司
中关村科技园海淀园企业博士后科研工作站
湖南城市学院信息科学与工程学院
北京科技大学计算机与通讯工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2013年第8期2788-2795,共8页
基金
国家自然科学基金项目(60875029
60675030
+1 种基金
61175048)
湖南省科技厅科技计划基金项目(2012FJ3024)
文摘
为满足海量高维数据快速计算和检索的需求,基于一个高层次的分布式树形索引结构抽象框架MRC-Tree,以及不同的KD-Tree建树方式,提出两种基于Map-Reduce机制的分布式KD-Tree索引结构构建方法,分别为MKDTM方法和OKDTM方法。通过并行对数据进行切分和建树,多个节点并发检索,可以有效地提高检索性能。理论分析和实验结果表明,基于MRC-Tree框架的分布式KD-Tree索引结构具有良好的可扩展性和较高的检索效率,且OKDTM索引结构比MKDTM具有更优良的性能。
关键词
高维索引技术
k维树
分布式树形索引结构
map
-
reduce
框架
分布式k维树
Keywords
high-dimensional indexing
k-dimensional tree index structure
distributed tree index structure
map
-
reduce
framework
distributed k-dimensional tree index structure
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于云计算的并行流生成方法
8
作者
孙韩林
机构
西安邮电大学计算机学院
出处
《计算机工程》
CAS
CSCD
2013年第10期10-13,共4页
基金
陕西省教育厅自然科学基金资助项目(11JK1018)
文摘
在高速网络中,网络设备的分组转发性能在打开流采集功能后会受其影响。为此,提出一种在网络设备外基于云计算平台的并行流生成方法。在需要监测的网络设备附近部署小型云,把分组流量复制到云中,采用云的Map-Reduce并行处理框架快速地从海量分组数据中生成流记录。设计基于Map-Reduce框架的并行流生成算法,通过配置合适数量的云节点,可分析任意大小的网络流量。用实际网络分组数据对并行流生成方法的性能进行验证,实验结果表明,在由3台、5台或7台节点构成的小型云平台上,从超过40 GB的文本分组数据中共提取了15 160 052条流,与顺序处理相比,耗费时间至少可减小85%、90%和94%。
关键词
网络流量分析
并行处理
map
—
reduce
框架
HADOOP平台
Keywords
network traffic analysis
parallel processing
map
-
reduce
framework
Hadoop platform
分类号
TP393.02 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于云计算的分布式搜索引擎研究
9
作者
谢智勇
机构
广东电网有限责任公司韶关供电局
出处
《机电信息》
2016年第30期109-109,111,共2页
文摘
首先阐述了云计算的概念及其优点,并着重介绍了云计算中的关键技术——分布式计算;然后分析了搜索引擎的工作原理,包括数据抓取和存储、数据整理和索引的构建、检索服务的提供;接着详细描述了分布式搜索引擎里两项最重要的技术——数据的分布式存储和搜索的分布式计算。
关键词
云计算
分布式
搜索引擎
map
/
reduce
框架
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种稳定的并行分布式频繁集挖掘算法及其应用
10
作者
秘中凯
姜晓红
雷蕾
机构
浙江大学计算机科学与技术学院
中国中医科学院中医药信息研究所
出处
《计算机应用与软件》
CSCD
2011年第3期83-85,124,共4页
基金
国家高技术研究发展计划项目(2006AA01A123)
杰出青年基金(NSFC60525202)
文摘
为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM。该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁棒性和负载均衡能力。采用最大规模为512万条记录的中医药方剂数据进行算法性能分析实验,其结果表明,该算法在分布式集群环境中表现稳定,而且随着集群规模的增加其加速比接近线性。以P-FIM算法为基础设计实现的中医药数据相关性分析方案,可有效地从大规模临床数据中获得全面、可靠的病、症、药间相关性的信息。
关键词
数据挖掘
频繁集挖掘
map
/
reduce
并行
框架
医药数据分析
Keywords
Data mining Frequent itemset mining
map
/
reduce
parallel infrastructure Analysis of medicine data
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Map-Reduce的自适应双语短语挖掘系统
11
作者
李彬
杨世泉
陈文杰
机构
中国人民解放军
阿里云计算有限公司
出处
《昆明学院学报》
2013年第3期83-87,共5页
文摘
对于跨语言信息检索,统计翻译等应用,双语短语都是极其重要的资源.提出了基于自适应模式的双语短语挖掘算法,该算法可以自动的学习当前Web页面的翻译模式,然后利用学习到的模式抽取当前页面中的双语短语.同时,将自适应双语短语挖掘算法与Map-Reduce并行编程模型融合起来,大大提高了系统的运行效率,并且通过实验验证了该方法的有效性.
关键词
自适应模式
双语短语
map
-
reduce
并行计算
框架
分布式计算
Keywords
adaptive pattern
bilingual term
map
-
reduce
parallel programming model
distributed computing
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种基于云计算的网络流量分析系统结构
孙韩林
《西安邮电大学学报》
2013
7
下载PDF
职称材料
2
云环境下基于超球面投影分区的Skyline计算
雷婷
王涛
曲武
韩晓光
《计算机科学》
CSCD
北大核心
2013
5
下载PDF
职称材料
3
基于Hadoop平台的文本相似度检测系统的研究
王小林
肖慧
邰伟鹏
《计算机技术与发展》
2015
5
下载PDF
职称材料
4
云环境下基于LSH的分布式数据流聚类算法
曲武
王莉军
韩晓光
《计算机科学》
CSCD
北大核心
2014
3
下载PDF
职称材料
5
大数据处理平台Spark基础实践研究
邱丽娟
《无线互联科技》
2017
1
下载PDF
职称材料
6
云环境下基于MKd-Tree的大规模图数据索引技术
雷婷
《电讯技术》
北大核心
2013
0
下载PDF
职称材料
7
云环境下大规模图像索引技术
雷婷
曲武
王涛
韩晓光
《计算机工程与设计》
CSCD
北大核心
2013
0
下载PDF
职称材料
8
一种基于云计算的并行流生成方法
孙韩林
《计算机工程》
CAS
CSCD
2013
0
下载PDF
职称材料
9
基于云计算的分布式搜索引擎研究
谢智勇
《机电信息》
2016
0
下载PDF
职称材料
10
一种稳定的并行分布式频繁集挖掘算法及其应用
秘中凯
姜晓红
雷蕾
《计算机应用与软件》
CSCD
2011
0
下载PDF
职称材料
11
基于Map-Reduce的自适应双语短语挖掘系统
李彬
杨世泉
陈文杰
《昆明学院学报》
2013
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部