MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素.当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划分方式,无法根据数据的分布情况来调整集群的负载,容易出现负载不均衡的问题.为解决这一问题,对当前的MapReduce框架进行拓展,根据对Map端中间结果的采样来动态确定Reduce任务数目以及划分函数,保证Reduce任务的负载均衡.具体地,对Map的结果进行采样,并将其发送给Job Tracker.JobTracker根据采样数据的分布情况动态确定划分函数,以保证每个Reduce任务处理的记录数目均衡.更重要的是,在Hadoop框架内实现了负载均衡方法,测试结果证明方法具有良好的有效性、兼容性和可用性.国家自然科学基金项目; 国家“八六三”高技术研究发展计划基金项目中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)0z1369-3775
[[abstract]]Hadoop MapReduce是一種特殊的計算模式、具有處理巨量資料的能力。然而,在有限的計算資源環境條件下,如何調整其環境變數設定,以提升整體運算效能,屬於最佳化問題(Op...
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低.讨论了利用MapReduce对这类数据集进行并行聚类的方法,提...
随着多媒体SoC中具备密集访存能力的设备数量增加,设备之间频繁争抢存储体资源,严重影响访存性能.为此提出一种面向多媒体SoC的存储体访存负载均衡划分方法.通过操作系统对物理内存的管理,将设备所访问的数...
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方...
MapReduce是由Google提出的并行计算框架,具备高可扩展性、高可用性和良好的容错性,现已广泛应用于处理大规模数据。连接操作是大数据分析中的一个常见运算,随着数据规模的进一步增大,如何有效处理...
В статье анализируется и рассматривается модель распределённых вычислений MapReduce, используемая дл...
Algorithms for mitigating imbalance of the MapReduce computa-tions are considered in this paper. Map...
本发明提供了一种实现动态负载平衡、故障诊断与转移的群集资源控制方法,包括客户端与群集系统的交互过程,节点向群集资源协调器注册、注销以及群集资源协调器实时获取节点负载与状态信息的过程和群集资源协调器出现...
MapReduce is a popular parallel programming model used in large-scale data processing applications r...
Most common huge volume data processing programs do counting, sorting, merging etc. Such programs re...
计算划分问题是并行编译中最为重要的问题之一.针对并行循环,在数据分布确定的情况下,提出了基于规范集的计算划分算法,具体讨论了规范集的获取方法及综合通信与负载均衡的最优方案选取算法.实验表明,在并行循环...
Running multiple instances of the MapReduce framework concurrently in a multicluster system or datac...
[[abstract]]MapReduce is a distributed and parallel computing model for data-intensive tasks with fe...
Abstract: MapReduce is an important method for large-scale data processing on parallel architecture....
MapReduce обчислювальна модель на мобільних пристроях Ця стаття пояснює використання найновішої мод...
[[abstract]]Hadoop MapReduce是一種特殊的計算模式、具有處理巨量資料的能力。然而,在有限的計算資源環境條件下,如何調整其環境變數設定,以提升整體運算效能,屬於最佳化問題(Op...
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低.讨论了利用MapReduce对这类数据集进行并行聚类的方法,提...
随着多媒体SoC中具备密集访存能力的设备数量增加,设备之间频繁争抢存储体资源,严重影响访存性能.为此提出一种面向多媒体SoC的存储体访存负载均衡划分方法.通过操作系统对物理内存的管理,将设备所访问的数...
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方...
MapReduce是由Google提出的并行计算框架,具备高可扩展性、高可用性和良好的容错性,现已广泛应用于处理大规模数据。连接操作是大数据分析中的一个常见运算,随着数据规模的进一步增大,如何有效处理...
В статье анализируется и рассматривается модель распределённых вычислений MapReduce, используемая дл...
Algorithms for mitigating imbalance of the MapReduce computa-tions are considered in this paper. Map...
本发明提供了一种实现动态负载平衡、故障诊断与转移的群集资源控制方法,包括客户端与群集系统的交互过程,节点向群集资源协调器注册、注销以及群集资源协调器实时获取节点负载与状态信息的过程和群集资源协调器出现...
MapReduce is a popular parallel programming model used in large-scale data processing applications r...
Most common huge volume data processing programs do counting, sorting, merging etc. Such programs re...
计算划分问题是并行编译中最为重要的问题之一.针对并行循环,在数据分布确定的情况下,提出了基于规范集的计算划分算法,具体讨论了规范集的获取方法及综合通信与负载均衡的最优方案选取算法.实验表明,在并行循环...
Running multiple instances of the MapReduce framework concurrently in a multicluster system or datac...
[[abstract]]MapReduce is a distributed and parallel computing model for data-intensive tasks with fe...
Abstract: MapReduce is an important method for large-scale data processing on parallel architecture....
MapReduce обчислювальна модель на мобільних пристроях Ця стаття пояснює використання найновішої мод...
[[abstract]]Hadoop MapReduce是一種特殊的計算模式、具有處理巨量資料的能力。然而,在有限的計算資源環境條件下,如何調整其環境變數設定,以提升整體運算效能,屬於最佳化問題(Op...
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低.讨论了利用MapReduce对这类数据集进行并行聚类的方法,提...
随着多媒体SoC中具备密集访存能力的设备数量增加,设备之间频繁争抢存储体资源,严重影响访存性能.为此提出一种面向多媒体SoC的存储体访存负载均衡划分方法.通过操作系统对物理内存的管理,将设备所访问的数...