博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop Mapreduce 中的Partitioner
阅读量:6477 次
发布时间:2019-06-23

本文共 1113 字,大约阅读时间需要 3 分钟。

Partitioner的作用的对Mapper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reduce处理,Partitioner直接影响Reduce阶段的负载均衡。

MapReduce提供了两个Partitioner实现:HashPartitioner和TotalOederPartitioner。 HashPartitioner是默认实现,实现了一种基于哈希值的分片方法,代码如下:

public int getPartition(K2 key, V2 value, int numReduceTasks) {     return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;}复制代码

TotalOrderPartitioner提供了一种基于区间的分片方法,通常用在数据全排序中。 在MapReduce环境中,容易想到的全排序方案是归并排序,即在Map阶段,每个Map Task进行局部排序;在Reduce阶段,启动一个Reduce Task进行全局排序。由于作业只能有一个Reduce Task,因而reduce阶段会成为作业的瓶颈。 TotalOrderPartitioner能够按照大小将数据分成若干个区间(分片),并保证后一个区间的所有数据均大于前一个区间的所有数据。全排序的步骤如下:

  1. 数据采样。在Client端通过采样获取分片的分割点。Hadoop自带了几个采样算法,如IntercalSampler、RandomSampler、SplitSampler等。
  2. Map阶段。本阶段涉及两个组件,分别是Mapper和Partitioner。其中,Mapper可采用IdentityMapper,直接将输入数据输出,但Partitioner必须选用TotalOrderPartitioner,它将步骤1中获取的分割点保存到trie树中以便快速定位任意一个记录所在的区间,这样,每个Map Task产生R(Reduce Task 个数)个区间,且区间有序。TotalOrderPartitioner通过trie树查找每条记录所对应的Reduce Task编号。
  3. Reduce阶段。每个Reducer对分配到的区间数据进行局部排序,最终得到全排序数据。

基于TotalOrderPartitioner全排序的效率跟key分布规律和采样算法有直接关系;key值分布越均匀且采样越具有代表性,则Reduce Task负载越均衡,全排序效率越高。

转载于:https://juejin.im/post/5c697ad051882562191764f5

你可能感兴趣的文章
Flex布局
查看>>
Material Design之 AppbarLayout 开发实践总结
查看>>
Flutter之MaterialApp使用详解
查看>>
DataBinding最全使用说明
查看>>
原生Js交互之DSBridge
查看>>
Matlab编程之——卷积神经网络CNN代码解析
查看>>
白洋淀周末游
查看>>
三篇文章了解 TiDB 技术内幕 —— 说计算
查看>>
copy strong weak assign的区别
查看>>
OpenCV 入门
查看>>
css 3D transform变换
查看>>
ele表格合并行之后的selection选中
查看>>
正则表达式分解剖析(一文悟透正则表达式)
查看>>
解决UILable标点符号居中的问题
查看>>
HTML5新特性教程
查看>>
SpringBoot 实战 (十七) | 整合 WebSocket 实现聊天室
查看>>
ImageOptim-无损图片压缩Mac版
查看>>
12 Go语言map底层浅析
查看>>
vue-resumer 项目中 element-ui 遇到的 textarea autosize 问题
查看>>
以主干开发作为持续交付的基础
查看>>