mapred.min.split.size参数如何决定map数

上一篇 / 下一篇  2012-03-16 20:17:50 / 个人分类:分布式技术学习

(在没有显示指定运行多少个map的时候)
这个配置项决定了每个 Input Split的最小值,也间接决定了一个Job的map 数目。
1.首先这个参数只有设置的比hadoop的数据块(dfs.block.size)大的时候生效,否则走hadoop默认的。
2.当设置的比数据块的大小大了:按这个参数将路径下的每个part进行拆分,来决定map数。

例如:
1.参数生效情况
输入数据

hadoop数据块的配置:

mapred.min.split.size参数设置:

运行结果:起2个map。
2.去掉mapred.min.split.size这个参数:
运行结果:起4个map。
3.将mapred.min.split.size这个参数设的比数据块小:
运行结果:起4个map。

1

1

TAG:

 

评分:0

我来说两句

Open Toolbar