hadoop-balance

上一篇 / 下一篇  2013-01-29 13:57:43 / 个人分类:开发知识

最近被集群每天发邮件报警烦死,本来hadoop分任务读写自身是会尽量保证负载均衡的吗,但是我们集群一堆虚拟机,几台真的大实体机,经常就是虚拟机满的不行,但是实体机很空,于是上网找了下。可以手动balance。
hadoop bin的目录里有个start-balancer.sh,这个就是专门用来balance集群文件分布解决这个磁盘快满了,那个还空很多的情况。

-threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可 能无法到达设定的平衡参数值。

dfs.balance.bandwidthPerSec  默认设置:1048576(1 M/S),参数含义:设置balance工具在运行中所能占用的带宽,设置的过大可能会造成mapred运行缓慢。
跑了一下,还挺有用,虚拟机上的文件在往大机器移动了。另外问了下开发线上也会定期运行这个脚本的。

TAG:

 

评分:0

我来说两句

Open Toolbar