不同hadoop集群间传递数据的方式

上一篇 / 下一篇  2012-04-20 16:39:03 / 个人分类:分布式技术学习

如果试图在两个运行着不同hdfs版本的集群上使用distcp复制数据,并使用hdfs协议,会导致复制作业失败,因为两个版本的RPC系统是不兼容的。

hftp方式:是方便从一个其他hadoop集群读信息的方法,是一个只读方式,是基于只读http协议的,从源文件系统中读取数据。这个作业是运行在目标集群上的。如果试图写数据的话是会抛异常的。

因为不同的版本的集群是兼容的,所以是最好的cp集群间数据的方式。

hdfs方式:则是可读可写的。

所以从A拷数据到B的话,B一定是hdfs方式。如果B是hftp那么一定就错了,,,因为B是不可写的。。。

另外还有一个注意的地方是权限问题,不同集群的配置对于文件默认的权限可能是不同的,所以要关注要使用cp过来数据的user是否有权限使用。

参考资料:http://hadoop.apache.org/hdfs/docs/current/hftp.html


TAG:

 

评分:0

我来说两句

Open Toolbar