hadoop I/O学习

上一篇 / 下一篇  2011-10-17 18:31:38 / 个人分类:分布式技术学习

hadoop数据完整性:检测数据是否被损坏的常见措施是,在数据第一次引入系统时计算校验和,并在数据通过一个不可靠的通道进行传输时再次计算校验和,这样就能发现数据是否被损坏。

datanode负责在验证收到的数据后存储数据及其校验和。它在收到客户端的数据或复制期间其他datanode的数据时执行这个操作。如果datanode检查到错误客户端就会收到checksumException。在使用open方法读取文件之前,将false值传递给filesystem对象的setverifychecksum()方法,可以禁用校验和验证。如果在命令解释器中结合使用ignorecrc和-get选项或等价的-copytolocal命令,也可以达到相同的效果。可以直接创建一个rawlocalfilesystem实例,如果你想针对一些读操作禁用校验和。

压缩:文件压缩有两大好处:可以减少存储文件所需要的磁盘空间;可以加速数据在网络和磁盘上的传输。需要处理大量数据时,这两个好处就显得很重要啦。

(hadoop权威指南学习


TAG:

 

评分:0

我来说两句

Open Toolbar