hadoop I/O学习
上一篇 /
下一篇 2011-10-17 18:31:38
/ 个人分类:分布式技术学习
hadoop数据完整性:检测数据是否被损坏的常见措施是,在数据第一次引入系统时计算校验和,并在数据通过一个不可靠的通道进行传输时再次计算校验和,这样就能发现数据是否被损坏。
datanode负责在验证收到的数据后存储数据及其校验和。它在收到客户端的数据或复制期间其他datanode的数据时执行这个操作。如果datanode检查到错误客户端就会收到checksumException。在使用open方法读取文件之前,将false值传递给filesystem对象的setverifychecksum()方法,可以禁用校验和验证。如果在命令解释器中结合使用ignorecrc和-get选项或等价的-copytolocal命令,也可以达到相同的效果。可以直接创建一个rawlocalfilesystem实例,如果你想针对一些读操作禁用校验和。
压缩:文件压缩有两大好处:可以减少存储文件所需要的磁盘空间;可以加速数据在网络和磁盘上的传输。需要处理大量数据时,这两个好处就显得很重要啦。
(hadoop权威指南学习)
收藏
举报
TAG: