序列化

上一篇 / 下一篇  2011-10-17 19:24:07 / 个人分类:分布式技术学习

所谓序列化是指将结构化对象转化为字节流,以便在网络上传输或写到磁盘进行永久存储。反序列化是指将字节流转回结构化对象的逆过程。

序列化在分布式数据处理的两大领域经常出现:进程间通信和永久存储。

在hadoop中,系统中多个节点上进程间的通信是通过“远程过程调用(RPC)”RPC协议将信息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化为原始信息。
RPC序列化格式如下:

紧凑:紧凑的格式能够使我们充分利用网络带宽。

快速:进程间通信形成了分布式系统的骨架,所以需要尽量减少序列化和反序列化的性能开销。

可扩展:协议为了满足新的需求而不断变化,所以在控制客户端和服务器的过程中,需要引进响应的协议。进而也可以透明的读取老格式的数据。

互操作:对于某些系统来说,希望能支持以不同语言写的客户端与服务器交互,所以需要设计一种特定的格式来满足这一点。

hadoop使用自己的序列化格式writable。


TAG:

 

评分:0

我来说两句

Open Toolbar