深入浅出Hadoop之Mapreduce

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

发表于：2020-1-22 14:10

作者：卿哥聊技术来源：博客园

软件开发

hadoop

大数据

　　之前已经作出预告，那么今天就聊聊mapreduce，起源于Google的map reduce paper, 而后经历了mapreduce 1，和构建于yarn上的mapreduce 2，mapreduce1 除了提供一定的历史演变价值和了解一下mapreduce最初的设计之外就没有必要学了哈，毕竟现在意义上的mapreduce2,spark都是在yarn上。当然mapreduce这项技术本身可能现在也是逐年衰落，不是我说的，是michael stonebraker3年前就说了(stonebraker认为程序员只需要了解sql就行了，nosql啥的都应该直接或间接支持用sql来查询交互)，而且google自己也早就不用了，不过mapreduce还是有自身一定的学习价值，比如map, combiner, shuffle/sort, practiioner, reducer，消息传递, data locality(即把运算移动到数据旁，而不是传输数据来节省网络带宽提高运算效率)都是分布式系统运算框架的一个里程碑。很多分布式系统设计课程比如MIT研究生著名的分布式系统设计的前几章必然要讲mapreduce。

　　分布式系统前言

　　分布式系统由于包括很多node，所以它的根基是unreliable component包括node，network和clock，上层的设计必然需要考虑到这一点。Unreliable node有如下三种表现形式：

　　· fail-stop, 比如电力供应中断了（比如data center停电了，或者地震了发水灾了啥的），fail了就完了，无法恢复。

　　· fail-recovery，比如node升级kernel，os，software，需要重启

　　· 拜占庭 failure，这个比较狠，就是这个node看似正常，但是你说城门楼子它说胯骨轴子，你说往东，它往西走。相当于一个神经错乱的node或者说是被入侵了的node。

　　同时分布式系统涉及大量的网络传输，不管是RPC还是RESTFUL都是走网络，网络也是unreliable的，有如下三种表现形式：

　　· 完美传输，即%0 loss, 100% in order，俗称happy home，这个资源成本比较高，适用于特别重要的服务

　　· fair-loss，这个最为常见，就是正常丢包，不已传输内容为转移。TCP/IP就是为了解决这个事儿而设计了3 way handshake，retry，sliding window，congestion control啥的

　　· 拜占庭 failure，这个就基本相当于被man in the middle 了，anything is possible，good luck ：）思考题：SSL/TLS 能有效解决man in the middle吗？

　　还没完，分布式系统还有一个问题就是clock，一方面每台机器的时间都可能不一样，俗称clock skew，另一方面，每台机器对每一秒的感知也不一样，俗称clock drift。所以伟大的lamport（2013图灵奖得主，分布式大神，latex，vector clock，paxos，etc）发明了logical clock，其中最著名的是vector clock。相当于让每个event有了自己的先后顺序。这个可以单独聊一次它的具体原理。插一句嘴，我觉得分布式系统这么多年敢称大神的只有两个，理论大师lamport和实战天王Jeff Dean（Jeff Dean当年在MIT淡定的给我们介绍谷歌分布式系统设计经验，然后说自己一个周末现学maching learning，搞出了个猫图片识别，当时我就在想他学machine learning干啥，然后tensor flow这个项目就横空出世了。。。orz）

　　还有就是分布式系统实现分为synchronous和asynchronous两种model，synchronous就是blocking callback with optional timeout，asynchronous就是event call back with optional timeout。

　　下面我们把以上几种情形组合一下：

　　· fail-stop + 完美传输 + synchronous，比如超级计算机每个processor由local high speed bus相连，user case是OpenMP 和 MPI

　　· fail-recovery + fair-loss + asynchronous，就是我们最近一直聊的hadoop eco system了

　　· 拜占庭 node + 拜占庭网络+asynchronous，这就是分布于untrusted computer和untrusted network之中的grid computing了

　　map

　　先看一下python的map function，接下来会聊hadoop streaming

>>> map(lambda x: x*x, [1,2,3,4,5])

[1, 4, 9, 16, 25]

or>>> items = (1,2,3,4,5)

>>> def sqr(x): return x**2>>> map(sqr,items)

[1, 4, 9, 16, 25]

　　reduce

　　先看一下python的reduce function

>>> reduce(operator.iadd, [1,4,9,16,25])

>>> reduce(lambda x,y: x+y, [1,4,9,16,25])

　　data flow

　　map 和 reduce的input／output都是key／value pair。注意map或者reduce不一定都需要，比如grep，map=grep，reduce=None

　　在sort和shuffling阶段，sorting用的是external sorting，所以不用担心内存爆了。

　　实现

　　上图中，intermidiate result是存放在local disk中而不是HDFS，因为就算丢了，也可以通过map重新得到，所以不用使用HDFS做multiple copy。

　　上图可以看出yarn分为resource manager和node manager，resource manager会launch application master，application master会请求resource根据resource富余程度launch application process。

上文内容不用于商业目的，如涉及知识产权问题，请权利人联系博为峰小编(021-64471599-8017)，我们将立即处理。

21/212 >

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选