51Testing软件测试网(c@{E?,m1z 什么是容灾51Testing软件测试网;o(~a*F fYL6q4EU
51Testing软件测试网\.d^0UR B
`'R5f 首先来梳理下什么是系统容灾。互联网上容灾的概念解释很多,我们来看看百度百科里的解释:
)ffyeh8s$d051Testing软件测试网W
M^La0J!_-l 从其对系统的保护程度来分,可以将容灾系统分为:数据容灾和应用容灾 。
9@ O/Qj9_,OE(oD @0D{7ADF)~MR0 数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。
b-\
k\7y!g051Testing软件测试网n"Z(D(K~$W.b6S 应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统迅速接管业务运行。数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。51Testing软件测试网8E
yo
Xz/tr[
)a"U8B0JCL)`Y@0 其实,上面指的容灾已经由我们的数据仓储和运维团队一直在很好的进行着。而且该容灾工作的目的主要是为了预防一些不可预料的意外,比如火灾、地震、紧急硬件故障等等。
(X,V(DV0{H!@?051Testing软件测试网
bi`G1d1jCA 为了保障系统的稳定性和可用性,作为业务团队的我们, 我们的容灾主要做什么呢?谷歌了下一直没有找到和我们所做的事情相似的概念,索性自己取了个名字叫业务容灾。 这里只讨论基于互联网的web业
务系统,业务容灾主要就是指使用一定的技术手段,在极端访问量的情况下,牺牲一小部分非主要业务功能或者一小部分用户体验,
保障整体系统的稳定以及提供的主要功能,以保障绝大部分的用户需求和体验。我们的容灾工作,预防发生的场景是可以预见的,比如今年的双11、双12大促。51Testing软件测试网M C4a1mC3aV
_9u'~
T U+R'z0 现在我们主要分析总结下我们的业务容灾主要包括哪些内容。
!~n\:V x'D
J7`051Testing软件测试网8Ef:`!YMW0J,[ 业务容灾手段51Testing软件测试网#~u](u4j
4LVFvN
O/|0 目前在集市交易系统中使用的业务容灾手段主要有以下几种,下面一一分析。需要说明的是,开关本身不是一种容灾方式,它只是容灾手段中便于人为操作而使用的某种方式,大部分容灾的手段都可以使用开关来达到目的。51Testing软件测试网b!E)[@6SH
y,l:R~0Z&D(J0o(SF0 业务降级
1rnA6Xi5e S\Wc fK051Testing软件测试网lm0h}yo 1、提前降级:51Testing软件测试网`]x\@
51Testing软件测试网V%w@E S4|
在极端访问的情况下,为了减少对系统的压力,对于一些用户量很小或者对用户体验影响极小的业务可以进行提前关闭。可以使用到时间点自动关闭的方式实现,
也可以使用开关提前人为的关闭。这里如果选择使用开关进行人为关闭,需要考虑到不同应用系统之间对同一个业务的协调和时间差,尽可能做到平稳的过渡,让用
户完全没有感知。
6B1d!L7d$?0 y hQ7b]A n9q*_0 2、应急降级:51Testing软件测试网'p!Z)W(hU
8Ow&g }
W0 应急降级主要是针对重要性稍低的业务提前完成预备降级的工作,并提供开关以备不时之需。在系统稳定的情况下正常提供功能,紧急情况下可以人为临时关闭,以保障系统最高优先级的核心功能的可用性和系统整体的稳定性。51Testing软件测试网n+N
X8ZK)yC
51Testing软件测试网'~-tR}I
g 数据备份51Testing软件测试网3}g
Y;e)K%x Ob'@
51Testing软件测试网n&{qkv Qo 为了解决数据读取的问题,我们可以对数据进行提前备份,并在当老数据读取出现异常的紧急情况下,临时切换到新的存储系统进行读取。需要完成的研发功能有:新存储的数据备份功能;紧急切换开关;历史数据的复制。51Testing软件测试网UXq(pC,W2{*f JMVI
-xqZ`C0 自动流控/限流
0@"c}FACN8`8P4s0S\+`E.a8REZ0B`8W0 自动流控主要是指,当系统中对某些二方应用系统访问的线程数超过一定阀值的时候,进行自动限流,防止因为二方应用响应超时太多,拖垮我们的应用。 实现上可以直接抛异常,用户会感觉某功能不可用;也可以直接忽略,让流程继续往下走,用户不会有任何感知。51Testing软件测试网1R
f&h'Lgp
#iJ'F0ao|6t{0?c0 当然,限流后是应该抛异常还是直接忽略,这个不能直接凭用户体验来,不是说用户感知不到就一定是最好的。这里一定要根据具体功能点的设计来决定。比如如果查询库存的线程被限流了,那么就一定要抛异常让下单失败,否则会引起宝贝超卖,这个对于卖家是绝对不能接受的。
u c:z/eTz;vU$w5YS051Testing软件测试网%g(_9s(B)cz;L
对于不同应用请求的流控的阀值的设置也需要再三斟酌,设置高了可能会导致极端情况下流控还没生效,我们的系统已经被拖跨了;设置低了可能会资源浪费,导
致系统还未达到自己的最大承受临界点之前就已经牺牲了部分功能和用户体验。所以流控阀值的设置,需要平时在生产系统多观察,不断调整阀值以求达到一个最合
适的值。并提供阀值调整开关以备不时之需。
Ow(iZ:U4ov0*JgA1Y.vt0 备注:系统中不是对所有的二方应用的访问都有自动流控,这个是需要单独添加的。对于一些重要性非常高的应用一般不做自动流控。51Testing软件测试网w ^\!j5_BCs{2i
51Testing软件测试网{ Cxc3v@(~#GCI7xC:| 请求拦截
*F niIk%j0"fM:Q"~"ot1y0 请求拦截是指当我们的系统压力比较大的时候,
牺牲掉对我们系统访问的一部分重要性稍低的请求,直接对请求进行拦截,减少系统压力,保障系统的稳定性。具体拦截哪些业务方的请求,什么接口,或者接口允
许访问的最大QPS是多少,这些最好能做成可配置化,在紧急情况下可以灵活调整。51Testing软件测试网-~[ _&j(a.M8oi
WW^#H$]4YL[.?0 强弱依赖设计51Testing软件测试网2x)C5YQj|vX
51Testing软件测试网5a9\
vf
k 在系统设计时,需要考虑所有系统内部访问的其他系统接口为强依赖还是弱依赖。比如对于某个功能点,内部需要调用其他系统的接口A和B,如果A出现异常则该功能不可用,而B出现异常,不会影响该功能的整体可用性,那么我们需要将A设计为强依赖,B设计为弱依赖。
oE*O.k
@w051Testing软件测试网 o6mZt+Bt7E 强弱依赖的设计对于系统整体的可用性非常重要,特别是在极端访问量的情况下。我们要尽可能的保证系统功能不受弱依赖系统的影响。 并且强弱依赖需要独立的测试场景来持续保障,以防强弱依赖的设计因为代码的不断改动而发生意料之外的改变。
R.U1Ww-Q(B0UZ{v^t
Z|0 容灾测试方法51Testing软件测试网L
?gH)^-Z,KQL
51Testing软件测试网-M#f l&`I F:hgS| 业务降级、数据备份、以及请求的拦截这类的容灾场景一般都会有自己独立的业务测试方法,也会有对应的开关去控制,只需将开关设置到对应状态,使用和普通业务测试相同的方法即可。
;Fmsio/d051Testing软件测试网a)|?5kd+Y/y9Kj 对于自动流控的测试,可以将阀值调整的开关设置为最低值,即等同于业务的降级测试;也可以将阀值设置为一个较低的值,并模拟依赖系统的请求变慢,再进行业务测试来达到触发流控的条件。51Testing软件测试网5?4jnP%W^|
51Testing软件测试网 F!P&D6}A-D5[:h\5t 对于强弱依赖的测试可以直接模拟和依赖系统之间的网络不通,或者网络变慢,从而模拟依赖系统返回的请求超时或者变慢的场景,再进行业务测试观察系统各功能点的可用性。具体模拟网络不通或者变慢超时的方式如下:
.Nh5wS~^2W0vx)b5F!OJ9fn0 模拟网络不通
i0S
mN{TV!ab.E06E/yLr F0 1、使用iptbables直接模拟系统和某系统之间的网络不通:
'xYk5E v8_O0S)W*Zl}7r0 sudo iptables -A OUTPUT -o eth0 -d <依赖系统的IP> -j DROP51Testing软件测试网9s0ZpGi2G;E
51Testing软件测试网 `'rT5u
ee&}Y 这个命令需要在我们被测系统上执行,并且将需要模拟的依赖系统的IP替换掉。它的主要作用是将我们被测机器往依赖系统这个IP上发送的所有的网络包给丢弃掉,依赖系统接收不到任何我们发送的包,自然也不会做任何回应。相当于系统接口的调用没有返回。51Testing软件测试网I8p%R\#V)ok t
51Testing软件测试网u$vF&KmBeB
g6v 2、使用iptables直接模拟系统的某个端口不通51Testing软件测试网]6McXr%e(W[$]
fh.kW-a4TZ0 sudo iptables -A OUTPUT -o eth0 -p tcp --dport <端口号> -j DROP51Testing软件测试网/_2p1}AM/~5A#D
h
a sfC0 这个命令同样需要在被测系统上执行。它的主要作用是将我们被测机器通过这个端口发送的所有的包给丢弃掉。51Testing软件测试网(ml}!t)J;N*H(F
51Testing软件测试网 QM-y@9W3af[ 3、清除所有设置的iptables规则:iptables –F51Testing软件测试网J(D\[3Q%L
51Testing软件测试网M\cFv}
rJL.~{2p 4、查看当前设置的所有iptables规则:iptables –L
#v(y0N G0D@:ky;|X\4K051Testing软件测试网4DQ.nkw:d 模拟应用变慢和超时
0Q(z*Ar;Y0i~0Q\psHuvr6a`0 添加对某个依赖系统的流量控制,下面的命令需要按照顺序执行:51Testing软件测试网D;B}Rn!W
51Testing软件测试网{dj5m s 1、使用ifconfig查看默认的网卡信息,一般默认为eth0
-evV ` v{j ]'s051Testing软件测试网'cNtF|s,y5bca&T| 2、使用tc流量控制命令将eth0网口过来的数据包延迟1000ms
_f'q*V?
y]p051Testing软件测试网P)t1|DWe sudo tc qdisc add dev eth0 root handle 1: prio51Testing软件测试网/g;jh8q9PY"G
sudo tc qdisc add dev eth0 parent 1:3 handle 30: tbf rate 20kbit buffer 1600 limit 300051Testing软件测试网2Qi+[o5C(X&t,Ip3I
sudo tc qdisc add dev eth0 parent 30:1 handle 31: netem delay 1000ms 10ms distribution normal
S,MEOU B051Testing软件测试网t8@[[t*OX;T 3、添加从某ip过来的流控规则(替换**.**.**.**为需要流控的ip)51Testing软件测试网Q6pA6z/AJF
j
r{Pv#@0 sudo tc filter add dev eth0 protocol ip parent 1:0 prio 3 u32 match ip dst **.**.**.**/32 flowid 1:3
$p6eM3Ke*~Bp0|A)R3Dwi_-c.^0 查看已经设置的限流规则: sudo tc filter list dev eth0 parent 1:0
"R%T-j^Z
@D k4~051Testing软件测试网stb8t!g|9i#p9\ 删除已经设置的所有的限流规则: sudo tc filter del dev eth0 parent 1:0 prio 3 u3251Testing软件测试网:r'?'fl"u0j5E^