携程 缺乏应急预案和演练
对于携程遇到的事故,容灾方面的专家认为,其原因更多的是携程本身应对的问题,如果应对得当,事故影响是可以降低的。
刘小雄认为,从携程此次事故的细节判断,携程给出的解释似乎不大能站得住脚。“单纯的误操作很难带来这么大的影响,它说是一些执行代码被误删除了,可线上和源头同时被删除的可能性是非常低的。”刘小雄判断,携程出问题的真正原因应该是遭遇到了网络攻击,或者是在应对攻击时维护人员出现了重大失误,或者是纯粹的外界攻击对它造成了破坏,“不管怎么说,我觉得网络攻击都是造成其严重事故的主因。”
他表示,网络公司如果发现及时应对得当,是可以抵御或者降低危害的,可携程的问题说明,他们或者没有及时发现恶意攻击,或者是安全防护人员能力较差,才会造成如此后果。
蓝汛相关人士也认为,从携程的应对来看,其明显缺乏对此类情况的处置预案,似乎没有做过相应的演练,否则按照预案与日常演练进行处理,不会用12个小时才恢复正常。“对紧急情况缺乏预案和演练的互联网企业应该不在少数。”
■追访
防范风险容灾建设要合规
“出了事的认倒霉,没出事的看热闹。”刘小雄称,这是不少互联网企业之前对于严重事故的态度,出过事的可能会对原有流程和设备进行完善,而没有出过事的可能还抱着侥幸心理不加重视。不过,在支付宝和携程的事故之后,多数互联网企业还是应该会有所触动的。“不只是企业自身,今后国家可能也会向企业提出更高的安全要求。”
刘小雄表示,想要避免出现严重的安全事故,企业对容灾的重视程度和相关制度的合规非常重要。他介绍,在一些大型互联网公司,主要业务部门必须有灾备方案,还必须接受对灾备预案和演练情况的审核。此外,公司本身也有对于容灾的严格规定。“比如我们内部的容灾分为三个步骤,第一是明确哪些业务需要进行容灾;第二是按照业务的实际情况每半年或者一年进行一次容灾演练;第三就是当突发情况真的发生时,按照预案和演练进行操作就可以了。”
他认为,一些企业存在误解,认为容灾会增加成本,实际上如果容灾没有做好,出现事故,所带来的损失要远大于容灾的投入。