Google 和 Facebook 披露全球范围宕机原因

发表于:2019-3-18 10:25

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:InfoQ    来源:今日头条

  昨日,GoogleFacebook 两巨头在同一天相继发生全球大规模宕机,其中 Facebook 的断电时常更是超过 10 小时之久。对于宕机事件,Google 和 Facebook 后续分别公开说明了原因。
  Google
  Google 此次中断时常持续约 4 个小时,影响了 Gmail, G Suite, YouTube 等产品。
  Google 在中断事故分析报告中表示,此次事故是 SRE 超载系统使得 Google 云存储错误率提高导致。
  报告中说明,3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;为了减少资源使用,3 月 12 日 SRE 进行了配置更改,使系统的关键部分超载以查找 blob 数据的位置,最终导致级联故障。
  此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。
  对于因此事件受到影响的服务与应用客户,谷歌“深表歉意”,并表示正在采取措施以提高可用性并防止此类中断再次发生。
  Facebook
  昨日,不少猜测说 Facebook 宕机事故是由于路由泄露引起的,而 Facebook 官方披露的原因是服务器配置变更引起的。
  
  昨日,由于服务器配置变更,导致很多用户无法访问我们的应用和服务。现在我们已经解决了这个问题,系统已经恢复。对用户造成的不便我们深感歉意,感谢所有人的耐心。

      上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号