腾讯云盘复数据损坏技术原因 建议开启快照功能

发表于:2018-8-08 09:23

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:佚名    来源:网易科技报道

#
腾讯
  8月8日消息,昨日腾讯云再发声明,盘复了“前沿数控”文件系统元数据损坏的技术原因,腾讯称该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致数据完整性受损。
  腾讯云称,对其业务所受影响表示诚挚歉意。同时希望用户开启免费的快照功能,可对重要数据进行定期备份。
  8月6日,腾讯云表示,提出了“赔偿+补偿”总金额达到136,469元的解决方案,是该用户在腾讯云平台中用云金额的37倍。“前沿数控”基于自身评估就此次故障对腾讯云提出了11,016,000元的索赔要求。腾讯云称,这远远高于其能够提供的方案,双方目前未能达成一致。
  以下是声明全文
  【关于客户“前沿数控”数据完整性受损的技术复盘】
  近日,腾讯云客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致该客户的文件系统元数据损坏,我们对客户业务所受影响表示诚挚歉意。同时,我们也对此次故障过程进行了深入的技术复盘。
  复盘发现,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。
  痛定思痛,腾讯云希望在尽力帮助客户解决本次问题的同时,也通过相关机制的优化避免类似情况的再度发生。
  故障过程复盘
  当天上午11:57,我们的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30监控发现仓库Ⅱ部分云盘出现IO异常。
  故障原因复盘
  本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。
  数据搬迁过程中的违规操作主要如下两点:
  第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;
  第二是正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。
  因这些错误操作的连续影响,导致该客户数据完整性受损,给客户的正常业务运行造成影响,腾讯云对此再次表示最诚恳的歉意。
  改进措施:
  经过技术复盘,腾讯云技术团队深入到每个环节,通过责任到人与流程闭环的双管齐下,相应作出如下的加强和改进措施:
  首先,我们将全面审视所有的数据流程,涉及数据安全的流程自动化闭环,进一步提升我们常规运维自动化和流程化,降低人工干预。同时把全流程的数据安全校验作为系统的常开功能,不允许被关闭。
  其次,针对物理硬盘静默数据错误,在当前用户访问路径数据校验自愈的基础上,我们优化现有巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。
  进一步建议:
  腾讯云自2016年3月以来一直在提供免费的快照功能,可以对重要数据进行定期备份。同时出于对客户数据隐私性和安全性的考虑,客户可以自由选择开启或者不开启这一免费功能。腾讯云在这里也呼吁客户开启这一功能,进一步提升自身数据的安全性。
  未来,本着对客户数据最大的敬畏,腾讯云将继续探索更科学的机制,避免类似事件再次发生。
  腾讯云
  2018年08月07日

   上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号