云硬盘存储系统容量管理实践

发表于:2017-12-01 10:23

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:腾讯架构师    来源:CSDN博客

  摘要
  如果说云计算拼的就是运维的话,那么公有云的运维拼的就是容量管理。公有云上容量管理(以下容量管理特指公有云上容量管理)就是要保障有充足的资源可对外售卖,即“有货可卖”。当资源供应不足,用户无法购买需要的云计算资源时,就产生了所谓的“售罄”事件。售罄问题对公有云口碑影响很大,影响用户体验的同时甚至会造成用户的流失。本文主要对容量管理相关问题进行总结和分析,同时介绍云硬盘存储系统容量管理实践方案。
  问题
  云硬盘(Cloud Block Service,CBS)作为腾讯云基础组件之一,在容量管理方面之前遇到了很多问题,总结起来有以下几点。
  缺少统一、多维度资源规划
  通常我们的资源主要有三部分组成:线上可对外售卖资源,线下储备设备以及报备在途设备。这三部分资源分别在三个不同的系统中维护,缺乏统一的视图,导致运维人员对资源整体储备情况无法准确预估。另外一方面,目前腾讯云有众多可用区,同时有多种云硬盘产品,不同产品使用不同的机型;如果只考虑整体资源,而不考虑不同可用区不同云盘产品的售卖情况的话,很容易出现资源不均衡的情况,即部分可用区/云盘产品售罄的同时其他可用区/云盘产品却资源过剩。因此,我们需要统一、多维度的资源规划,打通线上、线下资源系统,从全局进行不同地区不同产品类型的资源规划和调度。
  字源交付效率低
  一台物理设备的生命周期会经历采购、到货、初始化、上架、维修、下架。交付过程中的大量环节需要人工介入和操作,资源交付自动化程度较低会导致单Set交付时间可能超过几十分钟,并且交付并发度基本为串行。如此低的交付效率一方面会导致售罄频发(交付赶不上售卖),另一方面会增加运维在交付方面的人力投入(60%以上)。
  系统感知滞后,监控力度过粗
  通过对售罄问题的分析,我们发现大部分售罄问题往往是因为短时间的突发购买击穿库存导致。现有的容量系统无法做到实时感知和预警短时间内的突发购买行为,等到触发资源不足告警再去追查和分析,使得后端运维响应非常被动。另外,现有的资源监控策略基于静态阈值,只能做到Zone级别的资源总体情况预警,缺乏细粒度监控(例如TOP20 VIP用户购买情况、不同大小的盘资源情况等)。
  碎片化问题
  除了突发购买,碎片化问题也会导致售罄。很多时候线上整体可售卖的资源还有很多,但是这些资源都分布在很多个Set,就会导致无法提供大规格的整块资源。造成碎片化最直接的原因是前端售卖装箱策略不合理,但容量管理系统本身也需要具备定期整理碎片、均衡资源的能力。
  实践方案
  
图1 容量管理整体解决方案
  如图1所示,为了有效解决售罄问题,可以从线下、后端、前端、监控和数据分析等方面入手,总结起来有以下五点。
  统一规划,全局调配
  前面分析问题时指出各种资源数据分布在多个系统,缺少统一、多维度的规划。因此我们需要建立全局资源看板,来对资源进行统一规划和全局调配。具体来说,我们的全局资源看板包括以下内容:
  归一化地展示线上可售卖、线下储备和报备在途设备,这样一来就可以很清楚的知道现在有多少货可卖buffer有多少,最近能够到货多少。
  清晰地展示各个可用区、各种类型产品的资源情况(包括可售卖、线下储备和报备在途),便于进行各可用区之间的资源调度和腾挪。
  其他维度的资源展示,例如不同规格区间的资源情况等。
  
图2 全局资源看板示例
  自动交付,弹性伸缩
  
图3 设备生命周期
  设备一旦到货以及需要紧急扩容的情况下,我们需要具备快速自动交付能力,降低售罄风险的同时也能优化运维人力。一方面需要打通整个设备生命周期,实现全自动化交付。另一方面需要和监控以及数据分析联动起来,当收到资源不足预警时自动触发上架操作,及时扩容。
21/212>
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号