云硬盘存储系统容量管理实践

发表于:2017-12-01 10:23

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:腾讯架构师    来源:CSDN博客

分享:
  实时感知,精细运营
  
图4 容量监控分析体系
  容量监控分析体系如图4所示,主要由三部分组成:
  静态阈值监控。除了监控各个地区和各种类型云盘线上容量之外,我们还增加了两种预警,即上架预警和报备预警。上架预警和上面的自动化交付系统关联,当线上容量触发上架预警值之后会回调自动化上架接口进行扩容操作。报备预警会综合线上容量和线下buffer,当资源整体消耗较快无法保障未来一个月的售卖时,会及时告知运维人员发起报备。
  动态异常分析。通过对用户的购买行为进行动态异常分析和监控,可以及时感知突发购买和刷单等异常情况,以便及时采取措施,防止库存被击穿。
  精细化分析。除了关注大盘整体容量情况和短期的异常外,我们还对TOP20用户进行了定制化监控分析,重点关注VIP的用户行为和使用情况,主动发现问题来提升服务专业度和口碑。
  合理装箱,自动均衡
  典型的部署模型提供的最小容量单位为Set,用户可购买的云盘的规格为2G-16T,这是一个很典型的装箱问题。我们还在不断探索和优化装箱策略和算法,我们已经采取的主要优化措施包括:
  Set容量实时上报,指定Set售卖装箱。各Set将可售卖容量实时上报,控制系统综合全局容量情况指定Set售卖和装箱,避免随机装箱造成的碎片问题。
  定期碎片整理和均衡。后端会定期对Set的装箱和使用情况进行分析,将大规格的云盘打散分布;同时会综合各个Set的底层存储使用率,自动发起盘迁移和均衡操作。
  多管齐下,分级预案
  容量管理问题没办法做到一招制胜,而是需要一套“组合拳”来应对不同情况。表1为容量分级预案,不同的触发条件对应了不同的预案,每种预案的时效性也不尽相同。只有多管齐下,做好充足的预案和准备,才能够从容的应对各种突发情况。
  表1 容量问题分级预案
22/2<12
100家互联网大公司java笔试题汇总,填问卷领取~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2023
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号