美团旅行数据质量监管平台实践

发表于:2018-3-29 13:41

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:德晓    来源:美团技术团队

  背景
  数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。
  本文将基于美团点评大数据平台,通过对数据流转过程中各阶段数据质量检测结果的采集分析、规则引擎、评估反馈和再监测的闭环管理过程出发,从面临挑战、建设思路、技术方案、呈现效果及总结等方面,介绍美团平台酒旅事业群(以下简称美旅)数据质量监管平台DataMan的搭建思路和建设实践。
  挑战
  美旅数据中心日均处理的离线和实时作业高达数万量级, 如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:
  · 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。
  · 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。
  · 问题故障处理流程未闭环,“点”式解决现象常在;缺乏统一归档,没有形成体系的知识库。
  · 数据模型质量监控缺失,模型重复,基础模型与应用模型的关联度不足,形成信息孤岛。
  · 数据存储资源增长过快,不能监控细粒度资源内容。
  DataMan质量监管平台研发正基于此,以下为具体建设方案。
  解决思路
  整体框架
  构建美旅大数据质量监控平台,从可实践运用的视角出发,整合平台资源、技术流程核心要点,重点着力平台支持、技术控制、流程制度、知识体系形成等方向建设,确保质量监控平台敏捷推进落地的可行性。数据质量监控平台整体框架如图1所示:
  
图1 质量监控平台整体框架图
  建设方法
  以数据质量检核管理PDCA方法论,基于美团大数据平台,对数据质量需求和问题进行全质量生命周期的管理,包括质量问题的定义、检核监控、发现分析、跟踪反馈及知识库沉淀。数据质量PDCA流程图如图2所示:
  
图2 数据质量PDCA流程图
  关键流程:
  质量监管平台建设实践应用及价值体现,离不开管理流程、技术实现和组织人员的紧密结合,主要包含如下8大流程步骤:
  质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等。
  提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准。
  规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等。
  执行检核:调度配置、调度执行、检核代码。
  问题检核:检核问题展示、分类、质量分析、质量严重等级分类等。
  分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识。
  落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼。
  知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。
  质量检核标准
  · 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
  · 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;
  · 合理性:主要包括格式、类型、值域和业务规则的合理有效;
  · 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;
  · 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。
  大数据平台下的质量检核标准更需考虑到大数据的快变化、多维度、定制化及资源量大等特性,如数仓及应用BI系统的质量故障等级分类、数据模型热度标准定义、作业运行耗时标准分类等和数仓模型逻辑分层及主题划分组合如下图3所示。
  
图3 质量检核标准图
  美旅数仓划分为客服、流量、运营、订单、门店、产品、参与人、风控、结算和公用等十大主题,按Base、Fact、Topic、App逻辑分层,形成体系化的物理模型。从数据价值量化、存储资源优化等指标评估,划分物理模型为热、温、冷、冰等四类标准,结合应用自定义其具体标准范围,实现其灵活性配置;作业运行耗时分为:优、良、一般、关注、耗时等,每类耗时定义的标准范围既符合大数据的特性又可满足具体分析需要,且作业耗时与数仓主题和逻辑分层深度整合,实现多角度质量洞察评估;针对数万的作业信息从数据时效性、作业运行等级、服务对象范围等视角,将其故障等级分为S1:严重度极高;S2:严重度高; S3:严重度中; S4:严重度低等四项标准,各项均对应具体的实施策略。整体数据质量的检核对象包括离线数仓和实时数据。
  监管核心点
  
图4 数据质量监管功能图
  数据质量功能模块设计的主要功能如上图4所示,包括:监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控;问题跟踪处理由问题发现(支持自动检核、人工录入)、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。
  管理流程
  流程化管理是推进数据问题从发现、跟踪、解决到总结提炼的合理有效工具。质量管理流程包括:数据质量问题提报、数据质量问题分析、故障跟踪、解决验证、数据质量评估分析等主要环节步骤;从干系人员的角度分析包括数据质量管理人员、数据质量检查人员、数据平台开发人员、业务及BI商分人员等,从流程步骤到管理人员形成职责和角色的矩阵图。如图5所示:
  
图5 数据质量流程图
  问题汇总: 数据质量提报、ETL处理及监控过程上报、数据质量检查点等多方来源,其中ETL处理部分为程序自动化上报,减少人为干预。
  问题分析: 通过规定的角色和岗位的人员对汇总问题分析和评估,由统一公共账号自动推送提醒消息至责任人。
  问题工单: 对采集的问题经过分析归类,主要划为信息提示和故障问题两大类,信息提示无需工单生成,故障问题将产生对应的工单,后推送至工单处理人。
  故障定级: 针对生成的问题工单判断其故障级别,其级别分为:S1、S2、S3、S4等四类(如图3所述),针对尤为严重的故障问题需Review机制并持续跟踪CaseStudy总结。
  知识库体系: 从由数据问题、解决方案、典型案例等内容中,提炼总结形成标准化、完备知识库体系,以质量问题中提炼价值,形成标准,更加有效的指导业务、规范业务,提高源头数据质量,提升业务服务水平。
  质量流程管理:
  流程原则:统一流程、步骤稳定。
  权限控制:流程节点与人员账户号绑定,若节点未设置人员账户即面向所有人员,否则为规定范围的人员。
  权限管理:可结合美团平台的UPM系统权限管理机制。
  技术方案
  总体架构
  DataMan系统建设总体方案基于美团的大数据技术平台。自底向上包括:检测数据采集、质量集市处理层;质量规则引擎模型存储层;系统功能层及系统应用展示层等。整个数据质量检核点基于技术性、业务性检测,形成完整的数据质量报告与问题跟踪机制,创建质量知识库,确保数据质量的完整性(Completeness)、正确性(Correctness)、当前性(Currency)、一致性(Consistency)。
  总体架构图如图6所示:
  
图6 质量监管DataMan总体架构图
  数据源及集市层:首先采集数据平台质量相关的元数据信息、监控日志信息、实时日志、检测配置中心日志、作业日志及调度平台日志等关键的质量元数据;经数据质量集市的模型设计、监控对象的分类,加工形成完整、紧关联、多维度、易分析的数据质量基础数据模型,为上层质量应用分析奠定数据基础。数据来源自大数据平台、实时数仓、调度平台等,涉及到Hive、 Spark、Storm、 Kafka、MySQL及BI应用等相关平台数据源;
  存储模型层:主要功能包括规则引擎数据配置、质量模型结果存储;以数据质量监控、影响关联、全方位监控等目标规则引擎的推动方式,将加工结果数据存储至关系型数据库中,构成精简高质数据层;
  系统功能层:包括配置管理、过程监控、问题跟踪、故障流程管理、实时数据监控、知识库体系的创建等;处理的对象包括日志运行作业、物理监控模型、业务监控模型等主要实体;
  系统展示层:通过界面化方式管理、展示数据质量状态,包括质量监控界面、推荐优化模块、质量分析、信息展示、问题提报、故障跟踪及测量定级、系统权限管理等功能。
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
21/212>
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号