大数据时代如何进行数据质量管理

发表于:2022-11-09 09:32

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:心如止水    来源:CSDN

  在当今这个大数据时代,数据质量对于数据的价值有着至关重要的意义。它是数据有效影响业务并驱动业务发展的基础。对于企业级的数据治理项目,数据质量管理是其中重要的一环。
  数据质量保障原则
  如何评价数据质量的好坏,目前业界已基本达成共识。主要从以下四个方面进行评估:
  完整性、准确性、一致性和及时性。
  完整性
  完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。需要重点关注数据的生产环节(原始数据的数据同步)和加工环节(数仓ETL)中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。例如,电商交易中的每日交易数据量,(除了双11特殊情况)一般不会出现大幅波动;订单ID、商品ID、卖家ID、买家ID等都是必然不为空的。
  准确性
  准确性是指数据记录中信息和数据是否准确、不存在明显的错误或异常。例如,在用户行为数据分析场景中,UV、PV这类指标数值小于0,则明显是错误数据。
  一致性
  对于不同的业务流程和节点,来源相同的数据必须保持一致性。例如,在线教育业务中,课程表字段的subject字段中如果有英语、English两种表述,在您group by subject时会出现两条记录。
  及时性
  及时性主要体现在数据应用层的指标数据可以及时产出。在保证了上面的完整性、准确性、一致性的基础上,保障数据及时产出,才更能发挥数据的价值。保证及时性,需要确保整个数据加工链路上的每个环节都可以准时成功产出。
  常见的数据监控原则
  单表数据量监控
  一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值。
  单表空值检测
  某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内。
  单表重复值检测
  一个或多个字段是否满足某些规则。
  单表值域检测
  一个或多个字段没有重复记录。
  跨表数据量对比
  主要针对同步流程,监控两张表的数据量是否一致。
  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号