7.4 数据质量
在数据采集过程中,需要在数据质量保证方面注意以下几点。
7.4.1 数据的真实性
使用的数据必须是已经通过检查,保证按照规则采集、无误的数据。包括:
(1)具有正确的类型:如数字型、字符型。
(2)具有正确的格式:如数据元素特有的格式,比如日期、货币。
(3)在规定的值域内:有效的值域可以是合格名称列表、合格日期或值的数字值域。
(4)完整性:度量数据要有基本的数据元素,还要包含相关定义,以及理解和解释数值所需要的上下文环境(上下文)信息。例如:每个记录纸都应该根据下列信息辨别:度量的实体、发生时间、采集时间、度量工具等。
(5)数学上是正确的:如果采集的数据包含有通过数学计算得到的数值,应当保证数学计算是正确的。
在一个稳定的组织中,各方面数据的关系都是比较稳定的。如果某个产品的数据有异常,那么就需要审慎地查看该产品的相关过程。其结果是,它可能会成为别人学习的榜样,也可能不得不忍痛取消该产品。此时,防止数据失真的手段,一方面是通过大量数据标本过滤、屏蔽掉异常数据,根据统计数字发现倾向;另一方面是通过多方面相关联的数据互相印证(例如单元测试的缺陷发现数和系统测试发现数比值,或者相同条件下多个产品的数据相互对照)。
7.4.2 数据的同步性
当两个或多个属性的数值在发生时间上相互关联时,可以认为这些度量是同步的。例如,计算生产率是经过一段时间的输出对输入的比较得到的。如果实际消耗的资源与生产的产品或度量的时间段不匹配,则生产率就会被误解出错;如果没有考虑执行过程的时间,过程内部的延迟就意味着输出统计和输入统计不对应。也就是说,没有正确的因果关系,那么用于生产率度量的输出对输入的关系可能没有意义。