测试女巫紧跟时代脉搏之大数据分析系列(2)

发表于:2020-4-27 08:19

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:王平平    来源:51Testing软件测试网原创

  一、前言
  不禁叹声气,唉~上一期到这一期真的恍若隔世,真的世界乱套了,目前国内真的比较平稳,而国外真的像地狱一样:用超大的冷冻车装载尸体,想象都不寒而栗是的,这不是恐怖片,就是活生生的现实,人类真的如此脆弱,脆弱地不堪一击;好吧,不管怎样,女巫还是健康的女巫,所以学习还是不能停,我还是很自豪,2020的春节假期期间把docker搞定了: nginx,gunicorn,container,image,dockerfile这些之前陌生的字眼目前已经非常熟悉,且已经将自己的前后端数据库都已经使用docker正确发布,下一步准备继续k8s,哈哈真的有一些癫狂的状态,好吧,管它世界如何混乱,只要我和家人还健康,学习就永不停止。
  上一期我们学习了大数据分析的基础知识准备之Jupter Numpy Pandas的介绍;我们这一期就开始进攻大数据的学习思路之数据清理、数据整理与叙述统计。
  二、数据分析目标
  数据挖掘分析领域最重要的能力是:能够将数据转化为非专业人士也能够清楚理解的有意义的见解。
  利用统计学方法分析各类数据,对于结果,不只是靠感觉,靠经验,而是根据以数据为基础的科学分析方法来进行决策
  (1)来自公司内部的数据分析
  (2)来自外部的数据分析要求
  对于新入职的数据分析师,第一天接收的任务是:获得一份50M的excel表,来自老板的数据分析:"这是100万条用户的信息,来个大数据分析:我们准备与星巴克合作,来预测一下明年多少人喝咖啡,几千万的大项目,预测不准公司要亏很多钱"
  (3)来自网上的统计学的架构
  描述统计学,把一些数据收集到一起,作图作表,求平均值,标准差或者看倾向这些叫做描述统计学。 推论统计学,从总体取出一部分样本,通过样本的特点去推论总体的特点,这种推论的统计叫做推论统计学。
  三、数据整理
  往往我们拿到的数据,并不是我们想要的格式;或者其中包含了很多无用的信息;例如RF在使用仪器厂商提供的工具时,最后得到的测试报告,有10000行;实际上对于工程师而言,真正想要的数据,只有几百行;所以在分析数据前,就要先进行数据整理;
  四、数据清理
  在分析数据之前必须对数据进行必要的检查以及整理,如果数据本身有问题,分析的结果是没有任何意义的。主要检查数据的完整性,是否有空值,是否是异常值,是否有重复;还有是否是正态分布的数据;因为数据分析的很多工具是建立在正态分布的基础上。
  例如异常值分析是检验资料是否有录入错误以及含有不合常理的资料。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进资料的计算分析过程中,对结果会产生不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。
  五、数据分析基本概念
  1、描述型:
  即发生了什么,这是非常常见的一种分析方法,在业务中,它向分析师们提供重要衡量标准的概览,就像6 sigma中的叙述统计一样,它可以计算出描述数据集中趋势的平均数、中位数等,也能计算出描述数据分散程度的标准差Q1等,然后是均值,中位数,标准差;
  (1)描述数据的集中趋势
  · 众数Mode
  一组数据中,出现频率最高的值
  · 平均数Mean
  · 中位数Median
  资料从小到大排序后,中位数即为最中间的那个数。当观测的值的个数为偶数,取中间的两个数的平均数为中位数
  (2)描述数据的分散型态
  · 全距Range
  一组资料内最大值与最小值的差异
  · 四分位距IQR
  资料由小到大排序并分割为四个等分,每一个切割点为四分位数(quartile);四分之一位居(Inter-Quartile Range)IQR就是第三四分位数(Q3)与第一四分位数(Q1)之差,如下图


版权声明:本文出自《51测试天地》第五十七期。51Testing软件测试网及相关内容提供者拥有51testing.com内容的全部版权,未经明确的书面许可,任何人或单位不得对本网站内容复制、转载或进行镜像,否则将追究法律责任。
精选软件测试好文,快来阅读吧~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号