大数据背景下的小数据统计分析

上一篇 / 下一篇  2014-11-28 15:15:09

大数据背景下的小数据统计分析

 

统计,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与技术。统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。举个例子:你喜欢上一个姑娘,你会搜集她的兴趣、爱好、星座、闺密、乃至三围等等各种信息吧,然后想自己怎么能搭讪上、约出来,碰壁了会继续找原因、想办法,这就是数据分析。不过落实到工作上,这事儿就没那么有趣了。

在实际工作当中,月度、季度、年度,都需要拿出这段时间的数据来做工作汇报,在数据收集、数据整理和数据分析的过程当中,难度很大。特别对于基层团队管理人员,数据收集统计还可能多次反复,感觉耗时耗力。数据统计上交截止日,赶上新业务上线要交程序,那就是让人崩溃的节奏,我想这目前应该是一个普遍现象。

现在流行一句话就是对数据的理解,说的是对数据挖掘的深度。理解有多深就能挖多深。但是我觉得这建立在数据收集相对比较完善的时候,才能说这句话。公司现在的情况远远没有达到想挖就挖的程度。

现实的困境

   1.基础数据可比性差

如果说BAT公司所掌握的数据是一座金矿的话,我们公司内部流程的数据最多能算一个铁矿,还是贫铁矿。

按统计分析的三个步骤来看,第一个步骤(收集数据)就出现了问题。不算妄自菲薄,而是我们对自己内部流程数据的重视程度决定了这样的事实。拿测试中心来说,我们提供加权的缺陷个数或者是加权缺陷值,因为各部门对缺陷的严重程度把握是不一致,导致横向比较价值打折扣;我们也提供开发个人平均缺陷修复周期,但是因为填写的不规范使数据缺少了客观性;我们也能出缺陷修复成功率或者说是缺陷重开率,但是一方面是流程工具上可能以前没有定义相关字段,另一方面即使定义了相关字段,但是各自有各自的标准。所以能拿出来做整体横向评测度量的数据真的不多。

2.流程工具偏多

接收测试任务和记录缺陷,是测试人员每天工作都要接触的,现在测试中心还是沿用各部以前的做法,比如有用TS+QC的,也有用小球+JIRA的,还有一部分用TS+JIRA

流程工具多,可能可以说有一部分历史原因。但是随着部门的整合,流程工具没有合并调整,给后面的数据收集、分析、统计带来了很多困难。

3.流程差异

如何让得到的数据反映真实的情况,是每个管理者思考的问题。对于测试管理来说也是一样的。流程差异也是造成横向比较的困难的主要原因。流程的差异在加上工具的不一致,更加放大了数据收集、汇总、分析的困难。

除了上述的几个问题,统计过程的每个环节,数据收集、整理、分析或多或少都有问题。特别是统计分析时数据理解这个概念,假如我们数据收集已经能够做到很完备了,我们是不是能真正理解自己掌握的数据呢?

大数据的启示

说到对数据的理解,对数据的挖掘,大家都能想到几位互联网巨头。它们在这个领域无疑领导着时代潮流。我记得有句广告词是这么写的“只要你的电脑连接着网络,你每敲击一下键盘都会成为互联网数据的一部分。”,这词写的很传神,互联网的海量数据就是这么来的。拥有海量数据的几位巨头给我们展示统计、挖掘、技术分析和解释数据的科学与艺术!

成功案例:谷歌票房预测

看电影这件事,俗称看片,对于屌丝来说,首先想到的可能就是**了。但是对于谷歌这样的公司,可以把这件事变得很高大上。

谷歌公布了一项重要研究成果 – 电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。让我们看看他们是怎么做的。

谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从20112012年,电影相关的搜索量增长了56%。谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。

下图显示了2012年电影票房收入(红色)和电影的搜索量(灰色)的曲线。可以看到,两条曲线的起伏变化有着很强的相似性。


通过对2012年上映的99部电影的研究,谷歌发现仅依靠搜索量来预测是不够的。谷歌尝试构建了一个线性的模型,但只达到了70%的准确度


为了构建更加精确的预测模型,谷歌最终采用了四类指标:

1)(电影放映前一周的)电影的搜索量

2)(电影放映前一周的)电影广告的点击量

3)上映影院数量

4)同系列电影前几部的票房表现

其中每类指标又包含了多项类内指标。

在获取到每部电影的这些指标后,谷歌构建了一个线性回归模型(linear regression model)模型,来建立这些指标和票房收入的关系。线性回归模型,在大数据分析领域里算是最基本的模型之一,它认为票房收入与这些指标之间是简单的线性关系。

下面的图展示了模型的效果,其中灰色点代表了实际的票房收入,红色点代表了预测的票房收入。可以看到,预测的结果与实际的结果差异很小。达到92%


虽然达到了92%,但是商业价值不大,谷歌继续研究,最终采用了三类指标:

1)电影预告片的搜索量

2)同系列电影前几部的票房表现

3)档期的季节性特征

其中每类指标又包含了多项类内指标。

在获取到每部电影的这些指标后,谷歌再次构建了一个线性回归模型(linear regression model)模型,来建立这些指标和票房收入的关系。最终准确率达到94%


成功案例:淘宝数据魔方

  在看相关资料的时候,发现阿里有很多的数据产品,量子统计、数据魔方、淘宝指数,据说都是大家所熟悉的,但是实际上,作为主要面对证券市场的人员来说,这些对我来说都是刚听说。

淘宝数据魔方主要提供行业数据分析,店铺数据分析。其中包含了品牌、店铺、产品的排行榜,**人群的特征分析(年龄、性别、**时段、地域等等),每个维度都是站在店主关注的角度设计的。

行业订单份额分析

买家地域分析

 

来访时间段分析

 

淘宝的买家完全可以根据上面的数据分析,规划相应的热销产品、根据时间调整客服人员安排、明确哪些区域的客户需要重点接待等等。

大家都说用户体验,说的多做的少。这样的数据分析才能把用户体验落在实处。

成功案例:百度指数

  百度实际上有很多的数据产品,这里专门拿百度指数举例。还是拿电影来作为搜索的关键词,前段时间变形金刚4是热门电影,让我们看一下大家都关注了什么


全国都是什么地区的人关注这部电影


性别和年龄的比例


探索的思路

说的简单点就是,大数据处理必然不是一台或者几台服务器就能搞定的小事情,大数据处理需要庞大的硬件支撑,硬件支撑也必然是分布式的设计,在我们现在工作当真实际上是不需要用到这样的设备和资源。但是我们可以借鉴一下相关的思路,为我们测试统计工作的展开拓宽一下思路。

相对BAT公司动辄上千PB的数据量来说,,我们拥有的只能算做“小数据“,但是,这些数据对我们来说还是有足够的价值。关键在几个方面:

1.    基础数据的的整合

现有的数据,因为历史的原因,可能比较粗糙。所以需要深入挖掘才能体现它的价值。互联网公司把数据作为一种资源,我们是不是也能够向它们看起,做数据资源的整合?而且不仅仅是本部门数据做整合,更应该利用整个公司的数据资源。比如现有的测试统计数据跟HR的数据结合,对于团队内工作人数、人员**度、工作压力继续分析,得出员工异动概率的大小,为团队管理、资源投入提供指导。

2.    数据的统一

大家都知道秦始皇统一六国的时候,做的第一件事“车同轨,书同文”。其实还有一样很重要的就是统一度量衡,就是说起来没那么顺嘴,被忽略了。但从数据这个角度出发,统一度量衡显得更加重要。全国上下都有了标准的度量准则,为人们充实经济文化交流活动提供了便利的条件(我猜应该是是缴税和发工资都比较方便了)

借鉴这样的思路,全公司或者全部门应该朝这样的方向去努力,这是数据度量的基石。不能坐等内部管理数据的质量“千山鸟飞绝”时,数据整合“万径人踪灭”,作为管理人员的“孤舟蓑笠翁”,“独钓”数据统计的“寒江雪”。

3.    指标预测模型的建立

数据分析的几个阶段:常规报表、查询、多维分析、报警、统计分析、预报、预测模型、优化。目前我们是在描述阶段层面,没有真正做到数据挖掘。如果要想做到类似于谷歌的票房预测,难度不是一般的大,但是可以作为我们努力的方向。

随着高层质量意识的加强,大家都越来越关注到客户发生的异常,特别是重大异常。

理想状况下,我们现有数据的基础之上,是否可以对我们的产品质量进行预测?比如重大异常预测模型。综合考虑需求、工作量、开发测试投入的人力和**度、交付时间、业务复杂度,提前给出大致的判断,只要准确率能达到90%,对于管理会有很大额帮助。

 

人员稳定对于每个团队来说都是很重要的,骨干人员的离职对公司是很大的损失,对具体工作有很大的影响,同时对于团队其他成员可能会造成负面的影响。HR的要求基层主管给出的离职倾向完全基于主管的感觉没有数据支持。如果能基于现有的工作压力结合人力资源历史数据,给出一个员工离职预测模型,那么管理者可以在离职发生之前给出完全可以采取措施挽留,避免人才流失。非HR岗位考虑这个问题有越俎代庖之嫌,但是HR不可能对具体岗位的工作压力有很深的了解,所以我觉得这个指标是应该思考的。


  

你挖,或者是不挖,数据就在那里,不减不增;

你看,或者是不看,信息就在那里,不来不去;

你想,或者是不想,模型就在那里,不多不少。

想用好数据,人的因素将起到关键作用,首选要对数据有很深的洞察力,其次是要熟悉自身业务。实现数据在管理上的价值,我们需要脚踏实地,一步一个脚印,在努力挖掘中体现数据的价值。

 

 

由于时间仓促,水平有限,对于大数据相关知识了解的也不够深入,本文观点提出思路请大家斧正。


TAG: 测试管理 BigData

密斯特厚朴的个人空间 引用 删除 密斯特厚朴   /   2014-11-28 15:56:20
 

评分:0

我来说两句

我的栏目

日历

« 2024-03-28  
     12
3456789
10111213141516
17181920212223
24252627282930
31      

数据统计

  • 访问量: 6222
  • 日志数: 4
  • 建立时间: 2014-09-05
  • 更新时间: 2014-11-28

RSS订阅

Open Toolbar