A/B测试中20个必须知道的问题

发表于:2020-2-05 14:47

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:Sting    来源:简书

  在网站和移动产品设计和开发中、以及互联网产品运营中,我们经常会面临多个产品设计和运营方案的选择,比如某个按钮是用红色还是用蓝色,是放左边还是放右边。传统的解决方法通常是集体讨论表决,或者由某位专家或领导来拍板,实在决定不了时也有随机选一个上线的。虽然传统解决办法多数情况下也是有效的,但A/B 测试(A/B Testing)可能是解决这类问题的一个更好的方法。
  在软件开发中,产品需求通过多种技术手段来实现; A/B测试实验提供了一个有价值的方式来评估新功能对客户行为的影响。
  在运营过程中,AB测试用得更加普遍,比如发送邮件或者广告,先拿小样本,测试多个版本,数据表明哪一个广告或邮件的转化率高,就用哪一个邮件或广告。
  1 什么是A/B测试?
  A/B测试是一种流行的网页优化方法,可以用于增加转化率注册率等网页指标。简单来说,就是为同一个目标制定两个方案(比如两个页面),将产品的用户流量分割成 A/B 两组,一组试验组,一组对照组,两组用户特点类似,并且同时运行。试验运行一段时间后分别统计两组用户的表现,再将数据结果进行对比,就可以科学的帮助决策。比如在这个例子里,50%用户看到 A 版本页面,50%用户看到 B 版本页面,结果 A 版本用户转化率 23%,高于 B 版本的 11%,在试验流量足够大的情况下,我们就可以判定 A 版本胜出,然后将 A 版本页面推送给所有的用户。
  AB测试本质上是个分离式组间实验,以前进行AB测试的技术成本和资源成本相对较高,但现在一系列专业的可视化实验工具的出现,AB测试已越来越成为网站优化常用的方法。A/B测试其实是一种“先验”的实验体系,属于预测型结论,与“后验”的归纳性结论差别巨大。A/B测试的目的在于通过科学的实验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的实验结论,并确信该结论在推广到全部流量可信。
  2 有天然存在的AB测试吗?
  A/B 测试并不是互联网测试新发明的方法,事实上,自然界也存在着类似 A/B 测试的事件,比如下图中的达尔文雀。
  
达尔文雀
  达尔文雀主要生活在太平洋东部加拉帕戈斯(Galapagos)的一个名为伊莎贝拉(Isabela)的岛上,一部分生活在岛的西部,另一部分生活在岛的东部,由于生活环境的细微不同它们进化出了不同的喙。这被认为是自然选择学说上的一个重要例证。
  同样一种鸟,究竟哪一种喙更适合生存呢?自然界给出了她的解决方案,让鸟儿自己变异(多个设计方案),然后优胜劣汰。具体到达尔文雀这个例子上,不同的环境中喙也有不同的解决方案。
上面的例子虽然和网站设计无关,但包含了 A/B 测试最核心的思想,即:
  1、多个方案并行测试;
  2、每个方案只有一个变量(比如鸟喙)不同;
  3、以某种规则优胜劣汰。
  需要特别留意的是第 2 点,它暗示了 A/B 测试的应用范围,——必须是单变量。
  3 什么情况不适合做 A/B 测试?
  有时多个设计稿可能会有非常大的差异,这样的情况一般不太适合做 A/B 测试,因为它们的变量太多了,变量之间会有较多的干扰,很难通过 A/B 测试的方法来找出各个变量对结果的影响程度。
  另外,虽然 A/B 测试名字中只包含 A、B ,但并不是说它只能用于比较两个方案的好坏,事实上,你完全可以设计多个方案进行测试,“A/B 测试”这个名字只是一个习惯的叫法。
  回到网站设计,一般来说,每个设计方案应该大体上是相同的,只是某一个地方有所不同,比如某处排版、文案、图片、颜色等。然后对不同的用户展示不同的方案。
  要注意,不同的用户在他的一次浏览过程中,看到的应该一直是同一个方案。比如他一开始看到的是 A 方案,则在此次会话中应该一直向他展示 A 方案,而不能一会儿让他看 A 方案,一会儿让他看 B 方案。同时,还需要注意控制访问各个版本的人数,大多数情况下我们会希望将访问者平均分配到各个不同的版本上。要做到这些很简单,根据 cookie (比如 cookie 会话ID的最后一位数字)决定展示哪个版本就是一个不错的方法。
  下面是 A/B 测试示意图:
  可以看到,要实现 A/B 测试,我们需要做以下几个工作:
  1、开发两个(或多个)不同的版本并部署;
  2、收集数据;
  3、分析数据,得出结果。
  4 哪些公司在做AB测试?
  A/B测试如同GitHub、Docker、APM一样在美国市场已经被各类企业逐渐采用,比如Google、Airbnb等。
  其测试范围也不仅仅局限于网页优化,目前移动端的A/B测试需要同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java)。
  5 什么阶段的公司适合做AB测试?
  AB测试你自己做是要花很大的人力、物力,大公司有很大的用户,做AB测试的话,是可以持续投入的,每个投入的提升增长价值也很大,是公司中最为重要的。
  很多中小型的公司具备条件,但不一定有经验或能力执行和分析,不过现在也有些第三方服务公司提供了工具,方便做AB测试,降低了门槛,比如吆喝科技在这方面做得非常好。
  初创公司,在产品还没验证的时候,或者用户量非常小的时候,不适合做AB测试。
  6 如何利用A/B测试做增长?
  AB 测试是撬动理性增长的最重要工具之一。AB测试背后的理念是在于用数据来帮助你做决策,来帮助你做更好的决策,很多东西就不再是靠艺术创造、靠想象、靠拍脑袋来做,而是靠数据,像你写代码、做分析的时候那样一种很理性的模式。
  7 A/B测试的数据结果出来后,应该怎么样选择?
  从数据结果分析客观的效果,但往往也需要根据用户体验和总收益做一个折衷。
  《增长黑客》作者范冰讲过一个百姓网的案例。百姓网之前有段时间销售员和产品经理撕逼,销售人员是觉得为了获得更多销售额,所以我们必须是用户给钱越多,我们给他越大的特权。
  百姓网他们想像左图这样,用户在我这个平台上发布的小帖子以后,谁给的钱多,给得最多的我给你置顶,同时又给你一个广告位,就是红色标量,其他的给钱没那么多的,在相对置顶比较高的位置。就是你越给钱,我越给你一些标签把你位置提得越高,这是销售人员的思维;产品经理的思维是右边这种,虽然你给了钱,你是我们的金主,你很重要,但是我要重视我们的产品体验,如果说你给钱我就让你上去的话,其实这上面满眼看得都是广告,而且谁给钱谁就上,那就有点像百度了,像现在这个样子他们就提出我们的产品在右边,不管你给了多少钱,我最多就给你个高亮,所以你的位置我不给你提前。当时为了这个原因,双方激烈的撕逼。撕逼一般是没有结果的,因为公说公有理,婆说婆有理,后来他们想到组织一次 AB 测试,下发了两波用户,看这两波用户各自呈现两种不同的页面,哪波用户最后转化率高,带来的收入高,还有其他一些指标的综合判断。
  结果是怎样的?
  大家从直觉判断,一定觉得产品经理的决定是对的,最后一定是用了产品经理的方案。
  测试结果,右边产品经理方案是好的,他的数据更高,但是最后用了左边的方案。为什么?因为测试结果反馈显示,这两个方案虽然右边更好,但是他这个好的方案只是精确到小数点后面的千分位,只是比前一种方案好了那么一点,虽然是好了那么一点,但是左边的方案更吸金,左边的能吸引到大家更多的往里投钱,更多的花钱,既然是只好了这么一点点,当然要用左边的。于是经过测试以后,他们最后用了左边的方案,这是大家没有想到的结果。
  因为 AB 测试固然重要,AB 测试的结果的确右边好,但是有的时候要结合实际,如果说差别不是很大的话,你可能要选一种赚钱更多的方式,这是 AB 测试一个很大的价值,大家不要偏信数据,不要被数据给完全左右,有的时候结合一些你的理性的思考。
  8 AB测试的具体实施流程是什么样的呢?
  其实非常简单,可能在座的大家都有一定地印象,比如说你有一个网页,就是你用户流量的页面,你用上面的绿色作为一个代表,如果你现在的页面只有23%的转化率,你希望通过某种黑客方式,把它调一调,改一改,改成蓝色的页面,希望能够提升它的转化率。
  那么可以用AB测试怎么做呢?就让来访流量的访客,一半或者一部分的访客看到绿色的老版本,一部分的访客看到蓝色的新版本,这些用户自己是无感知的,他们并不知道自己是被分配在实验里面,他们依然按照自己的行为去操作,他们会买东西,会退出或者怎么样,然后你看他的转化率,有没有发生变化,假如我们看到一个很糟糕的现象,这个蓝色的版本,它的转化率反而降低了只有11%了,结果你的老版本还胜出的,就说明你改进的方案不成功,于是你会想其 他的方案再去改,总会找到能够提升转化率的方法。
  9 有哪些AB测试需要注意的经验或规则?
  1.效果惊人,一些很微小的改动,它就可能造成对你KPI巨大的影响。
  2.大多数改动都不会带来大幅度提高KPI,所以你需要耐心。
  3.Twyman法则,他是凡是看上去很出人意料的图表,通常都是因为数据统计错了。
  4.各个产品几乎都不一样,你复制他人的经验,往往都没有什么效果。
  5.任何能加速用户响应时间的改动,都会带来KPI的正向提升。
  6.点击率是很容易提高的,但是流失率是很难改进的,千万不要把精力放在优化某个页面点击率上。
  7.尽量不要做很复杂的大量改动的实验,而是要做很简单的小的迭代。
  10 Facebook在增长过程中怎样使用A/B测试?
  据前Facebook工程师,现峰瑞资本技术合伙人覃超介绍,facebook做增长的流程为四步:
  1 设计关键数据面板 
  2 关注核心动作?
  3 发现增长规律和模式 
  4 灰度发布和AB测试
  具体在灰度发布和A/B测试分为以下步骤:
  1 计划:根据新功能制定改版计划;
  2 预期:数据会如何变化;
  3 设置多版本:逐步开放给用户;
  4 清除:清除老的版本。
  6个月内所有版本完全线上灰度发布,通过不断进行用户流量分割的方式进行实验,获得无Bug口碑。

     上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
21/212>
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号