DavidW

思考/实践/进化 电商用户体验

DavidW

[译文]反驳A/B测试的批评

A/B测试在互联网各界都受到了甚至是不公正的批评。这些批评包含了A/B测试的一些相关要点,但基本论点是站不住脚的。这些批评混淆了(例如,测试红色与路色按钮的区别或是其他)与A/B测试方法之间的关系。现在让我们看下最近在网络上的些争论,为什么他们的批评是没有根据的。

争论一:A/B测试与局部极小化

Jason Cohen在他的文章《Out of the cesspool and into the sewer: A/B testing trap》中文翻译版本:《[译文]小心A/B测试的陷阱:从水沟流入下水道的水》中认为:A/B测试往往得到的结果是局部最小值,而非真正想得到的全局最小值。对于那些把页面上每个区块作为提升转化率的部分,而又不清楚局部最小值与全局最小值区别的人来说。这就好比说,在网页里每个区块都是都是个变量:这些的数值自然越低越好。通过下面来自jason Cohen的图 ,就可以知道出局部最小值与全局最小值的区别。

即便是在jason文章里,争论的焦点也不在于A/B测试,因为激进的调整页面并使用相同的测试方法也可得到全局最小值。因此声称局部最小值是A/B测试陷阱是不公平的,因为这与A/B测试方法根本就没关系。相反,在争论中却揭示出微调并做测试的方法是徒劳无功的。

那么,如果A/B测试没有问题,那么是局部最小值的问题吗?即便打了折扣的局部最小值的理论是错误的,答案依旧是否定的。上面的图片展示了非常浅显易懂的一维度曲线。你可以把x轴当作背景色y轴当作跳出率。Jason的文章可以归纳为:如果测试了一组不同的蓝色,你可能减少跳出率。但如果你尝试着将颜色改掉(例如,黄色),你可能会得到可能是最低的跳出率。

下面是本争论的两个问题:

1、你永远都不知道是否已经得到了全局最低值

全局最低值仅存在于理论中。让我们继续之前的改为黄色背景得到跳出率全局最小值的范例。在进一步的测试中,如果我们发觉没有背景色得到更低的跳出率该怎么办?或者放置张可爱小猫的背景得到更低的跳出率呢?问题的关键点在于,除非可以把跳出率降低到0%(或转化率达到100%),否则你将永远怀疑自己是否达到真正意义上的全局最小值。

另一个检测是否找到全局最小值的方法是穷举所有可能性。理论上,你页面仅修改背景色(你不能使用背景图片,因为你老板讨厌用背景图)。那么你可以将所有可能的颜色尝试一遍并取其中最小值的方案。在穷举所有可能色彩中,那个得到最小值的背景色就有可能是全局最小值。这就带出了下一个问题。

2、这不仅仅是背景色的问题

当优化页面时,你需要面对成百上千的变量(背景色只是其中的一个)。标题、文案、布局、页面长度、视频、文字颜色、图片这些仅是其中的一小部分变量。优化页面取决于页面所有的一切。这意味着之前看到的曲线不只是我们所见到的一维的。在现实中,它是被上千个变量影响着的多维结构。

再强调一下,把图中的山峰想像成你的转化率(或是跳出率),变量在不同的维度上(尽管貌似就只有两个变量,但事实上有上百个)。与一维的例子不同的是,在真实页面上穷举所有可能性是不可能的。因此,你不必刻意去追求全局最大(最小)值。吸取教训:接受局部最小值。

争论二:A/B测试的细微改动

SEOMoz的Rand Fishkin写过篇文章:《Don’t Fall Into the Trap of A/B Testing Minutiae》 | 中文翻译版本:《[译文]不要落入A/B测试的局部最小值陷阱》的文章,在文中他重申了Jason关于不要浪费时间在测试页面细小元素上(如,标题,文字等)。他的主要论点是:使用细微改版得到局部最大值的方法花费了太多精力和时间,这样做并不值得。下面的图片来自他的博客,稍有调整。

首要指出的是机会成本不是需要足够的时间来测试(这可能需要以几周时间),而应该是设置测试的时间(这需要几分钟)。一旦设置好测试,就几乎是自动的,其风险仅是设置测试时花费的时间。如果,投资15分钟的时间可以进行次按钮颜色测试最终的结果可以提升1.5%的转化率,这还有什么错误吗?

许多A/B测试工具(包括我启动的visual website optimizer)可以很容易的进行小的测试。这些测试工具可以在后台监测测试,如果结果不理想就会自动停止。那么做这样的测试会有什么样的风险呢?我只看到好的一面:增加了销售额与转化率。

Rand为了证实自己的观点,他给出一份最近的Basecamp 首页重新设计稿,该设计将Basecamp转化率提升了14%。你能想像得到进行这样的一次重新设计(相比于改变按钮颜色测试)所带来的影响吗?事实上,由于曲线是在于多维度上的,一个完全的重新设计有很高的失败概率。复杂的重新设计导致失败的可能性要比改动一个按钮的颜色大得多。因为我们从来没有听说过重新设计导致失败的案例眼睛,我们也不能就此认为版面大幅度的改动要比版面微调的效果好(尤其是,版面大幅度改动所需要的投入与时间要比版面微调多得多)。

通过局部最小值,你至少知道转化率正在增长,这是往增长利润前进的方向。但这并不代表说将放弃追求全局最小化的目标。全局最佳就像是世界和平:很难达到目标,但我们一直朝着正确的方向努力。要吸取的教训是:理想的策略包含了小测试(红色与蓝色对比)与版面大幅度改动这两者。跳过转化率曲线山脉,可以确保你不断的找到更好的转化率。

争论3:

Jeff Atwood 写到电影《偷天情缘》( 译者注:电影中的男主角是个气象预报员,在去一小镇报导当地的土拨鼠日庆典后。第二天醒来发觉时间依旧停留在前一天的土拨鼠日。昨日的一切又重复上演。无论他如何选择渡过这一天,他都无法前进一步。 )与A/B测试相比,得出结论由于男主角失败了所以A/B测试也会失败。在jeff的所有比较中,他认为A/B测试缺乏激情并且扼杀创造力。他继续引用Natha Bowers的一tweet:

A/B测试就像是张砂纸。你可以用它优化细节,却不能用它创造新东西。

谁能声称A/B测试可以创造新东西呢?创意来自思维而非工具。这论点可以应用于画笔:

画笔好像一根棍子上粘了些毛发。你可以用它来戳你的猫,但你不能用它来创作东西。

A/B测试好比是个画笔,它只是一个工具如别的工具一样。它有自己的特性与局限性。它没规定你可以用来测试的东西;因此诶它也就不能约束你的创意。不管使用A/B测试与否,你可以使用自己全部的创意与想法为你的网站进行全新的设计。通过它可以使得你所用于网站的设计与技术更加合理,并评估新的设计是否比原有的更好。记住:A/B测试仅仅是一种方法,而不能指导设计。

总结:

重申上述三个点所得到的教训:

接受局部最小值,因为你永远不可能得到全局最小值。细节测试仅需要花费几分钟时间,但获得的潜在收入将远远超出花费这几分钟的价值。

  1. 通过细节调整与重新改版的方式这两种方式不断的探索更好的方法提升转化率。
  2. A/B测试仅仅是个工具,它不会扼杀你的想法(事实上,当在设计时你需要更多的想象力)。
  3. 最后,不要觉得做A/B测试会产生任何罪恶感。

原文地址:《In Defense Of A/B Testing》
译文地址:《关于A/B测试批评的反驳》

Previous

[译文]不要落入A/B测试的局部最小值陷阱中

Next

[转载]A/B测试终极指南

2 Comments

  1. sinos

    支持,A/B测试是找到局部最小值的方法,而不是全局最小值。我们的产品全局相当于一个拥有N个变量的函数,要找到最优值根本就是无解��

  2. 只能做到更好,不能做到最好��

发表评论

电子邮件地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

Powered by WordPress & Theme by Anders Norén