HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

大家常会通过增长实验来确定增长策略的有效性和影响范围

2020-06-07

在增长工作中,大家常会通过增长实验来确定增长策略的有效性和影响范围。而设计增长实验时常会遇到一些坑。比如:

  • 没有定义正确的实验指标,实验上线后无法决定实验成功还是失败。
  • 对于实验目标用户没有清晰的认识,导致实验上线后,分析了很久都得不出结论。
  • 流量划分不均匀随机,导致实验结果出现偏颇,数据不可信。

本文将通过以下三小节的内容来简单分享下如何避免以上这些常见的问题。

一、制定实验指标

正确的实验指标能够全面准确地检验实验假设的真伪,从而衡量实验结果的成败。

衡量实验成败,主要可以分为三类指标:


1. 核心指标

核心指标是决定实验成败的关键指标,该指标是后期实验数据进行统计显著计算的关键。核心指标确定的前提是实验最终目标的确立。根据该实验目标判断想要影响的指标是哪一个。是否可以通过这个指标确定实验组的改动是成功的。

2. 辅助指标

辅助指标是实验可能影响到的其他重要指标,通过这些重要指标可以全面了解实验结果。常见的辅助指标如漏斗细分步骤的各节点转化率,可以通过这些转化率更全面的了解实验改动对整个漏斗的影响。

3. 反向指标

反向指标是提示实验可能出现的负面影响。通过反向指标的高低来判断实验结果是否成功。如果实验没有负面影响或负面影响较小,可以接受,才能宣布实验成功。如果负面影响很大,可以否决实验的正向结果。

常见的反向指标如页面退出率,订单取消率,Push退订率,应用删除率等。

二、确定实验对象

在确定了实验目标后进入了增长实验设计的第二步,确定实验对象。这一步骤主要解决实验对象的包含范围和实验所需的样本数量。

1. 确定实验对象的包含范围

如果所设计的增长实验希望所有用户都进入该实验范围,那则不需要这一步。如果希望仅有符合特定条件的用户才可进入实验范围,则需要设置实验对象范围。通过此设置可针对特定用户群组进行实验,帮助生成更精细的产品优化方案。通常设置实验对象范围类型可通过第三方A/B测试工具自带分组来设置。

设置实验受众可以通过一些第三方A/B测试工具来完成。

很多第三方的测试协助工具都会有默认受众分组,比如:操作系统,浏览器类型,设备类型,应用版本等等。

我们也可以自定义受众分组,比如:

  • 注册15天内的新用户
  • 来自一线城市的用户
  • 某个兴趣标签的用户
  • 来自某个渠道的用户

2. 预估实验所需的样本数量

首先我们先来看一个案例,某公司想通过改变按钮颜色提高“下单”按钮的点击率。


在实验上线2小时后,进行了一次数据统计:

  • 蓝色按钮的页面访问量是60次,按钮点击次数为15次,转化率为25%。
  • 红色按钮的页面访问量是56次,按钮点击次数为7次,转化率为12.5%。
  • 那么这时候,是否可以得到蓝色按钮比红色按钮的转化率更高呢?相信大多数的产品人都会认为样本数太小,不能得出可信的结论。

在实验上线2天后,再进行了一次数据统计:

  • 蓝色按钮的页面访问量是6238次,按钮点击次数为368次,转化率为5.9%。
  • 红色按钮的页面访问量是6122次,按钮点击次数为588次,转化率为9.6%。
  • 那么此时,是否能确定红色按钮是否效果更好呢?但样本数量是否可信呢?

在实验上线1年后,又进行了一次数据统计:

  • 蓝色按钮的页面访问量是132892次,按钮点击次数为6110次,转化率为4.6%。
  • 红色按钮的页面访问量是140021次,按钮点击次数为9641次,转化率为7.5%。
  • 那么此时,是否就可以非常的肯定的说红色按钮较蓝色按钮的转化率更好?

通过上述案例可发现从结果可靠性的角度看,样本量越大,实验时间越长,实验结果则越可靠。

但从实际工作的成本角度出发,样本量越小,实验时间越短,实验的试错成本就越小,实验迭代速度也越快。

因此在保障实验结果可靠性的同时又尽可能最小化样本量,不会浪费过多的实验时间显得至关重要。我们可以通过对增长实验结果进行统计显著性检验找到这个平衡点。

统计显著性(Statistical significance):是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平。在增长实验中是指对照组和实验组之间转化率差异的真实水平程度。

如:对比对照组和实验组的某个实验指标发现转化率有差别,而统计显著性为90%。则代表造成差别中有90%的可能性是真实存在的。而10%的可能性是随机误差引起的。

当统计显著性越高,则随机误差的可能性就越低,得到的结果就越可靠。我们可通过确认结果统计性显著所需的最小样本数来预估实验所需样本数量。

影响实验所需样本数量的因素主要有三个:

  1. 原版本的转化率:如原版本的转化率越低,则实验所需要的样本数量越大。
  2. 新版本的转化率:如果新版本和原版本的转化率差别越小,则检测所需的敏感度越高,实验所需要的样本数量越大。
  3. 统计显著性要求:统计显著性要求越高,对结果的需求越确定,则实验所需要的样本数量越大。建议一般情况统计显著性要求至少为95%。

我们继续刚才的案例。假设原版本,也就是蓝色按钮的点击转化率为10%,而预计改为红色后,点击转化率为12%,我们通过第三方A/B测试样本计算器工具,在统计显著设置为95%的情况下,预估出实验所需要的样本数量为2900。我们预估每天的的页面访问数为500。而这个实验一共存在红色按钮和蓝色按钮两个实验样本,则样本总数为5800,所以需要的实验时长是12天。

三、设计实验版本

在完成了确定实验指标和实验对象后,就可以开始设计实验版本了。在设计实验版本时,需要思考实验组相比对照组都做了哪些改动。确定实验版本数量,版本之间的关联和区别是什么。实验受众的流量在实验版本之间如何分配。
实验版本的数量和区别可以通过以下三个方面来确定:

  1. 版本数量取决于实验假设的数量,只选择高质量的实验假设。
  2. 明确实验类型,是优化型实验还是探索型实验。优化型实验:每个版本只改变单一变量,明确改动的影响。探索型实验:可以同时改变多个变量,设计全新的实验版本。
  3. 版本数量越大,则需要的总样本数量越大。

实验受众的流量在实验版本之间分配原则是保证每个实验版本的样本分流均匀随机。样本分流是否均匀随机,会极大影响实验结果的可信性。均匀随机的样本分流可消除一切外在因素的影响。保证对照组和实验组唯一区别就是实验改动。

相关推荐