A/B测试

A/B测试

我们先从一个最日常的场景说起。假设你开了一家网店，想把“购买按钮”从绿色改成红色，但不确定哪种颜色能让更多人点击。如果凭感觉直接改，万一红色反而让点击率下降，就会损失收入。

这时候，“A/B测试”就是解决这种不确定性的科学方法。

A/B测试，简单说就是同时试验两个版本，看哪个效果更好。

关键是：两个版本在同一时间、对随机分组的相似用户同时运行。这样，除了按钮颜色不同，其他一切条件（用户类型、时间段、天气等）都尽量保持一致。最后，哪个按钮点击率高，答案就一目了然。

想象你想知道“施肥是否能让番茄长得更高”。

A/B测试就是这个逻辑，只不过把“番茄高度”换成“按钮点击率”，把“施肥”换成“改红色按钮”。

实际做一次A/B测试，通常分5步：

假设红色按钮点击率高了5%，但可能只是运气好。比如今天正好来了更多活跃用户。

怎么办？用统计显著性来判断。常见标准是“95%置信度”，意思是：如果重复做这个实验100次，有95次你会看到红色按钮确实更好（不是偶然）。

许多A/B测试工具会自动计算这个值（通常用p值表示，p<0.05表示显著）。如果你的结果p=0.03，恭喜，可以放心把按钮改成红色。

Dropbox早期发现，用户完成“上传文件”动作后，留存率更高。他们想提高上传完成率。

结果：B版本上传完成率提升了约12%，p值小于0.01。这个改动后来被永久采用。

当你有了更多流量，可以同时测试多个假设，比如：

这叫A/B/n测试。但注意：每组样本量会摊薄，所以需要更大总流量才能得出显著结论。

你已经了解了A/B测试：它是“增长黑客”最基础的验证工具——没有它，所有优化都是瞎蒙；有了它，你可以用数据代替直觉，小步快跑地持续改进产品。