AB实验统计学基础：容易混淆的各种“差”

做 AB 实验分析时，最劝退新人的往往不是复杂的算法，而是那一堆长得像孪生兄弟的基础名词：方差、标准差、标准误差、均方误差……

这几个词在公式里看着都差不多，但在实际业务中，有的用来描述用户，有的用来描述实验，有的用来描述模型。搞混了它们，你的置信区间算不对，显著性结论也是错的。

本文把这些最基础、最容易混淆的统计学概念拎出来，做一个彻底的区分。

1. 方差 (Variance)

定义：
描述数据分布的离散程度。它衡量的是每一个数据点，距离整体平均值的“距离”的平方和的平均值。

数学公式：
$\\sigma^2 = \\frac{\\sum (X_i – \\mu)^2}{N}$

通俗理解：
方差是**“波动的平方”**。
想象你在打靶。如果你的弹孔密密麻麻挤在 10 环周围，方差就很小。如果弹孔散布在整个靶子上，方差就很大。
注意：因为是平方值，单位变了。如果数据是“元”，方差的单位是“元的平方”。这在物理意义上很难解释，所以我们通常更喜欢用标准差。

AB实验用途：
它是所有计算的基石。在计算 T 检验的分母时，第一步永远是先算出两组数据的方差。

深刻解读：
为什么要用“平方和”，而不是直接用“残差和”？
如果你直接计算 $(Xi−μ)(X_i – \\mu)$ 的总和，正向偏差（比均值大）和负向偏差（比均值小）会互相抵消，结果永远是 0。这无法反映离散程度。
为什么要用“平方”而不是“绝对值”？
虽然绝对值也能防止抵消，但平方函数是光滑可导的，这在数学推导（如最小二乘法、求极值）上比绝对值方便得多。此外，平方会放大离群值的影响，让模型对极端误差更敏感。

2. 标准差 (Standard Deviation, SD)

定义：
方差的算术平方根。

数学公式：
$\\sigma = \\sqrt{\\text{Variance}}$

通俗理解：
标准差就是**“平均波动幅度”**。
它的单位和原始数据一致。如果用户人均消费是 100 元，标准差是 20 元，意味着大部分用户的消费在 80 到 120 元之间。

AB实验用途：
主要用于数据探索 (EDA)。
在实验开始前，我们会看一眼数据的标准差，判断这群用户的行为是不是太离散了。如果标准差极大（比如长尾分布），可能需要先做截断（Capping）处理，否则实验很难显著。

深刻解读：
Z 分数 (Z-score) 的原始含义
Z 分数原本是用来衡量**“一个个体”**有多特立独行的。
公式： $\\frac{X – \\mu}{\\sigma}$ （除以标准差）

如果 Z = 1.96，说明这个用户处于 Top 2.5% 的极端位置。
在正态分布中，均值 ± 1.96个标准差的范围，覆盖了 95% 的用户个体数据。
注意：这描述的是数据的分布范围，而不是实验结果的可信范围。

3. 标准误差 (Standard Error, SE)

也被简称为标准误，这是最容易和标准差搞混的概念，也是 AB 实验的核心。

定义：
样本均值的抽样分布的标准差。
它衡量的不是“数据”有多散，而是**“如果你重复做实验，算出来的均值”**有多散。

数学公式：
$\\frac{\\sigma}{\\sqrt{n}}$
（标准差除以根号样本量）

通俗理解：
标准差描述的是个体的差异（小明和小王的差距）。
标准误差描述的是实验的精度（这次实验算出的均值，和上帝视角的真实均值之间的差距）。
标准误差，就是样本均值的标准差。

样本量 $n$ 越大，分母越大，SE 就越小。这意味着实验做得越准，测出的均值越可信。

AB实验用途：
计算置信区间和 P 值。
我们常说的“95% 置信区间”，就是均值 ± 1.96 * SE。
判断实验显不显著，靠的不是标准差，而是标准误差。

深刻解读：
它来自中心极限定理 (CLT)
中心极限定理告诉我们：不管原始数据长什么样，只要不断抽样算均值，这些**“均值”**组成的分布一定会趋向于正态分布。
而这个“均值分布”的宽度，就是标准误差。

为什么假设检验里用的是 SE而不是标准差(STD)？
在假设检验中，我们计算的 Z 统计量，公式变成了：
$\\frac{\\bar{X} – \\mu}{SE}$ （除以标准误差）

这里的 Z，衡量的是**“这次实验的均值”有多特立独行。标准误差，就是样本均值**的标准差。
所以，我们常说的 95% 置信区间，公式是均值 ± 1.96 * SE。
关键区别：标准差 (SD) 决定了用户长什么样；标准误差 (SE) 决定了实验结论准不准。

4. 综合方差 (Pooled Variance)

定义：
当我们要比较两个组（实验组 B 和对照组 A）时，需要把两组的方差“拼”在一起，估算一个整体的波动水平。

数学公式：
$S_p^2 = \\frac{(n_A-1)S_A^2 + (n_B-1)S_B^2}{n_A + n_B – 2}$

通俗理解：
这就是一个加权平均。
A 组有 A 组的波动，B 组有 B 组的波动。为了做 T 检验，我们需要一个统一的标尺。综合方差就是把两组的波动按样本量加权平均，算出一个“公用”的方差。

AB实验用途：

用于 T 检验 (Student’s t-test) 的分母计算。

用于最小样本量 (Sample Size Calculation) 的估算（Power Analysis）。在实验开始前，我们需要预估一个总体方差来决定跑多少流量，这时候用的就是综合方差。

深刻解读：
什么时候加权？什么时候直接相加？

综合方差 (Pooled Variance)：假设两组数据的总体方差是相等的（Homoscedasticity），我们只是为了算得更准，才把它们拼起来加权。这是教科书里标准 T 检验的做法。
Welch’s T-test（工业界更常用）：在现实业务中，实验组和对照组的方差往往明显不等（比如实验组上了个激进策略，导致用户行为两极分化，方差变大）。此时如果强行加权，P 值会算错。
所以，工业界 AB 实验工具（如 Python 的 ttest_ind(equal_var=False)）通常默认使用 Welch 公式。它不计算综合方差，而是直接把两组的标准误平方相加：
$SE_{\\Delta} = \\sqrt{\\frac{S_A^2}{n_A} + \\frac{S_B^2}{n_B}}$
呐，就是这个公式。它是计算 T 分数分母最稳健的方法，不管两组方差是否相等，用它都没毛病。不过注意看：
- 分子 $S^2$ 内部已经除过 $n - 1$ 了。
- 外面的分母 $n$ 是来自于“均值抽样分布”的中心极限定理（样本量越大，均值越稳）。这个 $n$ 代表的是样本数量的缩放效应，不需要减 1。

5. 均方误差 (Mean Squared Error, MSE)

定义：
预测值与真实值之差的平方的期望值。

数学公式：
$MSE=1n∑(Yi−Y^i)2 MSE = \\frac{1}{n} \\sum (Y_i – \\hat{Y}_i)^2$

通俗理解：
这是预测模型的考卷分数。
如果说方差是描述数据自己乱不乱，MSE 就是描述你猜得准不准。
如果你的预测模型（比如 CUPED 里的回归模型）完美预测了每一个点，MSE 就是 0。

AB实验用途：
主要出现在 CUPED (方差缩减) 或回归分析中。
CUPED 的核心目标，就是通过引入历史数据，让修正后指标的 MSE（或者说残差的方差）变得最小。

深刻解读：
MSE vs 方差
看公式，MSE 和方差长得非常像，都是“差值的平方和除以 N”。

方差减去的是均值（ $μ\\mu$ ），它衡量的是数据自身的离散度。
MSE 减去的是预测值（ $Y^\\hat{Y}$ ），它衡量的是模型拟合的好坏。
在 AB 实验中，MSE 更多出现在偏机器学习或相关性分析的场景下（如 CUPED 回归、因果推断模型），用来评估我们引入协变量后，到底消除了多少噪音。

6. 总体方差 VS 样本方差

这是统计推断中最基础但也最容易被忽视的区别。

定义区别：

总体方差 ( $σ2\\sigma^2$ )：上帝视角。假设你能获取全人类的数据，算出来的那个方差。
样本方差 ( $S^2$ )：凡人视角。你只抓取了 10 万个用户（样本），算出来的这群人的方差。

AB实验中的现实：
在做 AB 实验时，我们想推断的是“总体”（所有潜在用户）的反应。但我们永远无法知道“总体”的真实方差。
我们手里有的，永远只有“样本方差”。
所以，我们在做假设检验（T-test）时，实际上是用样本方差去代替/估计总体方差。

深刻解读：
为什么样本方差分母是 N-1？（无偏估计与自由度）
当你用样本均值去估算总体均值时，你已经用掉了一个信息量（自由度）。
如果你计算样本方差时分母还用 $N$ ，算出来的结果会比真实总体方差偏小（有偏估计）。
为了纠正这个偏差，统计学家把分母改成了 $N - 1$ 。这被称为贝塞尔校正 (Bessel’s Correction)。
这就好比你用一把尺子去量东西，因为尺子本身可能有误差，所以我们故意把读数放大一点点，以确保不会低估真实的波动。

总结：一张表看懂

名词符号核心含义谁变大它变小？典型场景

方差	$σ2\\sigma^2$	数据的波动（平方级）	数据越集中	中间计算过程
标准差	$σ\\sigma$	数据的波动（原始量级）	数据越集中	看用户画像分布
标准误差	$SE$	均值的测算精度	样本量 $n$ 越大	算 P 值、置信区间
综合方差	$S_p^2$	两组数据的加权波动	/	T 检验公式分母、算最小样本量
均方误差	$MSE$	预测准不准	模型越好	CUPED、回归分析

避坑指南：

老板问“用户差异大不大”，看标准差。
老板问“实验结果准不准”、“显不显著”，看标准误差。
做 CUPED 降噪时，关注 MSE。
公式里分母是 $N - 1$ 时，说明我们在用样本估算总体。

搞清楚这几个“差”，AB 实验的统计学门槛你就跨过去了一半。

AB实验统计学基础：容易混淆的各种“差”

1. 方差 (Variance)

2. 标准差 (Standard Deviation, SD)

3. 标准误差 (Standard Error, SE)

4. 综合方差 (Pooled Variance)

5. 均方误差 (Mean Squared Error, MSE)

6. 总体方差 VS 样本方差

总结：一张表看懂

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

1. 方差 (Variance)

2. 标准差 (Standard Deviation, SD)

3. 标准误差 (Standard Error, SE)

4. 综合方差 (Pooled Variance)

5. 均方误差 (Mean Squared Error, MSE)

6. 总体方差 VS 样本方差

总结：一张表看懂

相关推荐

评论 抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

评论抢沙发