2. 统计学习笔记之【岭回归与广义岭回归性质证明】

本博文已同步于知乎。

在多元线性回归分析中，当解释变量存在多重共线性时，普通最小二乘估计的效果会受到影响，而岭回归和广义岭回归作为常用的有偏估计方法，能有效改善这一问题。

在中国人民大学版本的《应用回归分析》中，只列出了岭回归的相关性质而没有证明，对广义岭回归的模型和性质也没有深入探讨。相关学习网站上也缺乏相关证明。

以下将整理岭回归和广义岭回归主要性质的证明过程，以明晰其理论依据。

一、岭回归

岭回归的参数估计为： $\\hat{\\beta}(k) = (X'X + kI)^{-1}X'y$ 。

1、线性性

在为常数时， $\\hat{\\beta}(k)=(X'X+kI)^{-1}X'y$ 是最小二乘估计 $\\hat{\\beta}$ 的一个线性变换，也是的函数。

实际情况下，的选取取决于和，从而线性性不成立。

2、有偏性

$\\hat{\\beta}(k)$ 是 $\\beta$ 的有偏估计。

$E(\\hat{\\beta}(k)) = (X'X + kI)^{-1}X'X\\beta$

$Cov(\\hat{\\beta}(k)) = \\sigma^2(X'X + kI)^{-1}X'X(X'X + kI)^{-1}$

前两条性质在教材都有证明过程，在此省略。笔者注。

3、压缩性

对于任意 k>0 和 $\\|\\hat{\\beta}\\|\\neq0$ ，总有 $\\|\\hat{\\beta}(k)\\|<\\|\\hat{\\beta}\\|$ 。这个性质表明 $\\hat{\\beta}(k)$ 可以看作 $\\hat{\\beta}$ 进行某种向原点的压缩。

这也是岭回归可以进行变量选择的理论依据。笔者注。

证明：

考虑回归模型 $Y = X\\beta+\\varepsilon$ 。

将其写为典则形式： $Y = Z\\alpha + \\varepsilon...(1)$ 。其中， $Z = X\\Phi,\\quad\\alpha=\\Phi'\\beta$ 。

$\\Phi$ 为正交矩阵，是设计矩阵交叉乘积阵 X'X 的特征向量组成的矩阵。

由于 $Z'Z=\\Phi'X'X\\Phi=\\Lambda$ ，

则由 (1) 式导出的 $\\alpha$ 的最小二乘估计为： $\\hat{\\alpha} = (Z'Z)^{-1}Z'Y = \\Lambda^{-1}Z'Y$ 。

可以证明， $\\beta$ 的最小二乘估计 $\\hat{\\beta}$ 与 $\\hat{\\alpha}$ 有如下关系： $\\hat{\\alpha}=\\Phi'\\hat{\\beta}$ ，等价地， $\\hat{\\beta}=\\Phi\\hat{\\alpha}$ 。

相应的岭估计分别为： $\\hat{\\alpha}(k) = (\\Lambda + k\\cdot I)^{-1}Z'Y$ 和 $\\hat{\\beta}(k) = \\Phi\\hat{\\alpha}(k)$ 。

因此有 $\\|\\hat{\\beta}(k)\\| = \\|\\hat{\\alpha}(k)\\| = \\left\\|(\\Lambda + k\\cdot I)^{-1}\\Lambda\\hat{\\alpha}\\right\\| < \\|\\hat{\\alpha}\\| = \\|\\hat{\\beta}\\|$ 。得证。

□

4、更优性

必存在一个 k>0 ，使得 $MSE(\\hat{\\beta}(k)) < MSE(\\hat{\\beta}(0))$ 。

这个性质表明岭估计可通过选择合适的，在 “引入少量偏差” 和 “显著降低方差” 之间取得平衡，最终实现更优的整体估计效果（以 MSE 衡量），为岭估计在多重共线性问题中的应用提供了关键理论支撑。

证明：

根据 (2) 式，有 $MSE(\\hat{\\beta}(k))=MSE(\\hat{\\alpha}(k))$ .

因此只需证明存在 k>0 ，使得 $MSE(\\hat{\\alpha}(k)) < MSE(\\hat{\\alpha}(0))$ 。

其中， $Cov(\\hat{\\alpha}(k)) = \\sigma^2(\\Lambda + kI)^{-1}\\Lambda(\\Lambda + kI)^{-1}$ ，

$E(\\hat{\\alpha}(k)) = (\\Lambda + kI)^{-1}Z'Z\\alpha = (\\Lambda + kI)^{-1}\\Lambda\\alpha$ 。

因此，均方误差可分解为：

$\\begin{aligned} MSE(\\hat{\\alpha}(k)) &= trCov(\\hat{\\alpha}(k)) + \\|E[\\hat{\\alpha}(k)] - \\alpha\\|^2 \\\\ &= \\sigma^2\\sum_{i=1}^{p}\\frac{\\lambda_i}{(\\lambda_i + k)^2} + k^2\\sum_{i=1}^{p}\\frac{\\alpha_i^2}{(\\lambda_i + k)^2} \\\\ &\\triangleq g_1(k) + g_2(k) \\triangleq g(k) \\end{aligned}$

对上述函数关于求导：

$g_1'(k) = -2\\sigma^2\\sum_{i=1}^{p}\\frac{\\lambda_i}{(\\lambda_i + k)^3}$ ， $g_2'(k) = 2k\\sum_{i=1}^{p}\\frac{\\lambda_i\\alpha_i^2}{(\\lambda_i + k)^3}$ 。

由于 g_1'(0)<0 ， g_2'(0)<0 ，所以 g'(0)<0 。

又因为 g_1(k) 和 g_2'(k) 在 $k\\geqslant 0$ 上连续，

因此当 k>0 且充分小时，有 $g'(k)=g_1'(k)+g_2'(k)<0$ ，

即 $g(k)=MSE(\\alpha^{k})$ 是减函数。

故存在 k>0 ，使得 g(k)<g(0) ，即 $MSE(\\hat{\\alpha}(k)) < MSE(\\hat{\\alpha}(0))$ 。得证。

□

5、对证明的说明

Q1：为什么要使用典则形式？

典则形式是将原多元线性回归模型通过正交变换转化得到的简化形式。

【典则形式】这个名称不是线性回归独有的，比如最优化问题也有它的【典则形式】，在语义上可以等同于【标准形式】。有时是定义的差别，有时仅是翻译的问题。笔者注。

使用典则形式的核心原因是简化（一般化）运算：

原模型中 X'X 可能是病态矩阵（特征值差异大），而典则形式中 $Z'Z = \\Lambda$ 为对角阵，其逆矩阵、迹等运算更简单，便于推导估计量的性质（如岭估计的范数压缩性、均方误差等）。

Q2：岭回归就是岭估计吗？

这个问题可能会普遍地困扰一些初学者，尤其是对概念容易混淆的同学。

岭估计是【参数的估计方法 / 结果】，岭回归是【基于该估计构建的回归方程】。

二者是不同层面的概念，但的确是同一套步骤和理论框架下的。

在大多数教材中，这一部分知识都叫做【岭回归】，但几乎都只停留在【岭估计】的阶段，这是因为在完成岭估计后的步骤和线性回归完全相同。类似的情况还有【参数估计】和【经验回归方程】、【主成分分解/分析】和【主成分回归】等。笔者注。

二、广义岭回归

Hoerl 和 Kennard (1970) 提出了岭估计的一种推广形式，称为广义岭估计 (Generalized ridge estimate)。

普通的岭回归估计是给样本相关阵的主对角线加上相同的常数，广义岭回归是给样本相关阵的主对角线加上各不相同的常数 k_j 。

广义岭回归的参数估计为： $\\hat{\\beta}(K) =L(\\Lambda + K)^{-1}L'X'y= (X'X + LKL')^{-1}X'y$ 。

前一个等号为定义（通过典则形式表示），后一个等号见性质1。笔者注。

当 K=kI 的时候，广义岭估计就是岭估计等价。