本博文已同步于知乎。
在多元线性回归分析中,当解释变量存在多重共线性时,普通最小二乘估计的效果会受到影响,而岭回归和广义岭回归作为常用的有偏估计方法,能有效改善这一问题。
在中国人民大学版本的《应用回归分析》中,只列出了岭回归的相关性质而没有证明,对广义岭回归的模型和性质也没有深入探讨。相关学习网站上也缺乏相关证明。
以下将整理岭回归和广义岭回归主要性质的证明过程,以明晰其理论依据。
一、岭回归
岭回归的参数估计为:。
1、线性性
在为常数时,
是最小二乘估计
的一个线性变换,也是
的函数。
实际情况下,的选取取决于
和
,从而线性性不成立。
2、有偏性
是
的有偏估计。
前两条性质在教材都有证明过程,在此省略。笔者注。
3、压缩性
对于任意和
,总有
。这个性质表明
可以看作
进行某种向原点的压缩。
这也是岭回归可以进行变量选择的理论依据。笔者注。
证明:
考虑回归模型。
将其写为典则形式:。其中,
。
为正交矩阵,是设计矩阵交叉乘积阵
的特征向量组成的矩阵。
由于,
则由式导出的
的最小二乘估计为:
。
可以证明,的最小二乘估计
与
有如下关系:
,等价地,
。
相应的岭估计分别为:和
。
因此有。得证。
□
4、更优性
必存在一个,使得
。
这个性质表明岭估计可通过选择合适的,在 “引入少量偏差” 和 “显著降低方差” 之间取得平衡,最终实现更优的整体估计效果(以 MSE 衡量),为岭估计在多重共线性问题中的应用提供了关键理论支撑。
证明:
根据式,有
.
因此只需证明存在,使得
。
其中,,
。
因此,均方误差可分解为:
对上述函数关于求导:
,
。
由于,
,所以
。
又因为和
在
上连续,
因此当且充分小时,有
,
即是减函数。
故存在,使得
,即
。得证。
□
5、对证明的说明
Q1:为什么要使用典则形式?
典则形式是将原多元线性回归模型通过正交变换转化得到的简化形式。
【典则形式】这个名称不是线性回归独有的,比如最优化问题也有它的【典则形式】,在语义上可以等同于【标准形式】。有时是定义的差别,有时仅是翻译的问题。笔者注。
使用典则形式的核心原因是简化(一般化)运算:
原模型中可能是病态矩阵(特征值差异大),而典则形式中
为对角阵,其逆矩阵、迹等运算更简单,便于推导估计量的性质(如岭估计的范数压缩性、均方误差等)。
Q2:岭回归就是岭估计吗?
这个问题可能会普遍地困扰一些初学者,尤其是对概念容易混淆的同学。
岭估计是【参数的估计方法 / 结果】,岭回归是【基于该估计构建的回归方程】。
二者是不同层面的概念,但的确是同一套步骤和理论框架下的。
在大多数教材中,这一部分知识都叫做【岭回归】,但几乎都只停留在【岭估计】的阶段,这是因为在完成岭估计后的步骤和线性回归完全相同。类似的情况还有【参数估计】和【经验回归方程】、【主成分分解/分析】和【主成分回归】等。笔者注。
二、广义岭回归
Hoerl 和 Kennard (1970) 提出了岭估计的一种推广形式, 称为广义岭估计 (Generalized ridge estimate)。
普通的岭回归估计是给样本相关阵的主对角线加上相同的常数,广义岭回归是给样本相关阵的主对角线加上各不相同的常数
。
广义岭回归的参数估计为:。
前一个等号为定义(通过典则形式表示),后一个等号见性质1。笔者注。
当的时候,广义岭估计就是岭估计等价。
1、线性性
广义岭估计可写作:,其中
,即广义岭估计是最小二乘估计的线性变换。
证明:
广义岭回归定义为:
而最小二乘估计,即
。代入上式得:
。
又因为,则:
。
令,可得
。得证。
□
2、有偏性
广义岭估计也是
的有偏估计。
证明:
,即只要
(等价于
),广义岭估计就是有偏估计。得证。
□
3、压缩性
对于任意的,总有
。
证明:
由广义岭估计的定义,其中
。
而,故
。
因此:。
由于是对角元小于 1 的对角矩阵(因
),
故,即
。得证。
□
4、更优性
存在,使得
。
证明:
均方误差。
其中,,偏差项
。
当充分小时,协方差项的减少量会大于偏差项的增加量。
仿照岭回归性质 4 的证明思路,通过对MSE关于的导数分析可知,
存在使得
。得证。
□
三、广义岭回归的意义
广义岭回归作为岭回归的推广,通过更灵活的参数设置实现对多重共线性问题的更精准处理,同时进一步优化估计性能,具体意义可从以下两个方面展开:
1. 提升参数压缩的灵活性
岭回归的核心是引入单一岭参数 (即
,I为单位矩阵),对所有回归系数(或典则系数
进行统一程度的压缩。
这种方式无法区分不同解释变量的多重共线性程度差异 —— 例如,对特征值极小(受多重共线性影响严重)的典则系数与特征值较大(受影响较小)的典则系数,压缩力度完全一致,可能导致 【过度压缩有用信息】或【压缩不足仍存共线性】的问题。
而广义岭回归将单一参数推广为对角矩阵
为对应第
个典则系数的岭参数),可针对每个典则系数
(对应原模型中不同解释变量的 【有效信息成分】)设置独立的压缩强度。
例如,对特征值 (共线性严重)的典则系数,可设置更大的
以更强压缩方差;对
较大(共线性轻微)的典则系数,设置更小的
以减少不必要的偏差,实现 “按需压缩”,更贴合实际数据中不同变量的共线性差异。
实际上,的选择方法和岭回归是相似的。笔者注。
2. 进一步优化均方误差(MSE)
估计量的均方误差由 “方差” 和 “偏差平方” 共同决定,岭回归通过引入单一 实现 “方差降低幅度覆盖偏差增加幅度”,而广义岭回归凭借多参数
的灵活性,能更精细地平衡二者关系:
- 对受多重共线性影响大的参数(对应小
),较大的
可显著降低其方差,且仅引入少量偏差(因该参数本身估计稳定性差,适度偏差对整体 MSE 影响小);
- 对受多重共线性影响小的参数(对应大
),较小的
可几乎保持其原有低偏差特性,同时避免方差过度增加。
这种【针对性调节】使广义岭回归理论上能实现比岭回归更小的 MSE,进一步提升估计的整体精度,尤其在解释变量共线性程度差异较大的场景中,优势更明显。
欢迎各位读者在评论区交流讨论。
评论前必须登录!
注册