吉洪诺夫正则化

来自testwiki
跳转到导航 跳转到搜索

Template:回归侧栏 吉洪诺夫正则化得名于安德烈·尼古拉耶维奇·吉洪诺夫,是在自变量高度相关的情景下估计多元回归模型系数的方法。[1]它已被用于许多领域,包括计量经济学、化学和工程学。[2]吉洪诺夫正则化为非适定性问题正则化中最常见的方法。在統計學中,本方法被称为脊回归回归岭回归Template:Lang);在机器学习領域則称为权重衰减权值衰减Template:Lang)。因為有不同的數學家獨立發現此方法,此方法又稱做吉洪诺夫-米勒法Template:Lang)、菲利浦斯-图米法Template:Lang)、受限线性反演Template:Lang),或线性正规化Template:Lang)。此方法亦和用在非线性最小二乘法莱文伯格-马夸特方法相关。它对于缓解线性回归中的多重共线性问题特别有用,这常见于有大量参数的模型中。[3]总的来说,这种方法提高了参数估计的效率,但也有可容忍的偏差(见偏差-方差权衡)。[4]

该理论于 1970 年由 Hoerl 与 Kennard 发表在《技术计量学》上的文章《岭回归:非正交问题的偏估计》及《岭回归:非正交问题中的应用》中首次提出。[5][6][1]这是对脊分析领域进行十年研究的结果。[7]

岭回归是通过创建岭回归估计量(RR)实现的。当线性回归模型具有多重共线(高度相关)的自变量时,岭回归对于最小二乘估计的不精确性是一种可能的解决方案。这提供了更精确的岭参数估计,因为它的方差和均方估计量通常小于先前推导的最小二乘估计量。[8][2]

当求解超定问题(即 Am×nx=b,m>n)时, 矩阵 A 的协方差矩阵 AHA 奇异或接近奇异时,利用最小二乘方法求出的结果 x^LS=(AHA)1AHb 会出现发散或对 x 不合理的逼近。为了解决这一问题,吉洪诺夫于 1963 年提出了利用正则化项修改最小二乘的代价函数的方法,修改后的代价函数如下:

J(x)=12(Axb22+λx22)

式中 λ0 称为正则化参数[9],这种方法被称为吉洪诺夫正则化。

概览

在最简单的情况下,向主对角线添加正元素可以缓解近奇异矩量矩阵 (𝐗𝖳𝐗) 问题,减少条件数。类似于最小二乘估计量,简单岭估计量可定义为

β^R=(𝐗𝖳𝐗+λ𝐈)1𝐗𝖳𝐲

其中 𝐲 是回归子,𝐗设计矩阵𝐈单位矩阵,岭参数 λ0 则是矩量矩阵对角线的恒定位移。[10]可以证明这个估计量是约束β𝖳β=c最小二乘问题的解,可表达为拉格朗日形式:

minβ(𝐲𝐗β)𝖳(𝐲𝐗β)+λ(β𝖳βc)

其说明,λ 不过是约束的拉格朗日乘数[11]通常要根据启发式准则选择 λ,以便不完全满足约束。特别是在约束 λ=0,即非约束约束(non-binding constrain),岭估计量退化为普通最小二乘法。下面讨论一种更通用的吉洪诺夫正则化方法。


历史

吉洪诺夫正则化是在许多不同背景下独立发明的。安德烈·吉洪诺夫[12][13][14][15][16]和 David L. Phillips 最早使用了这种方法。[17]有限维情形由采用统计方法的 Arthur E. Hoerl[18] 和 Manus Foster 完成,后者将其解释为克里金法滤子。[19]自 Hoerl 之后,这种方法在统计学文献中被称为岭回归,[20]以沿单位矩阵对角线的形状命名。


吉洪诺夫正则化

假设对已知矩阵 A 和向量 𝐛,我们希望找到向量 𝐱 使Template:Clarify

A𝐱=𝐛.

标准方法是普通最小二乘法线性回归。Template:Clarify但若没有 𝐱 满足方程或超过一个 𝐱 满足(即解不唯一),则待研究问题为不适定问题,普通最小二乘估计会导致方程组过定欠定。大多数现实世界的现象在前向问题中都具有低通滤性质Template:Clarify,其中 A𝐱 映射到 𝐛。因此在解决逆问题时,逆映射作为高通滤波器,具有放大噪声的不良趋势(特征值/奇异值在逆映射中最大,在正映射中最小)。此外,普通最小二乘隐式地消除了位于 A 的零空间的 𝐱 的重建版本的每个元素,而非允许将模型用作 𝐱 的先验。普通最小二乘寻找最小化残差平方和,可以紧凑地写作

A𝐱𝐛22,

其中 2 是欧几里得范数。

为优先选择具有所需性质的特定解,可在最小化中包含正则化项:

A𝐱𝐛22+Γ𝐱22

其中吉洪诺夫矩阵 Γ 需要适当选取,许多时候选为单位矩阵的标量倍数(Γ=αI),并优先考虑范数较小的解;这叫做 Template:Math 正则化[21]这之外,若认为基础向量几乎连续,则可使用高通运算(如递推关系式或加权离散傅里叶变换)以实现平滑。这种正则化改进了问题条件,从而实现了直接的数值求解。显式解表示为 x^,是这样得到:

x^=(AA+ΓΓ)1A𝐛.

正则化的效果可能因矩阵 Γ 的尺度而异。若择 Γ=0,如 (AA)1 存在,则简化为非正则化最小二乘解。

除线性回归外,Template:Math 正则化还有许多应用场景,如逻辑斯谛回归支持向量机分类[22]以及矩阵分解。[23]

广义吉洪诺夫正则化

对于 x 和数据误差的多元正态分布,可以应用变量的变换来简化上述情况。等价地,可以寻求最小化 x

AxbP2+xx0Q2,

其中 xQ2 表示加权范数平方 xQx(比较马哈拉诺比斯距离)。在贝叶斯解释中,Pb 的逆协方差矩阵x0x期望Qx 的逆协方差矩阵。吉洪诺夫矩阵为矩阵 Q=ΓΓ 的分解(如科列斯基分解),可视作白化变换器。

这个推广问题有最优解 x*,可以使用公式显式地写为

x*=(APA+Q)1(APb+Qx0),

或等效地,当 Q 非空:

x*=x0+(APA+Q)1(AP(bAx0)).

拉夫连季耶夫正则化

有时可以避免使用 A,这由米哈伊尔·拉夫连季耶夫指出。[24]例如,若 A 是对称正定矩阵,即 A=A>0,则其逆 A1 可以用来在广义吉洪诺夫正则化中构造加权范数平方 xP2=xA1x,则有最小化

AxbA12+xx0Q2

或等价地由常数项,

x(A+Q)x2x(b+Qx0).

该最小化问题有最优解 x*,可以紧凑地写作公式

x*=(A+Q)1(b+Qx0),

是广义吉洪诺夫问题的解,其中 A=A=P1

拉夫连季耶夫正则化对原吉洪诺夫正则化有利,因为拉夫连季耶夫矩阵 A+Q条件数比吉洪诺夫矩阵 AA+ΓΓ 小。

希尔伯特空间中的正则化

典型的离散线性非适定问题由积分方程的离散化引起,可以在原始的无穷维背景中实现吉洪诺夫正则化。上面,我们可以将 A 解释为希尔伯特空间上的紧算子xbA 的域与范围上的元素。A*A+ΓΓ自伴随有界可逆运算。


与奇异值分解和维纳滤波器的关系

Γ=αI 这个最小二乘解可用奇异值分解以特殊的方式分析。给定奇异值分解

A=UΣV

,奇异值 σi,则吉洪诺夫正则解可表为

x^=VDUb,

其中 D 的对角值为

Dii=σiσi2+α2

其余地方都是 0。这表明吉洪诺夫参数对正则化问题条件数的影响。对于广义情况,可以使用广义奇异值分解推导出类似的表示。[25]

最后,其与维纳滤波有关:

x^=i=1qfiuibσivi,

其中维纳权为 fi=σi2σi2+α2qA

确定吉洪诺夫因子

最佳正则化参数 α 一般未知,在实践中常常临时确定。一种可能的方法依赖于下面描述的贝叶斯解释。其他方法包括偏差原理、交叉验证、L 曲线法、[26]约束最大似然法和无偏预测风险估计。Grace Wahba 证明,这种最优参数用留一交叉验证最小[27][28]

G=RSSτ2=Xβ^y2[Tr(IX(XTX+α2I)1XT)]2,

其中 RSS残差平方和τ自由度

用前面的 SVD 分解,可以简化上述表达式:

RSS=yi=1q(uib)ui2+i=1qα2σi2+α2(uib)ui2,
RSS=RSS0+i=1qα2σi2+α2(uib)ui2,

τ=mi=1qσi2σi2+α2=mq+i=1qα2σi2+α2.

与概率表述的关系

逆问题的概率公式引入了(当所有不确定量都为正态量时)表示模型参数先验不确定性的协方差矩阵 CM,以及表示观测参数不确定性的协方差矩阵 CD[29]当它们都是对角各向同性矩阵(CM=σM2I),且 CD=σD2I,则逆理论方程简化为上述方程,且 α=σD/σM

贝叶斯解释

Template:Main 虽然选择这个正则化问题的解可能看起来是人为的,而且矩阵 Γ 似乎相当武断,但从贝叶斯的角度来看,这个过程是合理的。[30]注意,不适定问题必须引入额外假设才能得到唯一解。在统计学中,x先验分布有时被认为是多元正态分布。为简单起见,此处做出以下假设:均值为零;组分独立;组分标准差均为 σx。数据也受误差影响,并且假设 b 中的误差独立,均值为零,标准差为 σb。在这些假设下,根据贝叶斯定理,吉洪诺夫正则化解是给定数据和 x 的先验分布的最可能的解。[31]

正态性假设被同方差和无关误差假设代替,且若假设均值仍是零,则高斯-马尔可夫定理意味着解是最小无偏线性估计量[32]

另见

注释

Template:Notelist

参考文献

Template:Reflist

阅读更多

Template:Authority control