偏最小二乘回归

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA Template:回归侧栏 偏最小二乘回归(Template:Lang-en, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应和独立变量之间最小方差超平面,而是通过投影预测变量观测变量到一个新空间来寻找一个线性回归模型。因为数据XY都会投影到新空间,PLS系列的方法都被称为双线性因子模型。當Y是分类數據時有「偏最小二乘判别分析(Template:Lang-en, PLS-DA)」,是PLS的一个变形。

偏最小二乘用于查找两个矩阵XY)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是吉洪诺夫正则化)。

偏最小二乘算法被用在偏最小二乘路径建模中,[1][2] 一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。[3]

偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold[4])是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归今天被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回歸最常用于社会科学、计量经济学、市场营销和战略管理。

底层模型

偏最小二乘的一般多元底层模型是

X=TP+E
Y=UQ+F

其中X是一个n×m的预测矩阵,Y是一个n×p的响应矩阵;TUn×l的矩阵,分别为X的投影(“X分数”、“组件”或“因子”矩阵)和Y的投影(“Y分数”);PQ分别是m×lp×l的正交载荷矩阵,以及矩阵EF是错误项,假设是独立同分布的随机正态变量。对XY分解来最大化TU之间的协方差

算法

偏最小二乘的许多变量是为了估计因子和载荷矩阵T,U,PQ。它们中大多数构造了XY之间线性回归的估计Y=XB~+B~0。一些偏最小二乘算法只适合Y是一个列向量的情况,而其它的算法则处理了Y是一个矩阵的一般情况。算法也根据他们是否估计因子矩阵T为一个正交矩阵而不同。[5][6][7][8][9][10] 最后的预测在所有不同最小二乘算法中都是一样的,但组件是不同的。

PLS1

PLS1是一个Y是向量时广泛使用的算法。它估计T是一个正交矩阵。以下是伪代码(大写字母是矩阵,带上标的小写字母是向量,带下标的小写字母和单独的小写字母都是标量):

 1  function PLS1(X,y,l)
 2  X(0)X
 3  w(0)XTy/||XTy||, an initial estimate of w.
 4  t(0)Xw(0) 
 5  for k = 0 to l
 6      tkt(k)Tt(k) (note this is a scalar)
 7      t(k)t(k)/tk
 8      p(k)X(k)Tt(k)
 9      qkyTt(k) (note this is a scalar)
10      if qk = 0
11          lk, break the for loop
12      if k<l
13          X(k+1)X(k)tkt(k)p(k)T
14          w(k+1)X(k+1)Ty
15          t(k+1)X(k+1)w(k+1)
16  end for
17  define W to be the matrix with columns w(0),w(1),...,w(l1).
    Do the same to form the P matrix and q vector.
18  BW(PTW)1q
19  B0q0P(0)TB
20  return B,B0

这种形式的算法不需要输入XY定中心,因为算法隐式处理了。这个算法的特点是收缩于X (减去tkt(k)p(k)T),但向量y不收缩,因为没有必要(可以证明收缩y和不收缩的结果是一样的)。用户提供的变量l是回归中隐藏因子数量的限制;如果它等于矩阵X的秩,算法将产生BB0的最小二乘回归估计。

扩展

2002年,一个叫做正交投影(Template:Lang-en, OPLS)的方法提出。在OPLS中,连续变量数据被分为预测的和不相关的信息。这有利于改进诊断,以及更容易解释可视化。然而,这些变化只是改善模型的可解释性,不是预测能力。[11] L-PLS通过3个连接数据块扩展了偏最小二乘回归。[12] 同样,OPLS-DA(Template:Lang-en, 判别分析)可能被应用在处理离散变量,如分类和生物标志物的研究。

软件实现

大多数统计软件包都提供偏最小二乘回归。Template:Citation needed R中的‘pls’包提供了一系列算法。[13]

参见

扩展阅读

参考文献

Template:Reflist

外部链接

Template:Authority control