查看“︁主成分回归”︁的源代码
←
主成分回归
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{回归侧栏}} [[统计学]]中,'''主成分回归'''(PCR)是一种基于[[主成分分析]](PCA)的[[回归分析]]方法。更确切地说,PCR用于[[估计]]标准[[线性回归]]模型中的未知参数。 PCR不是直接将因变量与解释变量进行回归,而是将解释变量的[[主成分分析|主成分]]作为回归量。一般只使用所有主成分的一个子集用于回归,因此PCR是一种[[正则化 (数学)|正则化]]过程,也是一种[[收缩估计量]]。 [[方差]]更高的主成分(基于解释变量样本[[协方差矩阵|方差-协方差矩阵]]对应更大特征值的特征向量)被选为回归量。不过,要[[预测]]结果,低方差的主成分可能也很重要,在某些情况下甚至更重要。<ref>{{Cite journal | first = Ian T. |last=Jolliffe | title = A note on the Use of Principal Components in Regression | journal = [[Journal of the Royal Statistical Society, Series C]] | volume = 31 | issue = 3 | year = 1982 | pages = 300–303 | doi = 10.2307/2348005 | jstor = 2348005 }}</ref> PCR的主要用途之一是克服[[多重共线性]]问题,这是说多个解释变量接近[[共线 (几何)|共线]]。<ref>Dodge, Y. (2003) ''The Oxford Dictionary of Statistical Terms'', OUP. {{isbn|0-19-920613-9}}</ref>PCR可在回归步骤中排除一些低方差主成分,从而恰当地处理这种情况。另外,由于通常只对所有主成分的一个子集进行回归,PCR可大幅降低基础模型的参数数,从而[[降维]]。这在使用[[高维统计|高维协变量]]时尤为有用。通过适当选择用于回归的主成分,PCR还可根据假定模型有效地[[预测]]输出。 ==原理== PCR法可总结为三步: : '''1.''' <math> \;\; </math>对解释变量的测得[[设计矩阵]]进行[[主成分分析|PCA]],得到主成分,然后(通常)根据一些适当标准,从获得的主成分中选择子集,供进一步使用。 : '''2.''' <math> \;\; </math>用[[普通最小二乘法]],在选定主成分上[[线性回归]]输出的测得向量,得到估计回归系数向量([[向量空间的维数|维数]]等于选定的主成分数)。 : '''3.''' <math> \;\; </math>用[[主成分分析|PCA负载]](与选定主成分对应的特征向量)将该向量[[变换矩阵|变换]]回实际协变量标量,得到'''最终PCR估计量'''(维数等于协变量总数),以估计表征原始模型的回归系数。 ==方法细节== '''数据表示:'''令<math> \mathbf{Y}_{n \times 1} = \left(y_1,\ldots,y_n\right)^T </math>表示观测的输出,<math> \mathbf{X}_{n \times p} = \left(\mathbf{x}_1,\ldots,\mathbf{x}_n\right)^T </math>表示测得协变量对应的[[设计矩阵]],其中<math> n </math>、<math> p\ (n \geq p)</math>表示测得[[样本]]的大小和协变量数量。<math> \mathbf{X} </math>的每行<math> n </math>表示<math> p </math>维协变量的一组观测值,<math> \mathbf{Y} </math>的相应项表示相应的观测结果。 '''数据预处理:'''假设<math> \mathbf{Y} </math>及<math> \mathbf{X} </math>的<math> p </math>列已经[[中心化矩阵|中心化]],经验均值均为0。中心化这步至关重要(至少对<math> \mathbf{X} </math>的列而言),因为PCR将对<math> \mathbf{X} </math>使用的PCA on <math> \mathbf{X} </math>对数据是否中心化十分敏感。 '''基础模型:'''在中心化之后,对<math> \mathbf{X} </math>上的<math> \mathbf{Y} </math>的标准[[高斯-马尔可夫定理|高斯-马尔可夫]][[线性回归]]模型可表为:<math> \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \;</math>其中<math> \boldsymbol{\beta} \in \mathbb{R}^p </math>表示回归系数的未知参数向量,<math> \boldsymbol{\varepsilon} </math>表示随机误差向量,<math> \operatorname{E}\left(\boldsymbol{\varepsilon}\right) = \mathbf{0} \; </math>、<math> \; \operatorname{Var}\left(\boldsymbol{\varepsilon}\right) = \sigma^2I_{n \times n} </math>则表示未知[[方差]]参数<math> \sigma^2 > 0 \;\; </math> '''目标:'''主要目标是根据数据,为参数<math> \boldsymbol\beta </math>获得有效[[估计量]]<math> \widehat{\boldsymbol\beta} </math>。一种常用方法是[[普通最小二乘法]],假设<math> \mathbf{X} </math>的[[秩_(线性代数)|列满秩]],从而有<math> \boldsymbol{\beta} </math>的[[估计量的偏差|无偏估计量]]:<math> \widehat{\boldsymbol\beta}_\mathrm{ols} = (\mathbf{X}^{T}\mathbf{X})^{-1} \mathbf{X}^{T}\mathbf{Y} </math>。PCR是另一种估计<math> \boldsymbol{\beta} </math>的方法。 '''PCA步骤:'''PCR首先要对中心化矩阵<math> \mathbf{X} </math>进行PCA。为此,令<math> \mathbf{X} = U \Delta V^{T} </math>表示<math> \mathbf{X} </math>的[[奇异值分解]],其中<math> \Delta_{p \times p} = \operatorname{diag}\left[\delta_1,\ldots,\delta_p\right] \ ( \delta_1 \geq \cdots \geq \delta_p \geq 0 )</math>表示<math> \mathbf{X} </math>的非负奇异值,<math> U_{n \times p} = [\mathbf{u}_1,\ldots,\mathbf{u}_p] </math>、<math> V_{p \times p} = [\mathbf{v}_1,\ldots,\mathbf{v}_p] </math>都是[[正交规范性|正交规范集]]向量,列向量分别表示<math> \mathbf{X} </math>的左右奇异向量。 '''主成分:'''<math> V \Lambda V^T </math>给出了<math> \mathbf{X}^T \mathbf{X} </math>的[[特征分解|谱分解]],其中<math> \Lambda_{p \times p} = \operatorname{diag}\left[\lambda_1,\ldots,\lambda_p\right] = \operatorname{diag}\left[\delta_1^2,\ldots,\delta_p^2\right] = \Delta^2 \ ( \lambda_1 \geq \cdots \geq \lambda_p \geq 0)</math>表示<math> \mathbf{X}^T \mathbf{X} </math>的非负特征值(也叫做主值),<math> V </math>的列则表示对应的特征向量的正交规范集。接着,<math> \mathbf{X}\mathbf{v}_j </math>、<math> \mathbf{v}_j </math>分别表示第<math> j </math>个主成分与跟第<math> j </math>大的主成分值<math> \forall j \in \{1,\ldots,p\} \lambda_j </math> 相对应的第<math> j </math>个主成分方向(或PCA负载)。 '''衍生协变量:'''<math>\forall k \in \{1,\ldots,p\}</math>,记<math> V_{k} </math>为<math> p \times k </math>矩阵,其正交列包含<math> V </math>的前<math> k </math>列。记<math> W_k = \mathbf{X}V_{k} = [\mathbf{X}\mathbf{v}_1,\ldots,\mathbf{X}\mathbf{v}_k] </math>为以前<math> k </math>个主成分为列的<math> n \times k </math>矩阵。<math> W </math>可看做是用[[变换矩阵|变换]]后的协变量<math> \mathbf{x}_i^k = V_k^T \mathbf{x}_i \in \mathbb{R}^{k} </math>得到的设计矩阵,而非原始协变量<math> \mathbf{x}_i \in \mathbb{R}^p \;\; \forall \;\; 1 \leq i \leq n </math>。 '''PCR估计量:'''记<math> \widehat{\gamma}_k = (W_k^T W_k)^{-1} W_k^T \mathbf{Y} \in \mathbb{R}^k </math>表示 响应向量<math> \mathbf{Y} </math>在设计矩阵<math> W_{k} </math>上用[[普通最小二乘法]]得到的估计回归系数向量。那么,<math>\forall k \in \{1,\ldots,p\}</math>都有基于前<math> k </math>个主成分的<math> \boldsymbol{\beta} </math>的最终PCR估计量:<math> \widehat{\boldsymbol{\beta}}_k = V_k \widehat{\gamma}_k \in \mathbb{R}^p </math> ==PCR估计量的基本特征与应用== ===两个基本性质=== 得到PCR估计量的拟合过程包括将响应向量在导出设计矩阵<math> W_{k} </math>上回归。后者<math>\forall k \in \{1,\ldots,p\}</math>都有[[正交规范性|正交]]列,因为主成分互相正交。因此在回归中,对作为协变量的<math> k </math>个选定主成分联合进行多元线性回归,相当于对作为协变量的<math> k </math>个选定主成分分别进行独立单变量线性回归。 当选择所有主成分回归(<math> k = p </math>),PCR估计量便等同于[[普通最小二乘法]]估计量。因此<math> \widehat{\boldsymbol{\beta}}_{p} = \widehat{\boldsymbol{\beta}}_\mathrm{ols} </math>。从<math> W_{p} = \mathbf{X}V_{p} = \mathbf{X}V </math>和<math> V </math>是[[正交矩阵]]的观测事实,不难看出这点。 ===方差降低=== <math>\forall k \in \{1,\ldots,p\} </math>,<math> \widehat{\boldsymbol{\beta}}_{k}</math>的方差由下式给出: : <math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \sigma^2 \; V_k (W_k^T W_k)^{-1} V_k^T = \sigma^2 \; V_k \; \operatorname{diag}\left(\lambda_1^{-1},\ldots,\lambda_k^{-1}\right) V_k^{T} = \sigma^2 \sideset{}{}\sum_{j = 1}^k \frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.</math> 特别地: :<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{p}) = \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \sigma^2 \sideset{}{}\sum_{j = 1}^{p}\frac{\mathbf{v}_j\mathbf{v}_j^{T}}{\lambda_j}.</math> 因此<math>\forall k \in \{1,\ldots, p-1\} </math>都有: :<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_{k}) = \sigma^2 \sideset{}{}\sum_{j = k+1}^p\frac{\mathbf{v}_j\mathbf{v}_j^T}{\lambda_j}.</math> 因此<math>\forall k \in \{1,\ldots, p\} </math>都有: :<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math> 其中<math> A \succeq 0 </math>,表明对称方阵<math> A </math>是非负定的。于是,与普通最小二乘估计的线性形式相比,任何给定PCR估计量的线性形式都有更低的方差。 ===解决多重共线性问题=== [[多重共线性]]条件下,指多个协变量高度[[相关 (概率论)|相关]],因此可从其他协变量以非平凡的精度进行线性预测。因此,设计矩阵<math> \mathbf{X} </math>与这些协变量对应的列趋于线性相关,于是<math> \mathbf{X} </math>趋于秩亏,失去列满秩结构。更定量地讲,这时<math> \mathbf{X}^{T}\mathbf{X} </math>的较小特征值会非常接近<math> 0 </math>。上述方差表达式表明,极小特征值对最小二乘估计量产生最大的[[方差扩大因子|方差扩大效应]],因此在接近0时会严重破坏估计量的稳定性。这可以通过排除极小特征值对应的主成分得到的PCR估计,得到有效解决。 ===降维=== PCR也可用于[[降维]]:记<math>L_k</math>为任意列正交的<math> p \times k (\forall k \in \{1,\ldots,p\})</math>矩阵。假设现在我们想通过[[秩 (线性代数)|秩]]<math> k </math>[[线性变换]]<math> L_k \mathbf{z}_i </math>(<math> \mathbf{z}_i \in \mathbb{R}^{k} (1 \leq i \leq n) </math>)来[[近似]]每个协变量观测值<math> \mathbf{x}_i </math>,那么可以证明 :<math> \sum_{i=1}^{n} \left \|\mathbf{x}_i - L_{k}\mathbf{z}_i \right \|^2 </math> 在<math>L_k = V_k</math>(前<math>k</math>个主成分方向为列组成的矩阵)和<math>\mathbf{z}_i = \mathbf{x}_{i}^{k} = V_{k}^{T}\mathbf{x}_i</math>(对应的<math>k</math>维衍生协变量)时取最小值。因此<math>k</math>维主成分提供了观测设计矩阵<math> \mathbf{X} </math>的秩为<math> k </math>的最佳[[线性近似]],对应的重建[[误差]]为 :<math> \sum_{i=1}^{n} \left \|\mathbf{x}_i - V_{k}\mathbf{x}_{i}^{k} \right \|^2 = \begin{cases} \sum_{j = k+1}^{n} \lambda_j & 1 \leqslant k < p \\ 0 & k = p \end{cases} </math> 因此,可通过选择<math> k </math>值(即要使用的主成分数),通过对<math> \mathbf{X}^{T}\mathbf{X}</math>的特征值累积和进行适当阈值处理,实现[[降维]]。由于较小特征值对累积和的贡献并不大,因此只要不超过所需的阈值限制,便可放弃相应的主成分。同样标准也可用于解决[[多重共线性]]问题:只要保持阈值限制,就可忽略较小特征值对应的主成分。 ===正则化效应=== 由于PCR估计量通常只使用一部分主成分进行回归,因此可视作某种[[正则化 (数学)|正则化]]。更具体地说,<math>\forall 1 \leqslant k < p</math>,PCR估计量<math> \widehat{\boldsymbol{\beta}}_k </math>都可表示以下[[约束优化|约束最小化]]问题的正则化解: : <math>\min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \left \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_* \right \|^2 \quad \text{ subject to } \quad \boldsymbol{\beta}_* \perp \{\mathbf{v}_{k+1}, \ldots, \mathbf{v}_p\}.</math> 约束可等价写作 :<math> V_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0},</math> 其中 :<math> V_{(p-k)} = \left[\mathbf{v}_{k+1},\ldots,\mathbf{v}_p\right]_{p\times (p-k)}. </math> 因此,当择一部分主成分回归时,所得PCR估计量是基于硬形式的[[正则化 (数学)|正则化]],将所得解约束在选定主成分方向的[[列空间]],因此限制其与被排除方向正交。 ===一类正则化估计量中PCR的最优性=== 给定如上述的约束最小化问题,考虑下面的推广: : <math> \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2 \quad \text{ subject to } \quad L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0} </math> 其中<math> L_{(p-k)} </math>表示任何阶为<math> p \times (p-k)\ (1 \leqslant k < p)</math>的列满秩矩阵。令<math> \widehat{\boldsymbol{\beta}}_L </math>表示对应的解,则 :<math> \widehat{\boldsymbol{\beta}}_L = \arg \min_{\boldsymbol{\beta}_{*} \in \mathbb{R}^{p}} \|\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}_*\|^2 \quad \text{ subject to } \quad L_{(p-k)}^{T}\boldsymbol{\beta}_* = \mathbf{0}.</math> 则约束矩阵<math>L_{(p-k)}</math>的最优选择就是相应估计量<math>\widehat{\boldsymbol{\beta}}_{L}</math>达到最小预测误差:<ref name="Park (1981)">{{Cite journal | author = Sung H. Park | title = Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses | url = https://archive.org/details/sim_technometrics_1981-08_23_3/page/289 | journal = [[Technometrics]] | volume = 23 | issue = 3 | year = 1981 | pages = 289–295 | doi = 10.2307/1267793}}</ref> : <math> L^{*}_{(p-k)} = V_{(p-k)} \Lambda_{(p-k)}^{1/2},</math> 其中 :<math> \Lambda_{(p-k)}^{1/2} = \operatorname{diag} \left(\lambda_{k+1}^{1/2},\ldots,\lambda_p^{1/2}\right).</math> 很明显,由此得到的最优估计量<math> \widehat{\boldsymbol{\beta}}_{L^{*}} </math>就是基于前<math> k </math>个主成分的PCR估计量<math> \widehat{\boldsymbol{\beta}}_{k} </math>。 ===效率=== 由于普通最小二乘估计量对<math> \boldsymbol{\beta} </math>无偏,所以有 :<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_\mathrm{ols}),</math> 其中MSE表示[[均方误差]]。现在,若对某个<math> k \in \{1,\ldots,p\} </math>,我们还有<math> V_{(p-k)}^T\boldsymbol{\beta} = \mathbf{0} </math>,那么对应的<math> \widehat{\boldsymbol{\beta}}_k </math>也将是<math>\boldsymbol{\beta} </math>的无偏估计量,就有 :<math> \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) = \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_k).</math> 我们已经知道 :<math>\forall j \in \{ 1, \ldots, p\}: \quad \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_j) \succeq 0,</math> 这就意味着对特定的<math>k</math>有: :<math> \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{MSE} (\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math> 所以,用均方误差为标准的话,对应的<math>\widehat{\boldsymbol{\beta}}_{k}</math>是比<math>\widehat{\boldsymbol{\beta}}_\mathrm{ols}</math>更有效的<math>\boldsymbol{\beta}</math>的估计量。另外,与<math> \widehat{\boldsymbol{\beta}}_\mathrm{ols} </math>的相同线性形式相比,对应<math>\widehat{\boldsymbol{\beta}}_{k}</math>的任何给定线性形式的均方误差也更小。 现在假设,对给定的<math> k \in \{1,\ldots,p\}, V_{(p-k)}^{\boldsymbol{\beta}} \neq \mathbf{0} </math>,那么对应的<math> \widehat{\boldsymbol{\beta}}_k </math>对<math> \boldsymbol{\beta} </math>就是有偏的。但由于 :<math> \forall k \in \{ 1, \ldots, p\}: \quad \operatorname{Var}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{Var}(\widehat{\boldsymbol{\beta}}_k) \succeq 0,</math> <math> \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_\mathrm{ols}) - \operatorname{MSE}(\widehat{\boldsymbol{\beta}}_k) \succeq 0 </math>仍然是可能的,尤其是当<math> k </math>使被排除主成分对应较小特征值时,从而导致较小的偏。 为确保PCR作为<math> \boldsymbol{\beta}</math>估计值的效率与性能,Park (1981) <ref name="Park (1981)"/>提出了以下用于回归的主成分选择标准:当且仅当<math>\lambda_j < (p\sigma^2)/ \boldsymbol{\beta}^T \boldsymbol{\beta}</math>时,排除第<math> j </math>个主成分。在实际应用中,还需要估计未知的模型参数<math> \sigma^2 </math>与<math> \boldsymbol{\beta} </math>。总的来说,可以用从原始完整模型得到的无约束最小二乘法进行估计。Park (1981)提供了一套稍加修改的估计值,可能更适合这一目的。<ref name="Park (1981)" /> 与基于<math> \mathbf{X}^T\mathbf{X} </math>特征值累积和的标准不同,上述标准可能更适合解决多重共线性问题与降维,实际上是试图让输出和协变量都参与到回归的主成分选择之中,以提高PCR估计值的预测与估计效率。其他目的相似的选择主成分方法基于[[交叉验证]],或[[马洛斯CP值]]等。通常,主成分的选择还基于其与输出的[[相关 (概率论)|相关程度]]。 ===PCR的收缩效应=== 总的来说,PCR本质上是[[收缩估计]]量,通常保留了高方差主成分(对应<math> \mathbf{X}^T\mathbf{X} </math>的较大特征值)作为模型中的协变量,并舍弃剩余的低方差成分(对应<math> \mathbf{X}^T\mathbf{X} </math>的较小特征值)。这就对低方差成分产生了分离收缩,清除了其在原始模型中的贡献。相对地,[[岭回归]]估计量则通过其构造中固有的正则化参数,产生平滑收缩。虽然它不会舍弃任何一个成分,但会以连续的方式对所有成分产生收缩效应,因此低方差成分的收缩程度高于高方差成分。Frank & Friedman (1993)<ref name="Frank and Friedman (1993)">{{Cite journal |author1=Lldiko E. Frank |author2=Jerome H. Friedman |name-list-style=amp | title = A Statistical View of Some Chemometrics Regression Tools |url=https://archive.org/details/sim_technometrics_1993-05_35_2/page/109 | journal = [[Technometrics]] | volume = 35 | issue = 2 | year = 1993 | pages = 109–135 | doi = 10.1080/00401706.1993.10485033 }}</ref>认为,就预测本身而言,与具有离散收缩效应的PCR估计量相比,岭估计量具有平滑收缩效应,可能是更好的选择。 此外,主成分是从<math> \mathbf{X} </math>的[[特征分解]]中得到的,只涉及解释变量的观测值。因此,以这些主成分为协变量得到的PCR估计量不一定具有令人满意的预测性能。[[偏最小二乘回归]](PLS)估计量与之比较相似,试图通过自身的构造解决这问题。PLS也用低维的衍生协变量,但是在输出和协变量中获得的。PCR在协变量空间中寻找高方差方向,而PLS则寻找对预测结果最有用的方向。 2006年,有人提出了经典PCR的一种变体,即'''监督PCR'''。<ref name="Bair et al. (2006)">{{Cite journal |author1=Eric Bair |author2=Trevor Hastie |author3=Debashis Paul |author4=Robert Tibshirani | title = Prediction by Supervised Principal Components | journal = [[Journal of the American Statistical Association]] | volume = 101 | issue = 473 | year = 2006 | pages = 119–137 | doi = 10.1198/016214505000000628 |citeseerx=10.1.1.516.2313 }}</ref>这种方法的精神与PLS类似,试图根据结果和协变量标准,获得低维衍生协变量。首先进行简单线性回归(单变量回归),其中结果向量分别对<math> p </math>个协变量逐一回归。然后,对某个<math> m \in \{1,\ldots, p\}</math>,选择与结果最相关的<math> m </math>个协变量(基于对应估计回归系数的显著程度)供进一步使用。然后进行上述传统PCR,但只基于与选定协变量观测值对应的<math> n \times m </math>设计矩阵。使用的协变量数:<math> m \in \{1,\ldots, p\}</math>及随后使用的主成分数:<math> k \in \{1,\ldots, m\}</math>一般通过[[交叉验证]]选择。 ==核设置的推广== 上述经典PCR法基于经典[[主成分分析|PCA]],并考虑了根据协变量的线性回归结果预测模型。这方法可以很容易地推广到[[核方法|核机]]设置,即回归函数不一定是协变量的线性函数,而可以属于与任意(可以非线性)对称正定核有关的[[再⽣核希尔伯特空间]]。[[正定核|核函数]]选为线性核时便有[[线性回归]]模型,是这种设置的特例。 总的来说,在[[核方法|核机]]设置下,协变量向量首先被[[映射]]到所选[[正定核|核函数]]的高维(可能是无限维)特征空间中。这样得到的映射叫做特征映射,每个坐标(也叫做特征元)对应协变量的一个特征(无所谓线性与否)。然后,假设回归函数是这些特征元的[[线性组合]],则核机设置依赖的回归模型本质上是线性的,但前提是预测量不再是原始协变量集,而由特征映射所得协变量的特征元的向量(可能是无限维)给出。 但[[核方法|核技巧]]实际上可以让我们在特征空间中操作,而无需明确计算特征映射。事实证明,只需计算观测协变量向量的特征映射之间的逐对[[内积]]即可,是由在相应协变量向量对上估值的核函数值简单给出的。因此,得到的逐对内积可用<math> n \times n </math>对称非负定矩阵(也称为[[核主成分分析|核矩阵]])表示。 核机设置中的PCR现在可用以下方式实现:首先将核矩阵(如K)相对于特征空间适当中心化,再对中心化核矩阵(如K')进行[[核主成分分析]],得到K'的特征分解。然后,核PCR(通常)会从获得的所有特征向量中(一般通过[[交叉验证]])选择一子集,在其上进行结果向量的标准[[线性回归]]。估计的回归系数(维度与选定特征向量数相同)与响应所选特征向量一起用于预测未来的观测结果。[[机器学习]]中,这技巧也被称为“谱回归”。 显然,核PCR对K'的特征向量具有离散收缩,与前面讨论过的经典PCR对主成分的离散收缩十分相似。然而,与核相关的特征映射可能是无限维的,因此相应的主成分及其方向也可能是无限维的。所以,在核机设置下,这些量实际上往往难以处理。核PCR基本上是基于相关核矩阵的[[特征分解|谱分解]],以考虑等效的对偶表述,来解决这一问题。在线性回归模型下(对应于选择核函数为线性核),这相当于考虑对应的<math> n \times n </math>核矩阵<math> \mathbf{X}\mathbf{X}^T </math>的谱分解,然后将结果向量回归到得到的<math> \mathbf{X}\mathbf{X}^T </math>的选定特征向量子集上。很容易看出,这等同于将结果向量回归到相应主成分上(这时是有限维),正如经典PCR定义的那样。因此,对线性核,基于对偶表示的核PCR完全等同于基于原始公式的经典PCR。然而,对任意(可能非线性)核,由于相关特征映射可能的无限维,这种原始公式可能会变得难以处理。因此,这时经典PCR实际上不可行,但基于对偶表示的核PCR仍有效,且在计算上可推广。 ==另见== * [[主成分分析]] * [[偏最小二乘回归]] * [[吉洪诺夫正则化]] * [[典型相关]] * [[戴明回归]] * [[平方总和]] ==参考文献== {{Reflist}} ==阅读更多== * {{cite book |last=Amemiya |first=Takeshi |author-link=Takeshi Amemiya |year=1985 |title=Advanced Econometrics |publisher=Harvard University Press |pages=[https://archive.org/details/advancedeconomet00amem/page/57 57–60] |isbn=978-0-674-00560-0 |url=https://archive.org/details/advancedeconomet00amem/page/57 }} * {{cite book |last=Theil |first=Henri |author-link=Henri Theil |title=Principles of Econometrics |publisher=Wiley |year=1971 |pages=[https://archive.org/details/principlesofecon0000thei/page/46 46–55] |isbn=978-0-471-85845-4 |url=https://archive.org/details/principlesofecon0000thei/page/46 }} [[Category:回归分析]] [[Category:因子分析]]
该页面使用的模板:
Template:Cite book
(
查看源代码
)
Template:Cite journal
(
查看源代码
)
Template:Isbn
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:回归侧栏
(
查看源代码
)
返回
主成分回归
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息