典型相关

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA

统计学中,典型相关分析Template:Lang-en)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 并且它们是相關的,那么典型相关分析会找出 XiYj 的相互相关最大的线性组合。[1]T·R·Knapp指出“几乎所有常见的参数测试的意义可视为特殊情况的典型相关分析,这是研究两组变量之间关系的一般步骤。”[2] 这个方法在1936年由哈罗德·霍特林首次引入。[3]

给定两个随机向量X=(x1,,xn)Y=(y1,,ym),我们可以定义互协方差矩阵 ΣXY=cov(X,Y)n×m矩阵,其中 (i,j)协方差 cov(xi,yj)。实际上,我们可以基于 XY 的采样数据来估计协方差矩阵。(如从一对数据矩阵)。

典型相关分析求出向量 ab 使得随机变量 aXbY相關ρ=corr(aX,bY) 最大。随机变量 U=aXV=bY第一对典型变量。然后寻求一个依然最大化相关但与第一对典型变量不相关的向量;这样就得到了 第二对典型变量。 这个步骤会进行 min{m,n} 次。

计算

推导

ΣXX=cov(X,X)ΣYY=cov(Y,Y)。需要最大化的参数为

ρ=aΣXYbaΣXXabΣYYb.

第一步是定义一个基变更以及

c=ΣXX1/2a,
d=ΣYY1/2b.

因此我们有

ρ=cΣXX1/2ΣXYΣYY1/2dccdd.

根据柯西-施瓦茨不等式,我们有

(cΣXX1/2ΣXYΣYY1/2)d(cΣXX1/2ΣXYΣYY1/2ΣYY1/2ΣYXΣXX1/2c)1/2(dd)1/2,
ρ(cΣXX1/2ΣXYΣYY1ΣYXΣXX1/2c)1/2(cc)1/2.

如果向量 dΣYY1/2ΣYXΣXX1/2c 共线,那么上式相等。此外,如果 c 是矩阵 ΣXX1/2ΣXYΣYY1ΣYXΣXX1/2 (见Rayleigh quotient) 最大特征值对应的特征向量,那么就可以得到相关的最大值。随后的典型变量对可以通过减少特征值的量级来得到。正交性保证了相关矩阵的对称性。

解法

因此解法是:

  • cΣXX1/2ΣXYΣYY1ΣYXΣXX1/2 的一个特征向量。
  • dΣYY1/2ΣYXΣXX1/2c 的比例项。

相反地,也有:

  • dΣYY1/2ΣYXΣXX1ΣXYΣYY1/2 的一个特征向量。
  • cΣXX1/2ΣXYΣYY1/2d 的比例项。

把坐标反过来,我们有

  • aΣXX1ΣXYΣYY1ΣYX 的一个特征向量。
  • bΣYY1ΣYXΣXX1ΣXY 的一个特征向量。
  • aΣXX1ΣXYb 的比例项。
  • bΣYY1ΣYXa 的比例项。

那么相关变量定义为:

U=cΣXX1/2X=aX
V=dΣYY1/2Y=bY

实现

典型相关分析可以用一个相关矩阵的奇异值分解来解决。[4] 以下是它在一些语言中的函数 [5]

假设检验

每一行可以用下面的方法检测其重要性。由于相关是排好序的,也就是说行 i 为 0 意味着所有后续的相关都为 0。如果我们在一个样本中有 p 个独立观测,对 i=1,,min{m,n}ρ^i 是其估计相关。对第 i 行,测试统计为:

χ2=(p112(m+n+1))lnj=imin{m,n}(1ρ^j2),

上面渐近为一个对大 p(mi+1)(ni+1)自由度卡方分布[6] 由于所有从 min{m,n}p 的相关从逻辑上来说都是 0,所以在这一点之后的乘积都是不相关的。

实际运用

例子

与principal angles的连接

参见

参考文献

Template:Reflist

外部链接