斯皮尔曼等级相关系数

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA

斯皮尔曼等级相关系数为1表明两个被比较的变量是单调相关的,即使它们之间的相关关系可能并非线性的。相较而言,其皮尔逊相关关系并不完美。
当数据大致呈椭圆分布且没有明显的离群点时,皮尔逊相关系数的值和斯皮尔曼相关系数的值接近。
对样本中的显著离群点,斯皮尔曼相关系数比皮尔逊相关系数不敏感。

斯皮尔曼等级相关系数(简称等级相关系数,或称秩相关系数Template:Lang-enTemplate:Lang),在统计学中,常以希腊字母ρ(rho)或以rs表示,這一相關係數以Template:Tsl之名命名。它是衡量两个变量相关性無母數指标。它利用单调函数评价两个统计变量的相关性。若数据中没有重复值,且当两变量完全单调相关时,斯皮尔曼相关系数为+1或−1。

定义和计算

斯皮尔曼相关系数的定义为等级变量之间的皮尔逊相关系数[1]

对于样本容量为Template:Mvar的样本,将Template:Mvar原始数据Xi,Yi转换成等级数据R(Xi),R(Yi),则相关系数rs

rs=ρR(X),R(Y)=cov(R(X),R(Y))σR(X)σR(Y),

其中

ρ皮尔逊积矩相关系数,但使用等级变量来计算,
cov(R(X),R(Y))为等级变量的协方差
σR(X)σR(Y)为等级变量的标准差

通常,对于数据中相同的值,其等级数等于它们按值升序排列的所处位置的平均值。[2]如下表所示:

变量Xi 升序位置
(仅示意,不使用)
升序位置的平均等级数
(使用)
18 1 1
2.3 2 2
1.2 3 4+32=3.5 
1.2 4 4+32=3.5 
0.8 5 5

当所有的等级数值都为整数时,可以通过以下简单的步骤计算等级相关系数:[1][3]

rs=16di2n(n21),

其中

di=R(Xi)R(Yi)为每组观测中两个变量的等级差值,
n为观测数。

Template:Hidden begin 考虑一个双变量样本(xi,yi),i=1,n,其相应的位次为(R(Xi),R(Yi))=(Ri,Si)。则x,y的斯皮尔曼等级相关系数为:

rs=1ni=1nRiSiRSσRσS,

其中: R=1ni=1nRiS=1ni=1nSiσR2=1ni=1n(RiR)2σS2=1ni=1n(SiS)2

若假定样本中两变量均没有重复数值,则rs可只用di:=RiSi来给出。

在此假定下,R,S可视为随机变量,其分布类似于均匀分布随机变量,U,其自变量取值为{1,2,,n}

因此 R=S=𝔼[U]σR2=σS2=Var(U)=𝔼[U2]𝔼[U]2, 其中 𝔼[U]=1ni=1ni=(n+1)2𝔼[U2]=1ni=1ni2=(n+1)(2n+1)6, 故有 Var(U)=(n+1)(2n+1)6((n+1)2)2=n2112。 (这些求和可以用三角形數四角錐數的公式来计算,也可以用离散数学的基本求和结果来计算。)

既然

1ni=1nRiSiRS=1ni=1n12(Ri2+Si2di2)R2=121ni=1nRi2+121ni=1nSi212ni=1ndi2R2=(1ni=1nRi2R2)12ni=1ndi2=σR212ni=1ndi2=σRσS12ni=1ndi2

则综上可得

rs=σRσS12ni=1ndi2σRσS=1i=1ndi22nn2112=16i=1ndi2n(n21).

Template:Hidden end

当数据中存在相等的数值时,使用该简化公式会得到错误结果:只有在两组变量中所有数值不重复时,才有σR(X)σR(Y)=Var(R(X))=Var(R(Y))=(n21)/12(根据有偏方差计算)。第一个方程(通过标准差进行归一化)即使在排名标准化为[0, 1](“相对排名”)的情况下仍可使用,因为它对平移和线性缩放都不敏感。

对于截取的数据也不应使用简化公式。即,当希望计算前X条记录的等级相关系数时,应当使用前述的皮尔逊积矩相关系数公式。[4]

相关度量

Template:Main

度量一对观测数据的统计相关性还有其他的几种度量指标。其中最常用的是皮尔逊积矩相关系数

斯皮尔曼相关也可称为「级别相关」(grade correlation);[5] 也就是说, 被观测数据的「等级」被替换成 「级别」。在连续的分布中, 被观测数据的级别,通常总是小于等级的一半。然而,在这个案例中,级别和等级相关系数是一致的。更一般的, 被观测数据的「级别」 与估计的总体样本的比值小于给定的值,即被观测值的一半。也就是说,它是相应的等级系数的一种可能的解决方案。虽然不常用,「级别相关」还是仍然有被使用。[6]

解释

Template:Multiple image

斯皮尔曼相关系数表明Template:Mvar(自变量)和Template:Mvar(因变量)的相关方向。如果当Template:Mvar增加时,Template:Mvar趋向于增加,则斯皮尔曼相关系数为正。如果当Template:Mvar增加时,Template:Mvar趋向于减少,则斯皮尔曼相关系数为负。斯皮尔曼相关系数为0表明当Template:Mvar增加时Template:Mvar没有任何趋向性。当Template:MvarTemplate:Mvar越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。当Template:MvarTemplate:Mvar完全单调相关时,斯皮尔曼相关系数的绝对值为1。完全的单调递增关系意味着对任意两对数据Template:MathTemplate:Math,有Template:MathTemplate:Math总是同号。完全的单调递减关系意味着对任意两对数据Template:MathTemplate:Math,有Template:MathTemplate:Math总是异号。

斯皮尔曼相关系数经常被称作“非参数”的,其中有两层含义。首先,当Template:MvarTemplate:Mvar的关系由任意单调函数描述时,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的Template:MvarTemplate:Mvar的相关性。其次,斯皮尔曼不需要先验知识(也就是说,知道其参数)便可以准确获取Template:MvarTemplate:Mvar的采样概率分布

示例

在此例中,我们要使用下表所给出的原始数据计算一个人的智商和其每周看电视的小时数的相关性(数据为虚构)。

智商, Xi 每周看电视小时数, Yi
106 7
86 0
100 27
101 50
99 28
103 29
97 20
113 12
112 6
110 17

首先,我们必须根据以下步骤计算出di2,如下表所示。

  1. 排列第一列数据(Xi)。创建新列 xi 并赋以等级值1、2、3……n
  2. 然后,排列第二列数据(Yi)。创建第四列 yi 并相似地赋以等级值1、2、3……n
  3. 创建第五列di,填入两个等级列(xiyi)的差值。
  4. 创建最后一列di2填入di的平方。
智商, Xi 每周看电视小时数, Yi xi的排名 yi的排名 di di2
86 0 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36
数据相应的图表。可以看出,两者之间似乎存在负相关关系,但这种关系难以直接确定。

根据di2计算di2=194。样本容量Template:Mvar为10。将这些值带入方程

ρ=16×19410(1021)

ρ = −0.175757575...,p-value = 0.627188(使用t分布

该数值接近0,表明尽管看电视时间和智商似乎呈负相关,但两个变量之间的关系很弱。在原始数据中存在相同数值的情况下,不应使用此公式,而应当用排名计算皮尔逊相关系数(如上文所述)。

显著性的确定

一种确定被观测数据的Template:Mvar值是否显著不为零(Template:Mvar总是有Template:Math)的方法是计算它是否大于Template:Mvar的概率,作为零假设,并使用排列检验。这种方法的优势在于它考虑了样本中的重复出现的数据个数,以及在计算等级相关性时处理它们的方式。

另一种方法是使用皮尔逊积矩中使用到的费雪变换。也就是,Template:Mvar置信区间假說檢定可以通过费雪变换获得

F(r)=12ln1+r1r=arctanh(r).

如果Template:MathTemplate:Mvar的费雪变换,则

z=n31.06F(r)

Template:Mvarz-值,其中,Template:Mvar统计独立性Template:Math[7][8]零假设下近似服从标准正态分布

显著性为

t=rn21r2

其在零假设下近似服从自由度为Template:Matht分布[9] A justification for this result relies on a permutation argument.[10]

一般地,斯皮尔曼相关系数在有三个或更多条件的情况下是有用的。并且,它预测观测数据有一个特定的顺序。例如,在同一任务中,一系列的个体会被尝试多次,并预测在多次尝试过程中,性能会得到提升。在这种情况下,对条件间趋势的显著性检验由E. B. Page[11]发展了,并通常称为给定序列下的Page趋势检验

基于斯皮尔曼相关系数的一致性分析

经典的Template:Tsl是一种统计方法,它给两个标称变量赋给一个分数。通过这种方法,两个变量间的皮尔逊相关系数被最大化了。

有一种被称为级别相关分析的等价方法,它能够最大化斯皮尔曼相关系数或Template:Tsl[12]

参见

参考文献

Template:Reflist

  • G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009)
  • C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101
  • M.G. Kendall, "Rank correlation methods", Griffin (1962)
  • M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973)
  • J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997) pp. 637–654

外部链接

Template:Statistics

  1. 1.0 1.1 Template:Citation
  2. Template:Cite book
  3. Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)
  4. Template:Cite book
  5. Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. page 268
  6. Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", Journal of Industrial and Management Optimization, 3 (2), 305–312
  7. Choi, S.C. (1977) Test of equality of dependent correlations. Biometrika, 64 (3), pp. 645–647
  8. Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) Tests for rank correlation coefficients. I. Biometrika 44, pp. 470–481
  9. Press, Vettering, Teukolsky, and Flannery (1992) Numerical Recipes in C: The Art of Scientific Computing, 2nd Edition, page 640
  10. Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0-85264-215-6 (Sections 31.19, 31.21)
  11. Template:Cite journal
  12. Template:Cite book