高斯-马尔可夫定理

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA Template:回归侧栏 高斯-馬可夫定理Template:Lang-en),在統計學中陳述的是在线性回归模型中,如果线性模型满足高斯马尔可夫假定,则回归系数的“最佳线性无偏估计”(BLUE,Template:Lang-en)就是普通最小二乘法估计[1]最佳估计是指相较于其他估计量有更小方差估计量,同时把对估计量的寻找限制在所有可能的线性无偏估计量中。此外,误差也不一定需要满足独立同分布正态分布

本定理主要以卡爾·弗里德里希·高斯安德烈·马尔可夫命名,虽然高斯的贡献要远比马尔可夫的重要。高斯以独立正态分布的假设推导出了结果,而马尔可夫将假设放宽到了上述的形式。

表述

简单(一元)线性回归模型

对于简单(一元)线性回归模型,

y=β0+β1x+ε

其中β0β1非随机但不能观测到的参数,xi非随机且可观测到的一般变量,εi不可观测的随机变量,或称为随机误差或噪音,yi可观测的随机变量。

高斯-马尔可夫定理的假设条件是:

  • 在总体模型中,各变量关系为y=β0+β1x+ε(线性于参数)
  • 我们具有服从于上述模型的随机样本,样本容量为n(随机抽样),
  • x的样本结果为非完全相同的数值(解释变量的样本有波动),
  • 对于给定的解释变量,误差的期望为零,换言之E(ε|x)=0 (零条件均值),
  • 对于给定的解释变量,误差具有相同的方差,换言之 Var(ε|x)=σ2(同方差性)。

则对β0β1的最佳线性无偏估计为,

β^1=xiyi1nxiyixi21n(xi)2=Cov(x,y)^σx^2=ρ^xyσx^σy^,β^0=yβ^1x .

多元线性回归模型

对于多元线性回归模型,

yi=j=0pβjxij+εi, xi0=1;i=1,n.

使用矩阵形式,线性回归模型可简化记为𝐘=𝐗β+ε,其中采用了以下记号:

𝐘=(y1,y2,,yn)T (观测值向量,Vector of Responses),

𝐗=(xij)=[1x11x12x1p1x21x22x2p1xn1xn2xnp] (设计矩阵,Design Matrix),

β=(β0,β1,,βp)T (参数向量,Vector of Parameters),

ε=(ε1,ε2,,εn)T (随机误差向量,Vectors of Error)。

高斯-马尔可夫定理的假设条件是:

  • E(ε𝐗)=0𝐗(零均值),
  • Var(ε𝐗)=E(εεT𝐗)=σε2𝐈𝐧,(同方差且不相关),其中𝐈𝐧为n阶单位矩阵(Identity Matrix)。

则对β的最佳线性无偏估计为

β^=(𝐗T𝐗)1𝐗T𝐘

证明

首先,注意的是这里数据是𝐘而非𝐗,我们希望找到β对于𝐘的线性估计量,记作

β^=𝐌+𝐍𝐘

其中β^𝐌𝐍𝐘分别是(p+1)×1(p+1)×1(p+1)×nn×1矩阵。

根据零均值假设所得,

E(β^𝐗)=𝐌+𝐍E(𝐘𝐗)=𝐌+𝐍𝐗β

其次,我们同时限制寻找的估计量为无偏的估计量,即要求E(β^)=β,因此有

𝐌=𝟎零矩阵),𝐍𝐗=𝐈𝐩+𝟏

参见

Template:Div col

Template:Div col end

参考资料

Template:Refs

外部連結