误差

来自testwiki
imported>Cewbot2023年8月27日 (日) 02:43的版本 (清理跨語言連結抽样误差成為內部連結:編輯摘要的紅色內部連結乃正常現象,經繁簡轉換後存在,非bot錯誤編輯 (本次機械人作業已完成90.4%))
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

Template:NoteTA Template:Otheruses Template:回归侧栏

统计学最优化中,误差(error)和残差(residual)是两个相近但有区别的概念,二者均是统计样本中某一元素的Template:Tsl与其“真值”(未必可直接观测得到)之间的离差的度量。观察误差是观测值与相关量(例如总体平均值)的真值之间的差值。残差是观测值与统计量的估计值(例如Template:Tsl)之间的差值。这种区别在迴歸分析中至关重要,回归分析中,这些概念有时称为回归误差(regression errors)和回归残差(regression residuals),它们引出了Template:Tsl的概念。

计量经济学中,误差也称为扰动(disturbances)。[1][2][3]

简介

假设有一系列取自Template:Tsl的观察结果,我们想要估计该分布的平均值。此时,误差是观测值与总体均值的偏差,而残差是观测值与样本均值的偏差。

统计误差(statistical error)是观察值与其期望值的差异程度,而期望值基于随机选择统计单位的总体。例如,如果21岁男性的平均身高为1.75米,而随机选出的一名男性身高为1.80米,则“误差”为0.05米;如果随机选出男性人身高1.70米,则“误差”为-0.05 米。期望值是整个总体的均值,通常是无法观测的,因此统计误差也无从知晓。

残差(residual)是对无法观测的统计误差的可观测估计。在上述的男性身高的例子中,假设我们随机抽取n个人作为样本。样本均值可以很好地估计总体均值。此时:

  • 样本中每个人的身高与无法观测的总体均值之间的差值是统计误差,
  • 样本中每个人的身高与可观测的样本均值之间的差值是残差。

注意,由于样本均值的定义,随机样本内的残差之和必然为零,因此残差必然不是相互独立的。而统计误差是独立的,它们在随机样本中的总和几乎肯定不为零。

统计误差(尤其是正态分布的)的数值可以用標準分數(或“z分数”)来标准化,而残差可以用Template:Tsl,或更一般的Template:Tsl来标准化。

单变量分布

假定有一个均值为Template:Mvar標準差Template:Mvar正态分布总体,从中随机选择个体,得到样本:

X1,,XnN(μ,σ2)

样本均值

X=X1++Xnn

它是一个随机变量分布,服从:

XN(μ,σ2n).

其统计误差为:

ei=Xiμ,

期望值为0,[4]而残差为:

ri=XiX.

统计误差的平方和除以Template:Math,得到自由度Template:Mvar的卡方分布:

1σ2i=1nei2χn2.

然而,因为总体均值未知,这个数量是不可观测的。但是,残差的平方和是可观测的。该总和除以Template:Math的商是Template:Math自由度的卡方分布:

1σ2i=1nri2χn12.

自由度Template:MvarTemplate:Math之间的区别是对总体(均值、方差未知)的方差估计值的Template:Tsl。若总体均值已知,则无需进行校正。

参见

Template:Portal Template:Div col

Template:Div col end

参考文献

Template:Reflist

外部链接

Template:統計學