查看“︁拉奥-布莱克韦尔定理”︁的源代码
←
拉奥-布莱克韦尔定理
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
在[[统计学]]中,'''拉奥-布莱克韦尔定理'''(Rao–Blackwell theorem),有时称为'''拉奥-布莱克韦尔定理-柯尔莫果洛夫定理''',是一项结果,它描述了如何将任意粗糙的[[估计量]]转化为通过[[均方误差]]准则或任何一种类似准则优化的估计量。 定理指出,如果g(X)是某个参数θ的任何一种[[估计量]],那么在给定[[充分统计量]]T(X)的条件下,g(X)的[[条件期望]]通常比g(X)本身更好地估计了θ,而且从来不会更糟。有时,可以非常容易地构造一个非常粗糙的估计量g(X),然后评估条件期望值,以获得在各种意义上都是最优的估计量。其中,充分统计量的意义是其包含数据样本中所有与待估计参数相关的信息,且不含任何冗余信息。 这个定理是以[[卡利安普迪·拉达克里希纳·拉奥]]和[[戴维·布莱克韦尔]]命名的。使用拉奥-布莱克韦尔定理来转化一个估计量的过程可以被称为拉奥-布莱克韦尔化。转化后的估计量被称为拉奥-布莱克韦尔估计量。 <ref name=LS1/><ref name=LS2/><ref name=LS3/> == 定义 == * 一个[[估计量]]δ(X)是一个可观测的随机变量(即[[统计量]]),用于估计某些不可观测的量。例如,我们可能无法观测到X大学所有男学生的平均身高,但我们可以观测40个学生的身高。这40个学生的平均身高——"样本平均数"——可以用作估计不可观测的"总体平均数"的估计量。 * 一个[[充分统计量]]T(X)是从数据X计算出来的一个统计量,用于估计某个参数θ,而除了这个统计量以外,从数据X中计算出来的其他统计量不会提供关于θ的任何额外信息。它被定义为一个可观测的[[随机变量]],使得给定T(X)的[[条件概率]]分布不依赖于未观测到的参数θ,例如整个数据样本的平均值或标准差等。在最常被引用的例子中,“未观测到的”量是指参数,这些参数根据已知的[[概率分布]]族来对数据进行参数化。 :: 换句话说,对于参数θ,一个[[充分统计量]]T(X)是这样一个统计量,使得给定T(X)的条件下,数据X的[[条件概率|条件分布]]不依赖于参数θ。 * 一个未观测量θ的'''拉奥-布莱克韦尔估计量'''δ<sub>1</sub>(X)是给定充分统计量T(X)的条件下,某个估计量δ(X)的[[条件期望|条件期望值]]E(δ(X)|T(X))。我们把δ(X)称为"'''原始估计量'''",把δ<sub>1</sub>(X)称为"'''改进估计量'''"。改进估计量的重要性在于它是可观测的,即它不依赖于θ。一般而言,给定这些数据中的一个函数的条件期望值,另一个函数的条件期望值会依赖于θ,但是上述充分统计量的定义说明了这个条件期望值不会依赖于θ。 * 不可观测量θ的'''拉奥-布莱克韦尔估计量'''δ<sub>1</sub>(X) 是给定充分统计量T(X)的某个估计量 δ(X)的[[条件期望|条件期望值]]E(δ(X)|T(X))。将δ(X) 称为'''“原始估计量”''' ,将 δ<sub>1</sub>(X)称为'''“改进后的估计量”''' 。重要的是改进后的估计器是可''观察的'',即它不依赖于θ。通常,在给定这些数据的另一个函数的情况下,这些数据的一个函数的条件期望值'''确实'''取决于θ,但上面给出的充分性的定义本身就意味着这个不成立。 * 一个估计量的'''[[均方误差]]'''是它与待估计的参数θ的偏差的平方的期望值。 == 定理 == === 均方误差版本 === '''拉奥-布莱克韦尔'''定理的一个特例可以表述为: : 拉奥-布莱克韦尔估计量的均方误差不超过原始估计量的均方误差。 换句话说, : <math>\operatorname{E}((\delta_1(X)-\theta)^2)\leq \operatorname{E}((\delta(X)-\theta)^2).</math> 除了上述定义,证明该定理所需的关键工具包括[[雙重期望值定理|全期望公式]]和以下事实:对于任何随机变量Y,E(''Y''<sup>2</sup>)不会小于[E(''Y'')]<sup>2</sup>。这个不等式是[[簡森不等式|琴生不等式]]的一个特例,尽管它也可以立即从经常提到的事实得出 : <math> 0 \leq \operatorname{Var}(Y) = \operatorname{E}((Y-\operatorname{E}(Y))^2) = \operatorname{E}(Y^2)-(\operatorname{E}(Y))^2.</math> 更精确地说,拉奥-布莱克韦尔估计量的均方误差有以下分解形式<ref name=LiaoBerg2018>{{cite journal|title= Sharpening Jensen's Inequality | authors = J. G. Liao & A. Berg | date = 22 June 2018 | journal = The American Statistician | volume = 73 | issue = 3 | pages = 278–281 | doi = 10.1080/00031305.2017.1419145| arxiv = 1707.08644 | s2cid = 88515366 }}</ref> : <math> \operatorname{E}[(\delta_1(X)-\theta)^2]=\operatorname{E}[(\delta(X)-\theta)^2]-\operatorname{E}[\operatorname{Var}(\delta(X)\mid T(X))]</math> 由于 <math>\operatorname{E}[\operatorname{Var}(\delta(X)\mid T(X))]\ge 0</math> ,因此拉奥-布莱克韦尔定理可以立即得出。 === 凸损失泛化 === 拉奥-布莱克韦尔定理的更一般版本涉及到“期望损失”或[[损失函数|风险函数]]: : <math>\operatorname{E}(L(\delta_1(X)))\leq \operatorname{E}(L(\delta(X)))</math> 其中“损失函数”L可以是任何[[凸函数]]。如果损失函数是二次可微的,例如均方误差的情况,那么我们可以得到更精确的不等式<ref name=LiaoBerg2018/> : <math>\operatorname{E}(L(\delta(X)))-\operatorname{E}(L(\delta_1(X)))\ge \frac{1}{2}\operatorname{E}_T\left[\inf_x L''(x)\operatorname{Var}(\delta(X)\mid T)\right].</math> == 性质 == 改进估计量[[估计量的偏差|无偏]]当且仅当原始估计量无偏,这可以立即通过使用[[雙重期望值定理|全期望公式]]得到。无论使用偏倚还是无偏估计量,该定理都成立。 改进后的估计量是[[估计量的偏差|无偏的]]当且仅当原始估计量是无偏的,这可以通过使用[[雙重期望值定理|总期望定律]]立即看出。无论使用有偏估计量还是无偏估计量,该定理都成立。 这个定理看起来很弱,它仅仅表明拉奥-布莱克韦尔估计量不会比原始估计量更差。但在实践中,改进通常是巨大的,因为使用充分统计量来改进估计量可以减少估计误差,提高估计的准确性。<ref name=LS4/> == 例子 == 电话呼叫以平均每分钟λ个的[[泊松过程]]到达交换机板。这个速率是不可观测的,但是我们可以观测到在n个连续的一分钟时间段内到达的电话数量''X''<sub>1</sub>, ..., ''X<sub>n</sub>''。现在我们希望估计在下一个一分钟时间段内没有电话呼叫的概率''e''<sup>−λ</sup>。 一个极其粗略的估计量可以用来估计所需概率: : <math>\delta_0=\left\{\begin{matrix}1 & \text{if}\ X_1=0, \\ 0 & \text{otherwise,}\end{matrix}\right.</math> 也就是说,如果在第一分钟内没有电话呼叫,则它会将此概率估计为1,否则估计值为0。尽管这个估计量的限制显而易见,但是通过对其进行拉奥-布莱克韦尔化处理得到的结果是一个非常好的估计量。 总和 : <math> S_n = \sum_{i=1}^n X_{i} = X_1+\cdots+X_n</math> 可以很容易地证明,这个求和式是λ的一个充分统计量,即数据''X''<sub>1</sub>, ..., ''X<sub>n</sub>''的条件分布只通过这个求和式依赖于λ。因此,我们可以得到拉奥-布莱克韦尔估计量: : <math>\delta_1=\operatorname{E}(\delta_0\mid S_n=s_n).</math> 通过一些计算我们可以得出 : <math>\begin{align} \delta_1 &= \operatorname{E} \left (\mathbf{1}_{\{X_1=0\}} \Bigg| \sum_{i=1}^n X_{i} = s_n \right ) \\ &= P \left (X_{1}=0 \Bigg| \sum_{i=1}^n X_{i} = s_n \right ) \\ &= P \left (X_{1}=0, \sum_{i=2}^n X_{i} = s_n \right ) \times P \left (\sum_{i=1}^n X_{i} = s_n \right )^{-1} \\ &= e^{-\lambda}\frac{\left((n-1)\lambda\right)^{s_n}e^{-(n-1)\lambda}}{s_n!} \times \left (\frac{(n\lambda)^{s_n}e^{-n\lambda}}{s_n!} \right )^{-1} \\ &= \frac{\left((n-1)\lambda\right)^{s_n}e^{-n\lambda}}{s_n!} \times \frac{s_n!}{(n\lambda)^{s_n}e^{-n\lambda}} \\ &= \left(1-\frac{1}{n}\right)^{s_n} \end{align}</math> 由于在前n分钟内到达电话的平均数量为''n''λ,因此如果''n''很大,这个估计量有相当高的概率接近于 : <math>\left(1-{1 \over n}\right)^{n\lambda}\approx e^{-\lambda}.</math> 因此,δ<sub>1</sub>显然是最后一个数量的一个大大改进的估计量。事实上,由于''S<sub>n</sub>''是[[完全性 (统计学)|完全的]]而δ<sub>0</sub>是无偏的,根据{{ill|Lehmann–Scheffé定理|en|Lehmann–Scheffé theorem}},δ<sub>1</sub>是唯一的最小方差无偏估计量。 == 幂等性 == 拉奥-布莱克韦尔化是一个幂等操作。使用它来改进已经改进的估计器不会获得进一步的改进,而只会返回相同的改进后的估计器作为输出。 == 完全性和 Lehmann–Scheffé 最小方差 == 如果条件统计量既是[[完全性 (统计学)|完全的]]又是[[充分统计量|充分的]],并且起始估计量是无偏的,则拉奥-布莱克韦尔估计量是唯一的“[[最小方差無偏估計|最佳无偏估计量]]”:参见Lehmann-Scheffé 定理。 Galili Meilijson 2016年提供了一个可改进的拉奥-布莱克韦尔改进的例子,当使用一个'''不完全'''的最小充分统计量时。假设<math>X_1, \ldots, X_n</math>是从比例均匀分布<math>X \sim U \left( (1-k) \theta, (1+k) \theta \right)</math> 的随机样本,其中未知均值为 <math>E[X]=\theta</math>,已知设计参数<math>k \in (0,1)</math>。在寻找<math>\theta</math>的“最佳”可能无偏估计器时,自然而然地考虑<math>X_1</math>作为初始(粗糙的)无偏估计器,然后尝试改进它。由于<math>X_1</math>不是由<math>T = \left( X_{(1)}, X_{(n)} \right)</math>确定的<math>\theta</math>的最小充分统计量(其中<math>X_{(1)} = \min( X_i )</math>且<math>X_{(n)} = \max( X_i )</math>),因此可以使用拉奥-布莱克韦尔定理改进如下: : <math>\hat{\theta}_{RB}=E_{\theta} \left [X_1|X_{(1)}, X_{(n)} \right ]=\frac{X_{(1)}+X_{(n)}}{2}.</math> 但是,可以证明以下无偏估计量具有较低的方差: : <math>\hat{\theta}_{LV} = \frac{1}{2 \left (k^2 \frac{n-1}{n+1}+1\right )} \left[ (1-k){{X}_{(1)}}+(1+k){{X}_{(n)}} \right].</math> 事实上,当使用以下估算量时,它甚至可以进一步改进: : <math>\hat{\theta}_{BAYES} =\frac{n+1}{n} \left[ 1-\frac{\frac{\left( \frac{{{X}_{(1)}}}{1-k} \right)}{\left( \frac{{{X}_{(n)}}}{1+k} \right)}-1}{{{\left[ \frac{\left( \frac{{{X}_{(1)}}}{1-k} \right)}{\left( \frac{{{X}_{(n)}}}{1+k} \right)} \right]}^{n+1}}-1} \right] \frac{X_{(n)}}{1+k}</math> 该模型是一个{{ill|比例参数模型|en|Scale_parameter}},可以导出对于不变[[损失函数]]的最优不变估计量。 <ref>{{Cite journal |last=Taraldsen |first=Gunnar |date=2020 |title=Micha Mandel (2020), "The Scaled Uniform Model Revisited," The American Statistician, 74:1, 98–100: Comment |url=https://doi.org/10.1080/00031305.2020.1769727 |journal=The American Statistician |volume=74 |issue=3 |page=315 |doi=10.1080/00031305.2020.1769727 |issn=0003-1305 |s2cid=219493070}}</ref> == 另见 == * [[巴苏定理]]—完全充分和辅助统计的另一个结果 == 参考 == {{Reflist|refs=* <ref name=LS1>{{Cite journal |last=Blackwell |first=D. |author-link=戴维·布莱克韦尔 |title=Conditional expectation and unbiased sequential estimation |url=https://archive.org/details/sim_annals-of-mathematical-statistics_1947-03_18_1/page/105 |journal=[[Annals of Mathematical Statistics]] |volume=18 |issue=1 |pages=105–110 |year=1947 |doi=10.1214/aoms/1177730497 |mr=19903 | zbl = 0033.07603 |doi-access=free }} </ref> <ref name=LS2>{{Cite journal |last=Kolmogorov |first=A. N. |author-link=Andrey Kolmogorov |title=Unbiased estimates |journal=Izvestiya Akad. Nauk SSSR. Ser. Mat. |year=1950 |volume=14 |pages=303–326 |mr=36479 }} </ref> <ref name=LS3>{{cite journal |last=Rao |first=C. Radhakrishna |title=Information and accuracy attainable in the estimation of statistical parameters |journal=Bulletin of the Calcutta Mathematical Society |volume=37 |issue=3 |year=1945 |pages=81–91 }} </ref> <ref name=LS4>{{cite web |url=https://statmodeling.stat.columbia.edu/2020/01/29/rao-blackwellization-and-discrete-parameters-in-stan/ |title=Rao-Blackwellization and discrete parameters in Stan |last=Carpenter |first=Bob |date=January 20, 2020 |website=Statistical Modeling, Causal Inference, and Social Science |access-date=September 13, 2021 |quote="The Rao-Blackwell theorem states that the marginalization approach has variance less than or equal to the direct approach. In practice, this difference can be enormous." |archive-date=2023-03-07 |archive-url=https://web.archive.org/web/20230307151257/https://statmodeling.stat.columbia.edu/2020/01/29/rao-blackwellization-and-discrete-parameters-in-stan/ |dead-url=no }}</ref>}} == 外部链接 == * {{Springer|title=Rao–Blackwell–Kolmogorov theorem|id=R/r077550|first=M.S.|last=Nikulin}} [[Category:统计定理]] [[Category:估计理论]]
该页面使用的模板:
Template:Cite journal
(
查看源代码
)
Template:Ill
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Springer
(
查看源代码
)
返回
拉奥-布莱克韦尔定理
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息