查看“︁U-统计量”︁的源代码
←
U-统计量
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{NoteTA |G1=Math}} '''U-统计量'''是统计学中一类特定的、具有对称性的统计量,它在[[估计理论|估计理论中]]扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与[[最小方差無偏估計|最小方差无偏估计量 (UMVUE)]] 有密切联系。 U-统计量的一个重要性是,对概率分布来说,其可估计参数的[[最小方差無偏估計|最小方差无偏估计量]] 是一个U-统计量。 <ref>Cox & Hinkley (1974),p. 200, p. 258</ref><ref>Hoeffding (1948), between Eq's(4.3),(4.4)</ref> 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。<ref>{{cite book |title=U-Statistics : Theory and Practice. |publisher=Routledge |isbn=9781351405850}}</ref> U-统计量在[[無母數統計|非参数统计]]中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的[[渐进分布|渐近正态性]],这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的[[随机过程]]和[[随机图|随机网络]]类型数据的随机性质方面,发挥了作用。<ref>Page 508 in {{Cite book|last=Koroljuk|first=V. S.|last2=Borovskich|first2=Yu. V.|title=Theory of ''U''-statistics|edition=Translated by P. V. Malyshev and D. V. Malyshev from the 1989 Russian original|series=Mathematics and its Applications|volume=273|publisher=Kluwer Academic Publishers Group|location=Dordrecht|year=1994|pages=x+552|isbn=0-7923-2608-3|mr=1472486}}</ref><ref>Pages 381–382 in {{Cite book|last=Borovskikh|first=Yu. V.|title=''U''-statistics in Banach spaces|publisher=VSP|location=Utrecht|year=1996|pages=xii+420|isbn=90-6764-200-2|mr=1419498}}</ref><ref>Page xii in {{Cite book|last=Kwapień|first=Stanisƚaw|last2=Woyczyński|first2=Wojbor A.|title=Random series and stochastic integrals: Single and multiple|series=Probability and its Applications|publisher=Birkhäuser Boston, Inc.|location=Boston, MA|year=1992|pages=xvi+360|isbn=0-8176-3572-6|mr=1167198}}</ref> 目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文<ref>{{cite journal |last1=Hoeffding |first1=Wassily |title=A Class of Statistics with Asymptotically Normal Distribution |url=https://archive.org/details/sim_annals-of-mathematical-statistics_1948-09_19_3/page/293 |journal=The Annals of Mathematical Statistics |date=1948-09 |volume=19 |issue=3 |pages=293–325 |doi=10.1214/aoms/1177730196}}</ref>。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的[[方差分析|ANOVA分解]]。 == 定义 == 定义 <math>h(x_1,\ldots,x_r): \mathbb{R}^r \to \mathbb{R}</math> 为一个函数,其具有对称性,即交换任意 <math>x_i,x_j</math> 的位置,<math>h</math> 的值保持不变。对随机变量 <math>X_1,\ldots,X_n</math> ,基于 <math>h</math> 的U-统计量定义如下: :<math>U_n = \frac1{\binom{n}r}\sum_{1\leq i_1 < \cdots < i_r\leq n} h(X_{i_1},\ldots,X_{i_r})</math> 这里,<math>h(\cdot)</math> 称为U-统计量的'''核函数(Kernel function)''',而核函数的维数 <math>r</math> 称为该U-统计量的'''度(degree)'''。{{r|Bickel}} ===两样本U-统计量=== 定义 <math>h(x_1,\ldots,x_r;y_1,\ldots,y_s): \mathbb{R}^{r+s} \to \mathbb{R}</math> 为一个函数,其对 <math>X</math> 和 <math>Y</math> 分别具有对称性,即交换任意 <math>x_{i_1},x_{i_2}</math> 的位置或交换任意 <math>y_{j_1},y_{j_2}</math> 的位置,<math>h</math> 的值保持不变(但不能随意交换 <math>x_i,y_j</math> )。对随机变量 <math>X_1,\ldots,X_m;Y_1,\ldots,Y_n</math> ,基于 <math>h</math> 的两样本U-统计量定义如下: :<math>U_{m,n} = \frac1{\binom{m}r \binom{n}s} \sum_{1\leq i_1<\cdots<i_r\leq m}\sum_{1\leq j_1<\cdots<j_s\leq n} h(X_1,\ldots,X_r;Y_1,\ldots,Y_s)</math> 目前在[[机器学习]]中,最常见的情形是 <math>r=s=1</math>,例如[[能量距离]]和[[最大平均差异|最大平均差异(MMD)]]。 == Hoeffding的ANOVA分解定理 == === 定理表述 === '''Hoeffding的ANOVA分解定理'''是现代U-统计量理论的基础。<ref name=Maesono>{{cite journal |last1=Maesono |first1=Yoshihiko |title=Edgeworth expansions of a studentized U-statistic and a jackknife estimator of variance |journal=Journal of Statistical Planning and Inference |date=1997-05 |volume=61 |issue=1 |pages=61–84 |doi=10.1016/S0378-3758(96)00148-6}}</ref>为表述该定理,定义:<math>\mu = \mathbb{E}[h(X_1,\ldots,X_r)]</math>。 对所有 <math>1\leq k\leq r</math> ,定义'''投影函数''': <math>a_k(x_1,\ldots,x_k) = \mathbb{E}[h(X_1,\ldots,X_r)|X_1=x_1,\ldots,X_k=x_k]-\mu</math> 然后定义'''正交化投影函数''': <math>g_1(x_1) = a_1(x_1)</math>,<math>g_2(x_1,x_2) = a_2(x_1,x_2) - g_1(x_1) - g_1(x_2)</math>,等等,每一个 <math>g_k</math> 都定义为相应的 <math>a_k</math>减去之前定义过的所有 <math>g_1,\ldots,g_{k-1}</math>,直至最后一个函数 <math>g_r</math>: <math>g_r(x_1,\ldots,x_r) = a_r(x_1,\ldots,x_r) - \sum_{j=1}^{r-1} \sum_{1\leq i_1<\cdots<i_j\leq r}g_j(x_{i_1},\ldots,x_{i_j})</math> Hoeffding的ANOVA分解定理的内容是: <math>U_n - \mu = \binom{n}r^{-1} \sum_{k=1}^r \binom{n-k}{r-k} \cdot \sum_{1\leq i_1<\cdots<i_k\leq n}g_k(X_{i_1},\ldots,X_{i_k})</math> === 分解项的性质 === 所有的正交化投影函数 <math>g_k</math> 都满足: <math>\mathbb{E}[g_k(X_1,\ldots,X_k)|X_1,\ldots,X_{k-1}]=0</math> 因此,所有的分解项之间是互不相关的{{r|Maesono}},并且度为 <math>k</math> 的分解项之平均的阶为 <math>O_p\left(n^{-k/2}\right)</math>. 在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式: <math>U_n - \mu = \frac{r}n\sum_{i=1}^n g_1(X_i) + \frac{r(r-1)}{n(n-1)}\sum_{1\leq i<j\leq n}g_2(X_i,X_j) + O_p(n^{-3/2})</math> === 定理应用 === * U-统计量的渐近正态性是Hoeffding的ANOVA分解定理的简单推论。具体而言,有如下结论:记 <math>\xi_1^2 = \mathrm{Var}(g_1(X_1))</math> ,则: :<math> n^{1/2}\left(U_n-\mu\right) \ \stackrel{d}\to\ N\left(0,r^2\xi_1^2\right) </math> 同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行[[t-标准化]]。 * 由该定理出发,在不同强度的假设条件下,可以用一项或两项的[[埃奇沃斯級數|Edgeworth展开]]来高精度地逼近U-统计量的分布。<ref name=Bickel>{{cite journal |last1=Bickel |first1=P. J. |last2=Gotze |first2=F. |last3=van Zwet |first3=W. R. |title=The Edgeworth Expansion for $U$-Statistics of Degree Two |url=https://archive.org/details/sim_annals-of-statistics_1986-12_14_4/page/1463 |journal=The Annals of Statistics |date=1986-12 |volume=14 |issue=4 |pages=1463–1484 |doi=10.1214/aos/1176350170}}</ref><ref>{{cite journal |last1=Putter |first1=Hein |last2=van Zwet |first2=Willem R. |title=Empirical Edgeworth expansions for symmetric statistics |url=https://archive.org/details/sim_annals-of-statistics_1998-08_26_4/page/1540 |journal=The Annals of Statistics |date=1998-08 |volume=26 |issue=4 |pages=1540–1569 |doi=10.1214/aos/1024691253}}</ref><ref>{{cite journal |last1=Jing |first1=Bing-Yi |last2=Wang |first2=Qiying |title=Edgeworth expansion for U -statistics under minimal conditions |url=https://archive.org/details/sim_annals-of-statistics_2003-08_31_4/page/1376 |journal=The Annals of Statistics |date=2003-08 |volume=31 |issue=4 |pages=1376–1391 |doi=10.1214/aos/1059655916}}</ref><ref name="NetEdgeworth">{{cite journal |author1=Yuan Zhang |author2=Dong Xia |title=Edgeworth expansions for network moments |journal=The Annals of Statistics |date=2022-04-01 |volume=50 |issue=2 |pages=726-753 |doi=10.1214/21-AOS2125 |accessdate=2022-05-09}}</ref> <br /> == 具体例子 == * 度为1的例子:令 <math>h(x) = x</math> ,则U-统计量 <math>\frac1n\sum_{i=1}^n h(X_i) = \bar X_n</math>是样本均值。 * 度为2的例子:令 <math>h(x_1, x_2) = |x_1 - x_2|</math> ,则U-统计量 :<math>\frac1{\binom{n}2}\sum_{1\leq i<j\leq n} h(X_i,X_j) </math> 称为“平均成对偏差”。 * 另一个度为2的例子:令 <math>h(x_1, x_2) = (x_1 - x_2)^2/2</math> ,则U-统计量有如下变形: :<math>\frac1{\binom{n}2}\sum_{1\leq i<j\leq n} h(X_i,X_j) = \sum(X_i - \bar X)^2/(n-1) </math> 这正是人们熟知的[[方差|样本方差]] <math>S_n^2</math>。 * 度为3的例子:样本[[偏度]]定义中的分子项: :<math>\frac1n\sum_{i=1}^n (X_i - \bar X)^3</math> 展开后可以写成一个U-统计量。 * 在机器学习中,用核函数方法进行一样本或两样本非参数统计检验时,检验统计量是一个[[能量距离]]或[[最大平均差异(MMD)]],两者均为U-统计量或表达式包含两样本U-统计量。<ref>{{cite journal |last1=Székely |first1=Gábor J. |last2=Rizzo |first2=Maria L. |title=Energy statistics: A class of statistics based on distances |journal=Journal of Statistical Planning and Inference |date=2013-08 |volume=143 |issue=8 |pages=1249–1272 |doi=10.1016/j.jspi.2013.03.018}}</ref><ref>{{cite journal |last1=Gretton |first1=Arthur |last2=Borgwardt |first2=Karsten M. |last3=Rasch |first3=Malte J. |last4=Schölkopf |first4=Bernhard |last5=Smola |first5=Alexander |title=A Kernel Two-Sample Test |journal=Journal of Machine Learning Research |date=2012 |volume=13 |issue=25 |pages=723–773 |url=http://jmlr.csail.mit.edu/papers/v13/gretton12a.html |access-date=2020-06-26 |archive-date=2022-02-04 |archive-url=https://web.archive.org/web/20220204194152/https://jmlr.csail.mit.edu/papers/v13/gretton12a.html |dead-url=no }}</ref> ==参见== * [[V-统计量]] == 参考文献 == {{reflist}} [[Category:统计学]] [[Category:估计理论]]
该页面使用的模板:
Template:Cite book
(
查看源代码
)
Template:Cite journal
(
查看源代码
)
Template:NoteTA
(
查看源代码
)
Template:R
(
查看源代码
)
Template:Reflist
(
查看源代码
)
返回
U-统计量
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息