查看“︁最大似然估计”︁的源代码
←
最大似然估计
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{noteTA |T=zh-cn: 最大似然估计;zh-tw:最大概似估計; |G1=Math |1= zh-cn: 似然;zh-tw:概似 |2= zh-cn: 矩;zh-tw:動差;zh-hant: 矩; |3= zh-cn: 参数;zh-tw:母數;zh-hant:參數 }} 在[[统计学]]中,'''最大似然估计'''({{lang-en|maximum likelihood estimation}},簡作'''MLE'''),也称'''极大似然估计''',是用来[[估計]]一个[[概率模型]]的参数的一种方法。 == 预备知识 == 下方的讨论要求读者熟悉[[概率论]]中的基本定义,如[[概率分布]]、[[概率密度函数]]、[[随机变量]]、[[数学期望]]等。读者還須先熟悉[[连续]][[实函数]]的基本性质,比如使用[[微分]]来求一个函数的[[极值]](即[[极大值]]或[[极小值]])。<br /> 同時,讀者須先擁有[[似然函數]]的背景知識,以了解最大似然估計的出發點及應用目的。 == 最大似然估计的原理 == 给定一个概率分布<math>D</math>,已知其[[概率密度函数]](连续分布)或[[概率质量函数]](离散分佈)为<math>f_D</math>,以及一个分佈参数<math>\theta</math>,我们可以从这个分布中抽出一个具有<math>n</math>个值的采样<math>X_1, X_2,\ldots, X_n</math>,利用<math>f_D</math>计算出其[[似然函数]]: :<math>\mbox{L}(\theta\mid x_1,\dots,x_n) = f_\theta(x_1,\dots,x_n).</math> 若<math>D</math>是离散分布,<math>f_\theta</math>即是在参数为<math>\theta</math>时观测到这一采样的概率;若其是连续分布,<math>f_\theta</math>则为<math>X_1, X_2,\ldots, X_n</math>联合分布的概率密度函数在观测值处的取值。一旦我们获得<math>X_1, X_2,\ldots, X_n</math>,我们就能求得一个关于<math>\theta</math>的估计。最大似然估计会寻找关于<math>\theta</math>的最可能的值(即,在所有可能的<math>\theta</math>取值中,寻找一个值使这个采样的“可能性”最大化)。从数学上来说,我们可以在<math>\theta</math>的所有可能取值中寻找一个值使得似然[[函数]]取到最大值。这个使可能性最大的<math>\widehat{\theta}</math>值即称为<math>\theta</math>的'''最大似然估计'''。由定义,最大似然估计是样本的函数。 === 注意 === * 这裡的[[似然函数]]是指<math>x_1,x_2,\ldots,x_n</math>不变时,关于<math>\theta</math>的一个函数。 * 最大似然估计不一定存在,也不一定唯一。 === 推导 === 最大似然估计可以从[[相对熵]]推导而来。[[相对熵]]衡量了使用一个给定分布<math>Q</math>来近似另一个分布<math>P</math>时的信息损失,对于离散型随机变量,可以用以下公式: <math>D_{\text{KL}}(P||Q)=\sum_i P(i) \log \frac{P(i)}{Q(i)}</math> 其中,<math>P</math>是真实分布,<math>Q</math>是近似分布。在最大似然估计的情景下,假设分布拥有一系列参数<math>\theta</math>,我们希望通过样本得到参数的估计值<math>\hat{\theta}</math>。我们可以利用[[相对熵]]来评判估计的好坏: <math>D_{\text{KL}}(p_{\theta} (x)||p_{\hat{\theta}} (x))=\sum_{x \in E} p_\theta(x) \log \frac{p_\theta(x)}{p_{\hat{\theta}}(x)}</math> 根据[[期望值|期望]]的定义,我们可以将上式改写为: <math>\begin{align} D_{\text{KL}}(p_{\theta} (x)||p_{\hat{\theta}} (x))&=\mathbb{E}_{\theta} \left[\log\left(\frac{p_{\theta}(x)}{p_{\hat{\theta}}(x)} \right)\right]\\ &=\mathbb{E}_{\theta}[\log p_\theta (x)] - \mathbb{E}_{\theta} [\log p_{\hat{\theta}}(x)] \end{align}</math> KL值越大,参数估计越坏,因此,需要通过改变估计参数<math>\hat{\theta}</math>的值来获得最小的值,所对应的参数极为最佳估计参数。即: <math>\hat{\theta}_\text{best}=\arg\min_{\hat{\theta}} D_{\text{KL}}(p_{\theta} (x)||p_{\hat{\theta}} (x))</math> 假设有<math>n</math>个样本,根据[[大數法則|大数定理]],可以进行替换: <math>\mathbb{E}_{\theta} [\log p_\hat{\theta}(x)]\rightsquigarrow\frac{1}{n}\sum_{i=1}^n\log p_{\hat{\theta}}(x)</math> 即,可以通过下式评估: <math>D_{\text{KL}}(p_\theta (x)||p_{\hat{\theta}}(x))=\mathbb{E}_{\theta}[\log p_{\theta}(x)]-\frac{1}{n}\sum_{i=1}^n\log p_{\hat{\theta}}(x_i)</math> 对于一个已知的分布,其参数<math>\theta</math>是确定的。因此,<math>\mathbb{E}_{\theta}[\log p_\theta (x)]</math>为常数。因此,我们可以通过最小化KL值获得最佳估计参数: <math>\begin{align} \hat{\theta} &=\arg\min_{\hat{\theta}}\mathbb{E}_{\theta}[\log p_{\theta}(X)]-\frac{1}{n}\sum_{i=1}^n\log p_{\hat{\theta}}(x_i)\\ &\Rightarrow\arg\min_{\hat{\theta}}-\frac{1}{n}\sum_{i=1}^n\log p_{\hat{\theta}}(x_i)\\ &\Rightarrow\arg\max_{\hat{\theta}}\frac{1}{n}\sum_{i=1}^n\log p_{\hat{\theta}}(x_i)\\ &\Rightarrow\arg\max_{\hat{\theta}}\sum_{i=1}^n\log p_{\hat{\theta}}(x_i)\\ &\Rightarrow\arg\max_{\hat{\theta}}\log\left[\prod_{i=1}^n p_{\hat{\theta}}(x_i) \right]\\ &\Rightarrow\arg\max_{\hat{\theta}}\prod_{i=1}^n p_{\hat{\theta}}(x_i) \\ \end{align}</math> 因此,要得到最佳参数估计值,只需要最大化<math>\prod_{i=1}^n p_{\hat{\theta}}(x_i)</math>,这就是最大似然函数。对于连续型随机变量,有相同的结论。 == 例子 == === 离散分布,离散有限参数空间 === 考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我们获取一个采样<math>x_1=\mbox{H}, x_2=\mbox{T}, \ldots, x_{80}=\mbox{T}</math>并把正面的次数记下来,正面记为H,反面记为T)。并把抛出一个正面的概率记为<math>p</math>,抛出一个反面的概率记为<math>1-p</math>(因此,这裡的<math>p</math>即相当于上方的<math>\theta</math>)。假设我们抛出了49个正面,31个反面,即49次H,31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为<math>p=1/3</math>, <math>p=1/2</math>, <math>p=2/3</math>,这些硬币没有标记,所以我们无法知道哪个是哪个。使用'''最大似然估计''',基于'''二项分布'''中的'''概率质量函数'''公式,通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个似然函数取以下三个值中的一个: ::<math>\begin{matrix} \mathbb{L}(p=1/3 \mid \mbox{H=49, T=31 }) & = & \mathbb{P}(\mbox{H=49, T=31 }\mid p=1/3) & = & {80\choose 49}(1/3)^{49}(1-1/3)^{31} \approx 0.000 \\ &&\\ \mathbb{L}(p=1/2 \mid \mbox{H=49, T=31 }) & = & \mathbb{P}(\mbox{H=49, T=31 }\mid p=1/2) & = & {80\choose 49}(1/2)^{49}(1-1/2)^{31} \approx 0.012 \\ &&\\ \mathbb{L}(p=2/3 \mid \mbox{H=49, T=31 }) & = & \mathbb{P}(\mbox{H=49, T=31 }\mid p=2/3) & = & {80\choose 49}(2/3)^{49}(1-2/3)^{31} \approx 0.054 \\ \end{matrix}</math> 我们可以看到当<math>\widehat{p}=2/3</math>时,似然函数取得最大值。<br/> 顯然地,這硬幣的公平性和那種拋出後正面的機率是2/3的硬幣是最接近的。这就是<math>p</math>的最大似然估计。 === 离散分布,连续参数空间 === 现在假设例子1中的盒子中有无数个硬币,对于<math>0\leq p \leq 1</math>中的任何一个<math>p</math>, 都有一个抛出正面概率为<math>p</math>的硬币对应,我们来求其似然函数的最大值: :<math>\begin{matrix} \mbox{L}(\theta) & = & f_D(\mbox{H=49,T=80-49}\mid p) = {80\choose 49} p^{49}(1-p)^{31} \\ \end{matrix}</math> 其中<math>0\leq p \leq 1</math>. 我们可以使用[[微分法]]来求[[極值]]。方程两边同时对<math>p</math>取[[微分]],并使其为零。 :<math>\begin{matrix} 0 & = & {80\choose 49}\frac{d}{dp} \left( p^{49}(1-p)^{31} \right) \\ & & \\ & \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\ & & \\ & = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\ \end{matrix}</math> [[File:BinominalLikelihoodGraph.png|thumb|200px|在不同比例参数值下一个二项式过程的可能性曲线''t'' = 3, ''n'' = 10;其最大似然估计值发生在其[[众数 (数学)|众数]]并在曲线的最大值处。]] 其解为<math>p=0</math>, <math>p=1</math>,以及<math>p=49/80</math>.使可能性最大的解显然是<math>p=49/80</math>(因为<math>p=0</math>和<math>p=1</math>这两个解会使可能性为零)。因此我们说'''最大似然估计值'''为<math>\widehat{p}=49/80</math>. 这个结果很容易一般化。只需要用一个字母<math>t</math>代替49用以表达[[伯努利试验]]中的被观察数据(即样本)的“成功”次数,用另一个字母<math>n</math>代表伯努利试验的次数即可。使用完全同样的方法即可以得到'''最大似然估计值''': :<math>\widehat{p}=\frac{t}{n}</math> 对于任何成功次数为<math>t</math>,试验总数为<math>n</math>的伯努利试验。 === 连续分布,连续参数空间 === 最常见的[[连续概率分布]]是[[正态分布]],其概率密度函数如下: :<math>f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math> 现在有<math>n</math>个正态随机变量的采样点,要求的是一个这样的正态分布,这些采样点分布到这个正态分布可能性最大(也就是概率密度积最大,每个点更靠近中心点),其<math>n</math>个正态随机变量的采样的对应密度函数(假设其独立并服从同一分布)为: :<math>f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}}</math> 也可以写为: :<math>f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right)</math>, 这个分布有两个参数:<math>\mu,\sigma^2</math>.有人可能会担心两个参数与上方的讨论的例子不同,上方的例子都只是在一个参数上对可能性进行最大化。实际上,在两个参数上的求最大值的方法也差不多:只需要分别把可能性<math>\mbox{L}(\mu,\sigma) = f(x_1,,\ldots,x_n \mid \mu, \sigma^2)</math>在两个参数上最大化即可。当然这比一个参数麻烦一些,但是一点也不复杂。使用上方例子同样的符号,我们有<math>\theta=(\mu,\sigma^2)</math>. 最大化一个似然函数同最大化它的[[自然对数]]是等价的。因为[[自然对数]]log是一个[[连续]]且在似然函数的[[值域]]内[[严格递增]]的上凹函数。[注意:可能性函数(似然函数)的自然对数跟[[信息熵]]以及[[費雪訊息]]联系紧密。]求对数通常能够一定程度上简化运算,比如在这个例子中可以看到: :<math>\begin{align} 0 & = \cfrac{\partial}{\partial \mu} \log \left( \left( \cfrac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\ & = \cfrac{\partial}{\partial \mu} \left( \log\left( \cfrac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \cfrac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\ & = 0 - \cfrac{-2n(\bar{x}-\mu)}{2\sigma^2} \end{align}</math> 这个方程的解是<math>\widehat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n </math>.这的确是这个函数的最大值,因为它是<math>\mu</math>里头惟一的一阶导数等于零的点并且二阶导数严格小于零。 同理,我们对<math>\sigma</math>求导,并使其为零。 :<math>\begin{align} 0 & = \cfrac{\partial}{\partial \sigma} \log \left( \left( \cfrac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\ & = \cfrac{\partial}{\partial \sigma} \left( \cfrac{n}{2}\log\left( \cfrac{1}{2\pi\sigma^2} \right) - \cfrac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\ & = -\cfrac{n}{\sigma} + \cfrac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3} \end{align}</math> 这个方程的解是<math>\widehat{\sigma}^2 = \sum_{i=1}^n(x_i-\widehat{\mu})^2/n</math>. 因此,其关于<math>\theta=(\mu,\sigma^2)</math>的''最大似然估计''为: :<math>\widehat{\theta}=(\widehat{\mu},\widehat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n)</math>. == 性质 == === 泛函不变性(Functional invariance) === 如果<math>\hat{\theta}</math>是<math>\theta</math>的一个最大似然估计,那么<math>\alpha = g(\theta)</math>的最大似然估计是<math>\hat{\alpha} = g(\hat{\theta})</math>。函数''g''无需是一个[[双射]]。<ref>请参见George Casella与Roger L. Berger所著的''Statistical Inference''定理Theorem 7.2.10的证明。(中国大陆出版的大部分教材上也可以找到这个证明。)</ref> === 渐近线行为 === 最大似然估计函数在采样样本总数趋于无穷的时候达到最小[[方差]],其证明可见于{{le|克拉馬-羅下限|Cramér–Rao bound}}。当最大似然估计非偏时,等价的,在极限的情况下我们可以称其有最小的[[均方差]]。 对于独立的观察来说,最大似然估计函数经常趋于[[正态分布]]。 === 偏差 === 最大似然估计的[[非偏估计|偏差]]是非常重要的。考虑这样一个例子,标有<math>1</math>到<math> n </math>的<math> n </math>张票放在一个盒子中。从盒子中随机抽取票。如果<math> n </math>是未知的话,那么<math> n </math>的最大似然估计值就是抽出的票上标有的<math> n </math>,尽管其期望值的只有<math>(n+1)/2</math>.为了估计出最高的<math>n</math>值,我们能确定的只能是<math> n </math>值不小于抽出来的票上的值。 == 历史 == 最大似然估计最早是由[[羅納德·費雪]]在1912年至1922年间推荐、分析并大范围推广的。<ref name="Pfanzagl">{{harvtxt |Pfanzagl |1994 }}</ref>(虽然以前[[高斯]]、[[拉普拉斯]]、托瓦爾·尼古拉·蒂勒和[[弗朗西斯·伊西德罗·埃奇沃思|F. Y. 埃奇沃思]]也使用过)。<ref>{{harvtxt |Edgeworth |September 1908 }} and {{harvtxt |Edgeworth |December 1908 }}</ref> 许多作者都提供了最大似然估计发展的回顾。<ref>{{harvtxt |Savage |1976 }}, {{harvtxt |Pratt |1976 }}, {{harvs |txt=yes |last=Stigler |year=1978 |year2=1986 |year3=1999 }}, {{harvs |txt=yes |last=Hald |year=1998 |year2=1999 }}, and {{harvtxt |Aldrich |1997 }}</ref> 大部分的最大似然估计理论都在[[贝叶斯统计]]中第一次得到发展,并被后来的作者简化。<ref name="Pfanzagl" /> == 参见 == * [[均方差]]是衡量一个[[估计函数]]的好坏的一个量。 * 关于[[拉奧-布萊克韋爾定理]](Rao-Blackwell theorem)的文章中讨论到如何利用Rao-Blackwellisation过程寻找最佳不偏估计(即使均方差最小)的方法。而最大似然估计通常是一个好的起点。 * 读者可能会对最大似然估计(如果存在)总是一个关于参数的[[充分统计量]](sufficient statistic)的函数感兴趣。 * 最大似然估计跟[[廣義動差估計]](generalized method of moments)有关。 == 参考文献 == {{Reflist}} == 外部链接 == * [https://web.archive.org/web/20070223105625/http://projecteuclid.org/Dienst/UI/1.0/Summarize/euclid.ss/1030037906 关于最大似然估计的历史的一篇论文,作者John Aldrich] {{-}} {{统计学}} {{系统发生学}} {{Authority control}} [[Category:條件機率]] [[Category:估计理论]] [[Category:统计学]]
该页面使用的模板:
Template:-
(
查看源代码
)
Template:Authority control
(
查看源代码
)
Template:Harvs
(
查看源代码
)
Template:Harvtxt
(
查看源代码
)
Template:Lang-en
(
查看源代码
)
Template:Le
(
查看源代码
)
Template:NoteTA
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:系统发生学
(
查看源代码
)
Template:统计学
(
查看源代码
)
返回
最大似然估计
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息