核密度估计

来自testwiki
跳转到导航 跳转到搜索

Template:Expert 核密度估计Template:Lang-en縮寫KDE)是在概率论中用来估计未知的密度函数,属於非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

100個常態分佈亂數的核密度估计

核密度估计在估计边界区域的时候会出现边界效应

在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。

一些比较常用的核函数是: 均匀核函数 k(x)=12,1x1, 加入带宽h后: kh(x)=12h,hxh

三角核函数 k(x)=1|x|,1x1, 加入带宽h后: kh(x)=(h|x|)h2,hxh

伽马核函数 kxi(x)=x(α1)exp(xα/xi)(xi/α)αΓ(α)

定义

(x1,x2,,xn)为从单变量分布中抽取的独立同分布样本,给定点x有未知的概率密度f,我们对估计函数f的形状感兴趣,其核密度估计器是

f^h(x)=1ni=1nKh(xxi)=1nhi=1nK(xxih),

其中K是非负的核函数,带宽h>0为平滑参数。带下标h的核被称为缩放核,定义为Kh(x)=1/hK(x/h)。直觉上讲,在数据允许的范围内应当选择尽可能小的带宽;然而,偏差和方差之间总有所权衡。

常用的核函数有:均匀核(Uniform)、三角核(Triangular)、双权核(Biweight)、三权核(Triweight)、Epanechnikov核、正态核(Normal)等。从均方误差的角度来看,Epanechnikov核是最佳的[1],尽管对于前面列出的核来说,效率的损失很小[2]。由于其数学特性良好,正态核经常被使用,即K(x)=ϕ(x),其中ϕ是标准正态密度函数。

参考文献

  • 唐林俊、杨虎、张洪阳:核密度估计在预测风险价值中的应用 The Application of The Kernel Density Estimates in Predicting VaR,《数学的实践与认识》2005年10期

Template:Statistics-stub