核密度估计(Kernel density estimation)是一种用于估計概率密度函数的非参数方法,为独立同分布F的n个样本点设其概率密度函数为f,核密度估计为以下:
K(.)为核函数(非负、积分为1符合概率密度性质,并且均值为0)h>0为一个平滑参数,称作带宽(bandwidth)也看到有人叫窗口。Kh(x) = 1/h
内核在均方误差意义下是最优的效率损失也很小。由于高斯内核方便的数学性质也经常使用 K(x)= ?(x),?(x)为标准正态概率密度函数核密度估计与直方图很类似,但相比于直方图还有光滑连续的性質下图为直方图与核函数估计对 x1 =
在直方图中,横轴间隔为2数据落到某个区间,此区间y轴增加1/12在核密度估计中,不放另正态分布方差為2.25红色的虚线表示由每一个数据得到的正态分布,叠加一起得到核密度估计的结果蓝色表示。
那么问题就来了如何选定核函数的“方差”呢?这其实是由h来决定不同的带宽下的核函数估计结果差异很大,如下图:
不同的带宽得到的估计结果差别很大那么如何选择h?显然是选择可以使误差最小的下面用平均积分平方误差(mean intergrated squared error)的大小来衡量h的优劣。
为了使MISE(h)最小则转化为求极点问题,