机器学习-累计分布函数(CDF)
1.累计分布函数(The Cumulative Distribution Function):在x点左侧事件发生的总和。累计分布函数的特性:①因为累计分布函数是计算x点左侧的点的数量,所以累计分布函数CDF是单调递增的。②CDF比没有直方图变化剧烈,但是CDF包含了相同的信息,并且减少了噪声。。③由于CDF不存在装箱(分段),因此比直方图能更好的展现数据。④所有的CDF中,...
1.累计分布函数(The Cumulative Distribution Function):在x点左侧事件发生的总和。
累计分布函数的特性:
①因为累计分布函数是计算x点左侧的点的数量,所以累计分布函数CDF是单调递增的。
②CDF比没有直方图变化剧烈,但是CDF包含了相同的信息,并且减少了噪声。。
③由于CDF不存在装箱(分段),因此比直方图能更好的展现数据。
④所有的CDF中,在x趋近-∞时,CDF趋近于0,当x趋近+∞时,CDF趋近与1(100%)
⑤对于给定的数据集,CDF是唯一的
CDF可以看做直方图的积分,直方图可以看做是CDF对x的导数。
2 对比概率图和特定分布
通过直方图/KDE和理论的密度函数对比是非常困难的,通过CDF进行对比是一个好点的选择,但是也不是特别容易。
针对高斯分布:
取反函数:
因此这个式子是斜率为σ并且截距是μ的一条直线。
针对垂直轴,采用原来数据的单位,针对水平轴x可以称为概率单位(probits)。
需要生成一个概率图,不但需要数据本身,还需要知道每一个点xi对应的分位点(quantile)yi。分位点取得方法如下:
①把数据进行升序排列
②分配每个数据的级别(rank),从1开始
③数据的分位点(quantile)yi定义为级别(rank)除以n+1,n是数据的总个数。
以下是例子:
更多推荐
所有评论(0)