数据挖掘中使用到的抽样分布函数

统计问题和数据分析上使用到的抽样分布函数1. 基本概念和定义2. 常见的抽样分布函数2.1 χ2\chi^{2}χ2分布2.2 t分布2.3 F分布3. 应用小结1. 基本概念和定义2. 常见的抽样分布函数2.1 χ2\chi^{2}χ2分布2.2 t分布2.3 F分布3. 应用小结...

Mobtgzhang

1204人浏览 · 2020-04-09 18:43:46

Mobtgzhang · 2020-04-09 18:43:46 发布

统计问题和数据分析上使用到的抽样分布函数

1. 基本概念和定义

抽样分布也称为统计量分布、随机变量函数分布，是指的是样本估计量的分布。样本估计量是样本的一个函数，在统计中称作统计量，因而抽样分布也是指的是统计量的分布。统计推断是直接基于统计量作出的。一般有两种样本抽样：单一样本统计量和两个样本统计量。多个样本的统计量是基于一个样本抽样形成的，所以下面详细介绍这种抽样。

样本均值抽样分布即所有样本的均值可能取值形成的概率分布。假设总体 $X$ 中个体总数(总体大小)为 $N$ ，样本的容量为 $n (< N)$ 并且总体有限均值为 $\mu$ ，方差为 $\sigma^{2}$ ，则
$\mathbb{E}(\bar X)=\mathbb{E}(\frac{1}{n}\sum\limits_{k=1}^{n}X_{k})=\frac{1}{n}\sum\limits_{k=1}^{n}\mathbb{E}(X_{k})=\frac{1}{n}\cdot n\mu=\mu$

特别地，当样本为有放回时候，则随机变量 $X_{i}$ 相互独立，因此有
$\text{var}(\bar X)=\text{var}(\frac{1}{n}\sum\limits_{k=1}^{n}X_{k})=\frac{1}{n^{2}}\sum\limits_{k=1}^{n}\text{var}(X_{k})=\frac{1}{n^{2}}\cdot n\sigma^{2}=\frac{\sigma^{2}}{n}$

如果样本为无放回情况的时候，记总体 $X$ 的取值分别为 $a_1,a_2,...,a_N$ ，由于抽样的随机性质，抽取到任意一个体的概率均为 $\frac{1}{N}$ ，而抽取到任意两个指定个体的概率为 $\frac{1}{N(N-1)}$ ，那么
$\mu= \mathbb{E}(X)=\frac{1}{N}\sum\limits_{k=1}^{N}a_{k}=\bar a$

$\sigma^{2}=\text{var}(X)=\mathbb{E}(X-\mu)=\frac{1}{N}\sum\limits_{k=1}^{N}(a_{k}-\bar a)^{2}$

对于任意的 $1\leq i\neq j \leq n$ 则有

$\text{cov}(X_{i},X_{j})=\mathbb{E}((X_{i}-\mu)(X_{j}-\mu))\\=\frac{1}{N(N-1)}\sum\limits_{s\neq t}(a_{t}-\bar a)(a_{t}-\bar a)\\=\frac{1}{N(N-1)}\cdot[\sum\limits_{s=1}^{N}\sum\limits_{s=1}^{N}(a_{t}-\bar a)(a_{t}-\bar a)-\sum\limits_{k=1}^{N}(a_{k}-\bar a)^{2}]$

注意， $\sum\limits_{s=1}^{N}\sum\limits_{s=1}^{N}(a_{t}-\bar a)(a_{t}-\bar a)=0$ ，那么
$\text{cov}(X_{i},X_{j})=-\frac{1}{N(N-1)}\sum\limits_{k=1}^{N}(a_{k}-\bar a)^{2}=-\frac{\sigma^{2}}{N-1}$

从而得到
$\text{var}(\bar X)=\frac{1}{n^{2}}\text{var}(\sum\limits_{k=1}^{n}X_{k})\\=\frac{1}{n^{2}}[\sum\limits_{k=1}^{n}\text{var}(X_{k})+\sum\limits_{i\neq j}\text{cov}(X_{i},X_{j})]\\=\frac{1}{n^{2}}[n\sigma^{2}-\frac{(n^{2}-n)\sigma^{2}}{N-1}]\\=\frac{N-n}{N-1}\frac{\sigma^{2}}{n}$

由上面的两个公式可以看出来，当 $n < < N$ 的时候，即 $n$ 比 $N$ 小得多的时候，两个式子可以近似处理。

2. 常见的抽样分布函数

最基本的由正态分布函数推导出的抽样分布函数，在统计中有三个重要的分布，即 $\chi^{2}$ 分布， $t$ 分布和 $F$ 分布，下面详细推导这量中分布函数。

2.1 正态抽样分布

正态抽样分布是最基本的抽样函数。假随机变量 $X_1,X_2,...,X_n$ ，是来自于正态总体 $N(\mu,\sigma^{2})$ 的样本，并且它们独立同分布、 $X_{k}\sim N(\mu,\sigma^{2})$ 。令 $\xi=\frac{1}{n}\sum\limits_{k=1}^{n}X_{k}$ ，那么显然根据概率分布函数的定义

$F(x)=P\{\xi \leq x\}=\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\int ...\int_{D}exp({-\frac{\sum\limits_{k=1}^{n}(x_{k}-\mu)^{2}}{2\sigma^2}})dx_{1}...dx_{n}$

其中，集合 $D=\{(x_{1},...,x_{n}|x_{1}+x_{2}+...+x_{n}\leq nx)\}$ ，后者的积分计算方法如下：
实际上，积分空间 $D$ 指的是超平面 $x_{1}+x_{2}+...+x_{n}\leq nx$ 的下方。我们令
$x_{1}=u-\sum\limits_{k=2}^{n}x_{k}$

那么，后者的积分形式可以写为
$F(x)=\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\int ...\int_{D}exp({-\frac{\sum\limits_{k=1}^{n}(x_{k}-\mu)^{2}}{2\sigma^2}})dx_{1}...dx_{n}\\ =\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\int_{-\infty}^{+\infty} ...\int_{-\infty}^{nx-\sum\limits_{k=2}^{n}x_{k}}exp({-\frac{\sum\limits_{k=1}^{n}(x_{k}-\mu)^{2}}{2\sigma^2}})dx_{1}...dx_{n}\\ =\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\int_{-\infty}^{+\infty} ... \int_{-\infty}^{+\infty}\int_{-\infty}^{nx}exp({-\frac{\sum\limits_{k=2}^{n}(x_{k}-\mu)^{2}+(u-\sum\limits_{k=2}^{n}x_{k}-\mu)^{2}}{2\sigma^2}})dudx_{2}...dx_{n}\\ =\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\int_{-\infty}^{nx} ...\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}exp({-\frac{\sum\limits_{k=2}^{n}(x_{k}-\mu)^{2}+(u-\sum\limits_{k=2}^{n}x_{k}-\mu)^{2}}{2\sigma^2}})dx_{2}...dx_{n}du$

为方便计算，对于上式中幂指数 $e x p$ 中有关项的计算如下：
$z_{n}=\sum\limits_{k=2}^{n}(x_{k}-\mu)^{2}+(u-\sum\limits_{k=2}^{n}x_{k}-\mu)^{2}\\ =\sum\limits_{k=2}^{n}(x_{k}^{2}-2\mu x_{k}+\mu^{2})+u^{2}+\mu^{2}+(\sum\limits_{k=2}^{n}x_{k})^{2} +2\mu\sum\limits_{k=2}^{n}x_{k}-2u\sum\limits_{k=2}^{n}x_{k}-2u\mu\\ =\sum\limits_{k=2}^{n}x_{k}^{2}+(\sum\limits_{k=2}^{n}x_{k})^{2}-2u\sum\limits_{k=2}^{n}x_{k}+\sum\limits_{k=2}^{n}\mu^{2}+u^{2}+\mu^{2}-2u\mu\\ =\sum\limits_{k=2}^{n}x_{k}^{2}+\sum\limits_{k=2}^{n}\sum\limits_{j=2}^{n}x_{k}x_{j}-2u\sum\limits_{k=2}^{n}x_{k}+n\mu^2+u^{2}-2u\mu\\ =2x_{2}^{2}+2x_{2}(\sum\limits_{k=3}^{n}x_{k}-u)+\sum\limits_{k=3}^{n}x_{k}^{2}+\sum\limits_{k=3}^{n}\sum\limits_{j=3}^{n}x_{k}x_{j}-2u\sum\limits_{k=3}^{n}x_{k}+n\mu^2+u^{2}-2u\mu\\ =2(x_{2}+\frac{\sum\limits_{k=3}^{n}x_{k}-u}{2})^2-\frac{(\sum\limits_{k=3}^{n}x_{k}-u)^2}{2}+\sum\limits_{k=3}^{n}x_{k}^{2}+\sum\limits_{k=3}^{n}\sum\limits_{j=3}^{n}x_{k}x_{j}-2u\sum\limits_{k=3}^{n}x_{k}+n\mu^2+u^{2}-2u\mu\\ =2(x_{2}+\frac{\sum\limits_{k=3}^{n}x_{k}-u}{2})^2+\sum\limits_{k=3}^{n}x_{k}^{2}+\frac{1}{2}\sum\limits_{k=3}^{n}\sum\limits_{j=3}^{n}x_{k}x_{j}-u\sum\limits_{k=3}^{n}x_{k}+n\mu^2+\frac{1}{2}u^{2}-2u\mu$
设
$c(x_{2})=2(x_{2}+\frac{\sum\limits_{k=3}^{n}x_{k}-u}{2})^2$

则
$z_{n}=c(x_{2})+\frac{3}{2}x_{3}^{2}+x_{3}(\sum\limits_{k=4}^{n}x_{k}-u)+\sum\limits_{k=4}^{n}x_{k}^{2}+\frac{1}{2}\sum\limits_{k=4}^{n}\sum\limits_{j=4}^{n}x_{k}x_{j}-u\sum\limits_{k=4}^{n}x_{k}+n\mu^2+\frac{1}{2}u^{2}-2u\mu\\ =c(x_{2})+\frac{3}{2}(x_{3}+\frac{\sum\limits_{k=4}^{n}x_{k}-u}{3})^2-\frac{1}{6}(\sum\limits_{k=4}^{n}x_{k}-u)^2+\sum\limits_{k=4}^{n}x_{k}^{2}+\frac{1}{2}\sum\limits_{k=4}^{n}\sum\limits_{j=4}^{n}x_{k}x_{j}-u\sum\limits_{k=4}^{n}x_{k}+n\mu^2+\frac{1}{2}u^{2}-2u\mu\\ =c(x_{2})+\frac{3}{2}(x_{3}+\frac{\sum\limits_{k=4}^{n}x_{k}-u}{3})^2+\sum\limits_{k=4}^{n}x_{k}^{2}+\frac{1}{3}\sum\limits_{k=4}^{n}\sum\limits_{j=4}^{n}x_{k}x_{j}-\frac{2}{3}u\sum\limits_{k=4}^{n}x_{k}+n\mu^2+\frac{1}{3}u^{2}-2u\mu$

设
$c(x_{3})=\frac{3}{2}(x_{3}+\frac{\sum\limits_{k=4}^{n}x_{k}-u}{3})^2$

则
$z_{n}=c(x_{2})+c(x_{3})+\sum\limits_{k=4}^{n}x_{k}^{2}+\frac{1}{3}\sum\limits_{k=4}^{n}\sum\limits_{j=4}^{n}x_{k}x_{j}-\frac{2}{3}u\sum\limits_{k=4}^{n}x_{k}+n\mu^2+\frac{1}{3}u^{2}-2u\mu\\ =...\\ =c(x_{2})+c(x_{3})+...+c(x_{s-1})+\sum\limits_{k=s}^{n}x_{k}^{2}+\frac{1}{s-1}\sum\limits_{k=s}^{n}\sum\limits_{j=s}^{n}x_{k}x_{j}-\frac{2}{s-1}u\sum\limits_{k=s}^{n}x_{k}+n\mu^2+\frac{1}{s-1}u^{2}-2u\mu\\ =...$

通过一系列计算，可以得到

$z_{n}=\sum\limits_{k=2}^{n}c(x_{k})+n\mu^{2}+\frac{u^{2}}{n}-2u\mu$

其中

$c(x_{s})=\frac{s}{s-1}(x_{s}+\frac{\sum\limits_{k=s+1}^{n}x_{k}-u}{s})^{2}$

所以，上述计算过程中积分表达式可以写做

$F(x)=\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\int_{-\infty}^{nx}exp(-\frac{n\mu^{2}+\frac{u^{2}}{n}-2u\mu}{2\sigma^{2}})du\int_{-\infty}^{+\infty}c(x_{n})dx_{n}...\int_{-\infty}^{+\infty}c(x_{2})dx_{2}$

而
$\int_{-\infty}^{+\infty}c(x_{s})=\int_{-\infty}^{+\infty}exp(-\frac{\frac{s}{s-1}(x_{s}+\frac{\sum\limits_{k=s+1}^{n}x_{k}-u}{s})^{2}}{2\sigma^{2}})dx_{s}\\ =\sqrt{2\pi}\sigma\cdot\sqrt{\frac{s-1}{s}}$

故而

$F(x)=\frac{1}{(\sqrt{2\pi}\sigma)^{n}}\cdot(\sqrt{2\pi}\sigma)^{n-1}\cdot\sqrt{\frac{n-1}{n}}\cdot...\cdot\sqrt{\frac{s-1}{s}}\cdot...\cdot\sqrt{\frac{2-1}{2}}\int_{-\infty}^{nx}exp(-\frac{n\mu^{2}+\frac{u^{2}}{n}-2u\mu}{2\sigma^{2}})du$

即

$F(x)=\frac{1}{\sqrt{2\pi n}\sigma}\int_{-\infty}^{nx}exp(-\frac{\frac{1}{n}(u-n\mu)^{2}}{2\sigma^{2}})du$

进行变换之后得到

$F(x)=\sqrt{\frac{n}{2\pi}}\frac{1}{\sigma}\int_{-\infty}^{x}exp(-\frac{n(t-\mu)^{2}}{2\sigma^{2}})dt$

所以综上所述， $\xi\sim N(\mu,\frac{\sigma^2}{n})$ ，并且有以下的结论

$\mathbb{E}(\bar X)=\mu$

$\text{var}(\bar X)=\frac{\sigma^{2}}{n}$

2.2 $\chi^{2}$ 分布

设 $n$ 个互相独立的随机变量 $X_{1},...,X_{n}$ 均服从标准正态分布，则这 $n$ 个服从标准正态分布的随机变量的平方和构成一个新的随机变量 $\xi=\sum\limits_{k=1}^{n}X_{k}^{2}$ ，则称变量 $\xi$ 服从参数为 $n$ 的卡方分布，并记做 $\xi\sim\chi^{2}(n)$ ，参数 $n$ 一般称为 $\chi^2$ 分布的自由度。
其中均值
$\mathbb{E}(\xi)=\mathbb{E}(\sum\limits_{k=1}^{n}X_{k}^{2})=\sum\limits_{k=1}^{n}\mathbb{E}(X_{k}^{2})$

而

$\mathbb{E}(X_{k}^{2})=\text{var}(X_{k})+(\mathbb{E}(X_{k}))^{2}=1+0^{2}=1$

从而得到

$\mathbb{E}(\xi)=n$

方差的求法如下所示：
$\text{var}(\xi)=\mathbb{E}(\xi^{2})-(\mathbb{E}(\xi))^{2}$

而

$\mathbb{E}(\xi^{2})=\mathbb{E}((\sum\limits_{k=1}^{n}X_{k}^{2})^{2})\\ =\mathbb{E}(\sum\limits_{k=1}^{n}\sum\limits_{j=1}^{n}X_{k}^{2}X_{j}^{2})\\ =\sum\limits_{k=1}^{n}\mathbb{E}(X_{k}^{4})+2\sum\limits_{k=1}^{n}\sum\limits_{j=1}^{k-1}\mathbb{E}(X_{k}^{2})\mathbb{E}(X_{j}^{2})\\ =\sum\limits_{k=1}^{n}\mathbb{E}(X_{k}^{4})+n(n-1)$

$\mathbb{E}(X_{k}^{4})=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}x^{4}e^{-\frac{1}{2}x^{2}}dx=3$

所以
$\text{var}(\xi)=3n+n(n-1)-n^{2}=2n$

$\chi^{2}$ 分布是具有可加性的。假设 $\chi_{1}^{2}\sim{\chi^{2}(n)}$ 、 $\chi_{2}^{2}\sim{\chi^{2}(m)}$ 并且两个随机变量独立，那么根据 $\chi^{2}$ 分布的定义可知。
$\chi_{1}^{2}=\sum\limits_{k=1}^{n}X_{k}^{2}$

$\chi_{2}^{2}=\sum\limits_{k=1}^{m}X_{k}^{2}$

可见

$\chi_{1}^{2}+\chi_{2}^{2}=\sum\limits_{k=1}^{m+n}X_{k}^{2}$

显然有下面的结论

$\chi_{1}^{2}+\chi_{2}^{2}\sim{\chi^{2}(m+n)}$

对于 $N$ 个独立同分布的 $\chi^{2}$ 分布随机变量之和的分布也是 $\chi^{2}$ 分布。

$\chi^2$ 分布的概率分布函数求法如下所示：
我们首先计算 $P\{\xi< x\}$ 。当 $x\leq0$ 时，显然概率为 $0$ 。当 $x > 0$ 时，根据概率分布函数的定义可以得到：
$F(x)=P\{\xi\leq x\}=\frac{1}{(\sqrt{2\pi})^{n}}\int...\int_{D}exp(-\frac{1}{2}\sum\limits_{k=1}^{n}x_{k}^{2})dx_{1}...dx_{n}$

其中，集合区间 $D$ 表示 $n$ 维空间下的球体 $D=\{(x_{1},x_{2},...,x_{n})|\sum\limits_{k=1}^{n}x_{k}^{2}\leq x\}$ ，利用球坐标变换公式
$x_{1}=r\cos(\theta_{1})$

$x_{2}=r\sin(\theta_{1})\cos(\theta_{2})$

$x_{3}=r\sin(\theta_{1})\sin(\theta_{2})\cos(\theta_{3})$

$. . .$

$x_{n-1}=r\sin(\theta_{1})\sin(\theta_{2})...\cos(\theta_{n-1})$

$x_{n}=r\sin(\theta_{1})\sin(\theta_{2})...\sin(\theta_{n-1})$

经过推导，可以得到 $\text{Jacobi}$ 行列式的结果：
$J=\frac{\partial(x_{1},...,x_{n})}{\partial(\theta_{1},...,\theta_{n})}=r^{n-1}\sin^{n-2}(\theta_{1})\sin^{n-3}(\theta_{2})...\sin^{2}(\theta_{n-3})\sin(\theta_{n-2})$

从而得到
$F(x)=P\{\xi\leq x\}=\frac{1}{(\sqrt{2\pi})^{n}}\int_{0}^{2\pi}\sin^{n-2}(\theta_{1})d\theta_{1}\int_{0}^{2\pi}\sin^{n-3}(\theta_{2})d\theta_{2}...\int_{0}^{2\pi}\sin(\theta_{n-2})d\theta_{n-2}\int_{0}^{\sqrt{x}}exp(-\frac{1}{2}r^{2})r^{n-1}dr$

当然，上式的求法可以通过Wallis公式可以求出值，这里使用一种较为简单的方法。我们令
$c_{n}=\frac{1}{(\sqrt{2\pi})^{n}}\int_{0}^{2\pi}\sin^{n-2}(\theta_{1})d\theta_{1}\int_{0}^{2\pi}\sin^{n-3}(\theta_{2})d\theta_{2}...\int_{0}^{2\pi}\sin(\theta_{n-2})d\theta_{n-2}$

那么概率分布函数可以化为
$F(x)=c_{n}\int_{0}^{\sqrt{x}}e^{-\frac{1}{2}r^{2}}r^{n-1}dr$

根据概率分布函数的性质，可以得到
$\lim_{x\rightarrow+\infty}F(x)=c_{n}\int_{0}^{+\infty}e^{-\frac{1}{2}r^{2}}r^{n-1}dr=1$

再做变换 $r=\sqrt{2t},dr=\frac{dt}{\sqrt{2t}}$ ，那么上式化为

$c_{n}\int_{0}^{+\infty}e^{-t}\cdot t^{\frac{n-2}{2}}\cdot 2^{\frac{n-2}{2}}dt=1$

即

$c_{n}=\frac{2^{1-\frac{n}{2}}}{\int_{0}^{+\infty}t^{\frac{n-2}{2}}e^{-t}dt}=\frac{2^{1-\frac{n}{2}}}{\Gamma(\frac{n}{2})}$

所以得到

$F(x)=\frac{2^{1-\frac{n}{2}}}{\Gamma(\frac{n}{2})}\int_{0}^{\sqrt x}e^{-\frac{1}{2}r^{2}}r^{n-1}dr\\ =\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}\int_{0}^{x}e^{-\frac{1}{2}t}t^{\frac{n}{2}-1}dt$

综上所述， $\chi^{2}$ 分布概率密度函数为

$f(x|n)=\begin{cases} \frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}e^{-\frac{1}{2}x}x^{\frac{n}{2}-1} &, \text{ if } x>0\\ 0&,\text{ if } x\leq 0 \end{cases}$

$\chi^{2}$ 分布的函数图像如下所示
卡房分布函数图

实际上， $\chi^{2}$ 分布是 $\text{Gamma}$ 分布的一种特殊情况。特别地，若随机变量 $X$ 满足 $X\sim \chi^{2}(n)$ ，那么必然有 $X\sim\text{Gam}(\frac{n}{2},\frac{1}{2})$ 。具体 $\text{Gamma}$ 分布函数可以参考笔者的另一篇博文：深度学习中的一些概率函数分布。

2.3 t分布

若随机变量 $X$ 和 $Y$ 相互独立，并且 $X\sim N(0,1),Y\sim \chi^{2}(n)$ ，称随机变量
$T=\frac{X}{\sqrt{Y/n}}$

为自由度为 $n$ 的 $t$ 分布，并记做 $T\sim t(n)$ 。 $t$ 分布概率密度函数推导过程如下所示：
设 $t$ 概率分布函数为 $F (t)$ ，那么根据概率分布函数的定义得到：
$F(t)=P\{T\leq{t}\}=P\{\frac{X}{\sqrt{Y/n}}\leq{t}\}=P\{X\leq{t}\cdot{\sqrt{Y/n}}\}\\ =\int_{-\infty}^{+\infty}(\int_{-\infty}^{t\sqrt{\frac{y}{n}}}f_{X}(x)dx)f_{Y}(y)dy\\ =\int_{0}^{+\infty}\int_{-\infty}^{t\sqrt{\frac{y}{n}}}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\cdot{e^{-\frac{1}{2}y}y^{\frac{n}{2}-1}}dxdy\\ =\frac{1}{\sqrt{2\pi}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\int_{0}^{+\infty}\int_{-\infty}^{t\sqrt{\frac{y}{n}}}e^{-\frac{x^{2}+y}{2}}y^{\frac{n}{2}-1}dxdy$

做变换 $u=x\sqrt{\frac{n}{y}}$ ，则 $du=\sqrt{\frac{n}{y}}dx,dx=\sqrt{\frac{y}{n}}du$ ， $x=u\sqrt{\frac{y}{n}}$ ，所以积分表达式变为

$F(t)=\frac{1}{\sqrt{2\pi}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\int_{0}^{+\infty}\int_{-\infty}^{t}e^{-\frac{yu^{2}+ny}{2n}}y^{\frac{n}{2}-1}\sqrt{\frac{y}{n}}dudy\\ =\frac{1}{\sqrt{2\pi n}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\int_{0}^{+\infty}\int_{-\infty}^{t}e^{-\frac{yu^{2}+ny}{2n}}y^{\frac{n-1}{2}}dudy$

所以，有以下的表达式
$F(t)=\frac{1}{\sqrt{2\pi n}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\int_{-\infty}^{t}\int_{0}^{+\infty}e^{-\frac{yu^{2}+ny}{2n}}y^{\frac{n-1}{2}}dydu$

从而有
$f(t)=\frac{dF(t)}{dt}=\frac{1}{\sqrt{2\pi n}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\int_{0}^{+\infty}e^{-\frac{yt^{2}+ny}{2n}}y^{\frac{n-1}{2}}dy$

做变换 $z=\frac{t^{2}+n}{2n}y,y=\frac{2n}{t^{2}+n}z$ ，那么 $dz=\frac{t^{2}+n}{2n}dy,dy=\frac{2n}{t^{2}+n}dz$ ，所以有

$f(t)=\frac{1}{\sqrt{2\pi n}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\int_{0}^{+\infty}e^{-z}(\frac{2n}{t^{2}+n}z)^{\frac{n-1}{2}}\cdot{\frac{2n}{t^{2}+n}}dz\\ =\frac{1}{\sqrt{2\pi n}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}(\frac{2n}{t^{2}+n})^{\frac{n+1}{2}}\int_{0}^{+\infty}e^{-z}z^{\frac{n-1}{2}}dz\\ =\frac{1}{\sqrt{2\pi n}}\cdot{\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}}\cdot{(\frac{t^{2}+n}{2n})^{-\frac{n+1}{2}}}\cdot{\Gamma(\frac{n+1}{2})}\\ =\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})}\cdot{\frac{1}{\sqrt{n\pi}}}(\frac{t^{2}}{n}+1)^{-\frac{n+1}{2}}$

这样我们得到了t分布的表达式

$\text{Stu}(x|n)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})}\cdot{\frac{1}{\sqrt{n\pi}}}(\frac{x^{2}}{n}+1)^{-\frac{n+1}{2}}$

其中均值和方差的推导如下所示：

由于随机变量 $X$ 和 $Y$ 相互独立，故而 $X$ 和 $\sqrt{\frac{n}{Y}}$ 也是互相独立的，故而
$\mathbb{E}(T)=E(\frac{X}{\sqrt{Y/n}})=E(X)E(\sqrt{\frac{n}{Y}})=0\cdot{E(\sqrt{\frac{n}{Y}})}=0$

$\text{var}(T)=\text{var}(\frac{X}{\sqrt{Y/n}})\\ =E(\frac{nX^{2}}{Y})-(E(\frac{X}{\sqrt{Y/n}}))^{2}\\ =nE(X^{2})E(\frac{1}{Y})$

$E(X^{2})=\text{var}(X)+(E(X))^{2}=1$

$E(\frac{1}{Y})=\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}\int_{0}^{+\infty}\frac{1}{x}e^{-\frac{1}{2}x}x^{\frac{n}{2}-1}dx\\ =\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}\int_{0}^{+\infty}e^{-\frac{1}{2}x}x^{\frac{n}{2}-2}dx$

做变换 $z=\frac{x}{2}$ ，那么 $x = 2 z, d x = 2 d z$ ，从而得到

$E(\frac{1}{Y})=\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}\int_{0}^{+\infty}e^{-z}(2z)^{\frac{n}{2}-2}2dz\\ =\frac{2^{-\frac{n}{2}}}{2\Gamma(\frac{n}{2})}\int_{0}^{+\infty}e^{-z}z^{\frac{n}{2}-2}dz\\ =\frac{2^{-\frac{n}{2}}}{2\Gamma(\frac{n}{2})}\cdot{\Gamma(\frac{n}{2}-1)}$

而根据Gamma函数的性质可知
$\Gamma(\frac{n}{2})=(\frac{n}{2}-1)\Gamma(\frac{n}{2}-1)$

即

$\frac{\Gamma(\frac{n}{2}-1)}{\Gamma(\frac{n}{2})}=\frac{2}{n-2}$

所以

$E(\frac{1}{Y})=\frac{1}{n-2}$

所以对于t分布的方差为
$\text{var}(T)=\frac{n}{n-2}$

t分布概率密度函数图像如下所示：

自由度 $n$ 是决定 $t$ 分布概率密度函数的条件。特别地，当 $n\rightarrow+\infty$ 时候， $t$ 分布近似于正态分布函数。证明如下所示：

$\lim_{n\rightarrow+\infty}\text{Stu}(x|n)=\lim_{n\rightarrow+\infty}\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})}\cdot{\frac{1}{\sqrt{n\pi}}}(\frac{x^{2}}{n}+1)^{-\frac{n+1}{2}}\\ =\lim_{n\rightarrow+\infty}\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})}\cdot{\frac{1}{\sqrt{n\pi}}}\cdot{\lim_{n\rightarrow+\infty}}(\frac{x^{2}}{n}+1)^{-\frac{n+1}{2}}$

其中，

$\lim_{n\rightarrow+\infty}(\frac{x^{2}}{n}+1)^{-\frac{n+1}{2}}=e^{-\frac{1}{2}x^{2}}$
对于t分布中的归一化系数
$I_{n}=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})}\cdot{\frac{1}{\sqrt{n\pi}}}$

极限的计算首先引入两个引理。假设 $k$ 为整数，那么根据Gamma函数的性质可知：

$\Gamma(k+\frac{1}{2})=(k-\frac{1}{2})\Gamma(k-\frac{1}{2})=...=\frac{(2k-1)!!}{2^{k}}\Gamma(\frac{1}{2})=\frac{(2k-1)!!}{2^{k}}\sqrt{\pi}$

$\Gamma(k)=(k-1)!\Gamma(1)=(k-1)!$

以及Wallis公式:
$\lim_{n\rightarrow+\infty}(\frac{(2k)!!}{(2k-1)!!})^{2}\frac{1}{2k+1}=\frac{\pi}{2}$

有了以上的引理，那么 $I_{n}$ 的极限也就很容易求出来了：
所以当 $n$ 为偶数的时候，不妨设 $n = 2 k$ ，则
$\lim_{k\rightarrow+\infty}I_{2k}=\lim_{k\rightarrow+\infty}\frac{\Gamma(\frac{2k+1}{2})}{\Gamma(\frac{2k}{2})}\cdot{\frac{1}{\sqrt{2k\pi}}}\\ =\lim_{k\rightarrow+\infty}\frac{\frac{(2k-1)!!}{2^{k}}\sqrt{\pi}}{(k-1)!}\cdot{\frac{1}{\sqrt{2k\pi}}}\\ =\lim_{k\rightarrow+\infty}\frac{(2k-1)!!}{(2k)!!}\cdot{\frac{\sqrt{2k}}{2}}\\ =\lim_{k\rightarrow+\infty}\frac{(2k-1)!!}{(2k)!!}\cdot{\sqrt{2k+1}}\cdot{\frac{\sqrt{2k}}{2\sqrt{2k+1}}}=\sqrt{\frac{2}{\pi}}\cdot{\frac{1}{2}}=\frac{1}{\sqrt{2\pi}}$

当 $n$ 为奇数的时候，不妨设 $n = 2 k + 1$ ，则
$\lim_{k\rightarrow+\infty}I_{2k+1}=\lim_{k\rightarrow+\infty}\frac{\Gamma(\frac{2k+1+1}{2})}{\Gamma(\frac{2k+1}{2})}\cdot{\frac{1}{\sqrt{(2k+1)\pi}}}\\ =\frac{k!}{\frac{(2k-1)!!}{2^{k}}\sqrt{\pi}}\cdot{\frac{1}{\sqrt{(2k+1)\pi}}}\\ =\lim_{k\rightarrow+\infty}\frac{(2k)!!}{(2k-1)!!}\cdot{\frac{1}{\sqrt{2k+1}}}\cdot{\frac{1}{\pi}}\\ =\sqrt{\frac{\pi}{2}}\cdot{\frac{1}{\pi}}=\frac{1}{\sqrt{2\pi}}$

显然
$\lim\limits_{n\rightarrow+\infty}I_{n}=\lim\limits_{k\rightarrow+\infty}I_{2k}=\lim\limits_{k\rightarrow+\infty}I_{2k+1}=\frac{1}{\sqrt{2\pi}}$

故而
$\lim_{n\rightarrow+\infty}\text{Stu}(x|n)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^{2}}$

所以有结论
$\lim_{n\rightarrow+\infty}\text{Stu}(n)=N(0,1)$

在笔者的一篇博文深度学习中的一些概率函数分布中提到了一种一般形式的t分布函数：
$\text{Stu}(x|\mu,\lambda,n)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})}\sqrt{\frac{\lambda}{n\pi}}(1+\frac{\lambda(x-\mu)^{2}}{n})^{-\frac{n+1}{2}}$

其函数的极限也是正态分布密度函数，其中精度 $\lambda=\sigma^{-2}$ 。
$\lim_{n\rightarrow+\infty}\text{Stu}(x|\mu,\lambda,n)=\sqrt{\frac{\lambda}{2\pi}}e^{-\frac{\lambda(x-\mu)^{2}}{2}}$

2.4 F分布

F分布是抽样分布中最为常见的一种分布方式。若总体 $X\sim{N(0,1)}$ ，其中两个独立样本 $X_{1},X_{2},...,X_{n}$ 和 $Y_{1},Y_{2},...,Y_{m}$ 为来自总体 $X$ 的样本，设统计量
$F=\frac{\frac{1}{n}\sum\limits_{k=1}^{n}X_{k}^{2}}{\frac{1}{m}\sum\limits_{k=1}^{m}Y_{k}^{2}}$

则定义统计量 $F$ 服从自由度为 $n, m$ 的 $F$ 分布，并且记为 $F\sim{F(n,m)}$ 。当然， $F$ 分布的定义可以定义为两个 $\chi^{2}$ 分布的随机变量的比值的定义，即
$F=\frac{\frac{1}{n}\chi^2(n)}{\frac{1}{m}\chi^2(m)}$

其中概率密度函数的推导如下所示：
$F(t)=P\{F\leq{t}\}=P\{\frac{m}{n}\cdot{\frac{X}{Y}}\leq{t}\}$

当 $t < 0$ 时候，显然
$F(t)=P\{F\leq{t}\}=0$

当 $t\geq{0}$ 时候，那么

$F(t)=P\{F\leq{t}\}=P\{\frac{m}{n}\cdot{\frac{X}{Y}}\leq{t}\}\\ =P\{X\leq{\frac{nt}{m}Y}\}\\ =\int_{-\infty}^{+\infty}(\int_{-\infty}^{\frac{nt}{m}y}f_{X}(x)dx)f_{Y}(y)dy\\ =\int_{0}^{+\infty}\int_{0}^{\frac{nt}{m}y}\frac{2^{-\frac{n}{2}}}{\Gamma(\frac{n}{2})}e^{-\frac{1}{2}x}x^{\frac{n}{2}-1}\frac{2^{-\frac{m}{2}}}{\Gamma(\frac{m}{2})}e^{-\frac{1}{2}y}y^{\frac{m}{2}-1}dxdy\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\int_{0}^{+\infty}\int_{0}^{\frac{nt}{m}y}e^{-\frac{1}{2}(x+y)}x^{\frac{n}{2}-1}y^{\frac{m}{2}-1}dxdy$

现在，令 $u=\frac{mx}{ny}$ ，那么 $du=\frac{m}{ny}dx$ 即 $dx=\frac{ny}{m}du$ , $x=\frac{ny}{m}u$ ,故而可以得到
$F(t)=\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\int_{0}^{+\infty}\int_{0}^{t}\frac{ny}{m}\cdot{e^{-\frac{ny}{2m}u}e^{-\frac{1}{2}y}(\frac{ny}{m}u)^{\frac{n}{2}-1}y^{\frac{m}{2}-1}}dudy\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}\int_{0}^{+\infty}\int_{0}^{t}y\cdot{e^{-\frac{ny}{2m}u}}\cdot{e^{-\frac{1}{2}y}}\cdot{(yu)^{\frac{n}{2}-1}}\cdot{y^{\frac{m}{2}-1}}dudy\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}\int_{0}^{+\infty}\int_{0}^{t}e^{-\frac{ny}{2m}u}e^{-\frac{1}{2}y}u^{\frac{n}{2}-1}y^{\frac{m+n}{2}-1}dudy\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}\int_{0}^{t}\int_{0}^{+\infty}e^{-\frac{ny}{2m}u}e^{-\frac{1}{2}y}u^{\frac{n}{2}-1}y^{\frac{m+n}{2}-1}dydu$

所以
$f(t)=\frac{dF(t)}{dt}=\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}\int_{0}^{+\infty}e^{-\frac{ny}{2m}t}e^{-\frac{1}{2}y}t^{\frac{n}{2}-1}y^{\frac{m+n}{2}-1}dy\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}t^{\frac{n}{2}-1}\int_{0}^{+\infty}e^{-\frac{nt}{2m}y}e^{-\frac{1}{2}y}y^{\frac{m+n}{2}-1}dy\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}t^{\frac{n}{2}-1}\int_{0}^{+\infty}e^{-\frac{nt+m}{2m}y}y^{\frac{m+n}{2}-1}dy$

我们设 $z=\frac{nt+m}{2m}y,y=\frac{2m}{nt+m}z$ ，那么 $dy=\frac{2m}{nt+m}dz$ ，从而得到以下的结果

$f(t)=\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}t^{\frac{n}{2}-1}\int_{0}^{+\infty}e^{-\frac{nt+m}{2m}y}y^{\frac{m+n}{2}-1}dy\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}t^{\frac{n}{2}-1}\int_{0}^{+\infty}e^{-z}(\frac{2m}{nt+m}z)^{\frac{m+n}{2}-1}\frac{2m}{nt+m}dz\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}t^{\frac{n}{2}-1}(\frac{2m}{nt+m})^{\frac{m+n}{2}}\int_{0}^{+\infty}e^{-z}z^{\frac{m+n}{2}-1}dz\\ =\frac{2^{-\frac{n+m}{2}}}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}t^{\frac{n}{2}-1}(\frac{2m}{nt+m})^{\frac{m+n}{2}}\Gamma(\frac{m+n}{2})\\ =\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\cdot{(\frac{n}{m})^{\frac{n}{2}}}t^{\frac{n}{2}-1}(\frac{n}{m}t+1)^{-\frac{m+n}{2}}$

易知， $\frac{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}{\Gamma(\frac{m+n}{2})}=\Beta(\frac{n}{2},\frac{m}{2})$

所以，最终求得 $F$ 分布的表达式为

$F(x|n,m)=\begin{cases} \frac{(\frac{n}{m})^{\frac{n}{2}}}{B(\frac{n}{2},\frac{m}{2})}x^{\frac{n}{2}-1}(1+\frac{n}{m}x)^{-\frac{n+m}{2}}&,\text{ if }x\geq{0}\\ 0&,\text{ if }x<0 \end{cases}$

在 $F$ 分布中，其中的方差和均值为

$E(F)=E(\frac{m}{n}\cdot{\frac{X}{Y}})=\frac{m}{n}E(\frac{X}{Y})=\frac{m}{n}E(X)E(\frac{1}{Y})=\frac{m}{n}\cdot{n}\cdot{\frac{1}{m-2}}=\frac{m}{m-2}$

$\text{var}(F)=\text{var}(\frac{m}{n}\cdot{\frac{X}{Y}})\\ =\frac{m^{2}}{n^{2}}E(\frac{X^{2}}{Y^{2}})-(E(\frac{m}{n}\cdot{\frac{X}{Y}}))^{2}$

其中， $E(\frac{X^{2}}{Y^{2}})=E(X^{2})E(\frac{1}{Y^{2}})$ ，那么可以知道

$E(X^{2})=\text{var}(X)+(E(X))^{2}=2n+n^{2}$

$E(\frac{1}{Y^{2}})=\frac{2^{-\frac{m}{2}}}{\Gamma(\frac{m}{2})}\int_{0}^{+\infty}\frac{1}{x^{2}}e^{-\frac{1}{2}x}x^{\frac{m}{2}-1}dx\\ =\frac{2^{-\frac{m}{2}}}{\Gamma(\frac{m}{2})}\int_{0}^{+\infty}e^{-\frac{1}{2}x}x^{\frac{m}{2}-3}dx$

做变换 $z=\frac{x}{2}$ ，则 $x = 2 z, d x = 2 d z$ ，于是

$E(\frac{1}{Y^{2}})=\frac{2^{-\frac{m}{2}}}{\Gamma(\frac{m}{2})}\int_{0}^{+\infty}e^{-z}(2z)^{\frac{m}{2}-3}2dz\\ =\frac{1}{4\Gamma(\frac{m}{2})}\int_{0}^{+\infty}e^{-z}z^{\frac{m}{2}-3}dz\\ =\frac{1}{4\Gamma(\frac{m}{2})}\cdot{\Gamma(\frac{m}{2}-2)}$

而
$\Gamma(\frac{m}{2})=(\frac{m}{2}-1)\Gamma(\frac{m}{2}-1)=(\frac{m}{2}-2)(\frac{m}{2}-1)\Gamma(\frac{m}{2}-2)$

即

$\frac{\Gamma(\frac{m}{2}-2)}{\Gamma(\frac{m}{2})}=\frac{4}{(m-2)(m-4)}$

所以

$E(\frac{1}{Y^{2}})=\frac{1}{(m-2)(m-4)}$

故而
$\text{var}(F)=\frac{m^{2}}{n^{2}}\cdot{n(n+2)}\cdot{\frac{1}{(m-2)(m-4)}}-(\frac{m}{m-2})^{2}=\frac{2m^{2}(m+n-2)}{n(m-2)^{2}(m-4)}$

F分布的概率密度函数图像如下所示
F分布概率密度函数图像

3. 应用

这三大概率抽样分布 $\chi^{2}$ 分布、t分布和F分布是最重要的分布函数。经过上面的证明和讨论，相信已经对这三种分布函数有了很深的理解。在机器学习和数据挖掘中，我们可以通过使用这三种概率模型对样本数据进行概率推断，然后对一些数据进行预测和模拟。
$\chi^{2}$ 分布主要有两个用途：

用于检验拟合优良程度，检验一组数据与指定曲线的拟合程度，或者检验某组观察值是否符合某种分布情况。
检验两个变量的独立性，通过这个方法检查两个变量之间是否存在某种关联。

一般来说，通过检验统计量 $X^{2}=\sum\limits_{k=1}^{n}\frac{(O-E)^{2}}{E}$ 比较期望结果与实际结果的差别之处。
t分布和F分布主要应用于区间估计中。这是从点估计值和抽样标准误差同时出发的，是先给定概率值，然后再简历的包含待估计参数的区间，其中这个给定的概率值被称作置信度或者是置信水平。在参数估计中，对总体进行区间估计的时候，通常考虑到总体是否为正态分布、总方差是否为已知、又或用于构造统计量的样本是否为正态分布等等情况。

小结

本小节介绍了 $\chi^{2}$ 分布、t分布以及F分布，这些分布在一些概率推断，尤其是变分推断和贝叶斯推断中有着举足轻重的作用。在接下来的博文中，笔者会介绍一些关于这些概率分布函数的推断以及在程序中的应用等。

点击阅读全文

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【2025年泰迪杯数据挖掘挑战赛】B题详细解题思路+数据预处理+代码分享

初步分析整理了B题的赛题分析与解题思路，后面还会更新详细的建模论文与解题代码，明天完成！

永洪数据分析社区

2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享

针对问题二，将处理后的数据集，进行合并为一个完整的数据集作为训练数据集，性别（Sex）和年龄（Age）为类别变量，加速度计数据作为输入数据，MET值作为输出数据，引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型，并利用RMSE对模型精度进行评估。原始数据存储于CSV格式文件中，其中记录了时间戳和对应的三轴加速度值（X，Y，Z轴），这些数据反映了个体在空间中各个方向上的加