
相关性检验-皮尔逊检验
原理:通过统计学方法来判断两个变量之间是否存在显著的关联关系。
一般来说,相关性检验主要有两种常见的方法:Pearson相关分析和Spearman等级相关分析。
总体皮尔逊Person相关系数
Pearson相关分析是一种用来度量两个连续变量之间线性关系强度和方向的统计方法。它基于变量之间的协方差来衡量它们之间的相关性,并将其标准化以得到相关系数。Pearson相关系数的取值范围在-1到1之间。
计算公式:若有两组总体数据和
总体皮尔逊Person相关系数:
其中为总体协方差:
,
,
为总体均值;
为X的标准差
,
为Y的标准差
注意:只有在两组数据本身是线性关系时,才可以用皮尔逊相关系数来表示相关性大小。其中相关系数在-1到1之间:绝对值越大,则相关性越强。系数为正时,两者呈正相关;系数为负时,两者呈负相关。
否则,即使算出相关系数很大时,不确定两变量什么关系时,不能说明线性相关。
现在假设有两组数据(线性关系),对其进行皮尔逊相关系数检验
假设两组数据为和
,但是由于是调查采集得到,所以数据均为样本数据,不是总体数据
样本皮尔逊Person相关系数:
其中样本协方差:
为X的样本标准差
,
为Y的样本标准差
皮尔逊相关系数的计算假设了数据来自于正态分布。如果数据不符合正态分布,相关系数的计算结果可能会受到偏差或不准确。 所以需要对数据进行正态分布检验。
正态分布检验:根据数据大小选择不同的检验方法
- 雅克‐贝拉检验(JB检验):当样本数大于30时
可以证明,如果是正态分布,那么在大样本情况下
(自由度为2的卡方分布)
其中
接下来利用假设检验来验证正态性
- Shapiro‐wilk夏皮洛‐威尔克检验:当样本数大于3小于50时
利用spss来进行验证假设检验
- 或使用QQ图,数据是否近似地分布在一条直线上来验证正态性(数据量特别大时才有效)
计算相关系数显著性
对于计算所得的相关系数,我们需要验证其是否显著异于零,来说明两数据是否具有线性性质。
- 提出原假设:
和备择假设:
,r为皮尔逊相关系数
- 对于皮尔逊相关系数r,符合自由度为n-2的t分布,构造统计量
- 代入数据,得到检验值
- 根据分布情况,画出概率密度函数pdf, 并给定一个置信水平(一般取95%,或90%,99%),查表得到临界值。
- 比较临界值和检验值:若检验值大于临界值,则说明在该置信水平下,拒绝原假设
,即相关系数显著异于零,两者呈线性关系。
更多推荐



所有评论(0)