统计学知识

1.交叉分析表当需要分析多个变量之间，一个变量是否对其他变量的取值存在影响，分析变量之间是否存在相关关系叫交叉表分析。检验方法：卡方检验，检验行列之间是否相关列联系数，用于名义变量之间的相关系数。表征变量之间的相关性强弱。0~1，0代表不相关；1代表相关性强皮尔逊卡方，似然比，线性关联三种检验结果，皮尔逊卡方常用在二维表中对行变量和列变量进行独立性假设检验，似然比用于对数据线性模型的检验。实验目的

文章共5,421字 · 阅读需要大约19分钟

一键AI生成摘要，助你高效阅读

问答

Lemon_ZL

10260人浏览 · 2020-09-25 17:08:53

Lemon_ZL · 2020-09-25 17:08:53 发布

1.交叉分析表

当需要分析多个变量之间，一个变量是否对其他变量的取值存在影响，分析变量之间是否存在相关关系叫交叉表分析。

检验方法：

卡方检验，检验行列之间是否相关

列联系数，用于名义变量之间的相关系数。表征变量之间的相关性强弱。0~1，0代表不相关；1代表相关性强

皮尔逊卡方，似然比，线性关联三种检验结果，皮尔逊卡方常用在二维表中对行变量和列变量进行独立性假设检验，似然比用于对数据线性模型的检验。

实验目的：为分析”实验准备“情况与评价结果的关系。

三种检验方法显著性水平都小于0.05，说明“实验结果于评价结果是独立的”不具有显著性，即认为实验准备这一评价指标与评价结果是相关的

2.方差分析(ANOVA)

用于两个及两个以上样本均数差别的显著性检验

P值远大于0.05说明不同性别受教育的人口数量没有显著性差异。Eta和平方取值都很小，说明性别和受教育的人口数量相关性很差

3.T检验

3.1单样本T检验用于比较样本数据与一个特定数值之间是否的差异情况。推断该总体的均值与指定的检验值之间是否存在显著性差异，它是对总体均值的假设检验。

前提是样本来自的总体应近似服从正态分布。

原假设样本均值=总体均值。比较的检验值是500，0.65>0.05,不在拒绝域，接受原假设。无差异，有理由相信生产线工作状态正常。

3.2独立样本T检验利用来自两个总体的独立样本，推断两个总体的均值是否存在显著差异。

3.3配对样本T检验 检验两组相关样本是否来自相同均值的正态分布也就是两个总体的均值是否存在显著差异。

4.假设检验

显著性水平：小概率值，原假设为真时拒绝原假设的概率/抽样分布的拒绝域

将“=”放在原假设

原假设是受保护的假设，没有充分依据是否定不了的；因此，研究者通常把常规的、已经存在的现象写在受保护的原假设H0中。先确立备择假设H1，将所研究的假设作为备择假设H1.或者说，把希望证明的假设作为备择假设。将认为研究结果是无礼的说法或者理论作为原假设。

5.非参数检验

参数检验通常是假设总体服从正态分布，样本统计量服从T分布的基础之上，对总体分布中一些未知的参数，例如总体均值、总体方差和总体标准差等进行统计推断。如果总体的分布情况未知，同时样本容量又小，无法运用中心极限定理实施参数检验，推断总体的集中趋势和离散程度的参数情况。这时，可以用非参数检验，非参数检验对总体分布不做假设，直接从样本的分析入手推断总体的分布。

6.卡方检验

7.二项分布检验

通过样本数据检验样本来自的总体是否服从指定概率为p的二项分布

H0：样本来自的总体与指定的二项分布无显著差异

8.单样本K-S检验

利用样本数据推断样本来自的总体是否服从某一指定分布，是一种拟合优度检验的方法。

9.方差分析

单因素方差分析用来研究控制一个变量的不同水平是否给观测变量造成显著差异和变动

例如：培训是否给学生成绩造成显著影响；不同学历是否对工资收入造成影响；不同地区考试成绩是否有显著影响；

方差分析的前提是各个水平下的总踢服从方差相等的正态分布，且各组方差具有齐性。正态分布的要求并不是很严格，但要求方差相等，必须对方差相等的前提进行检验。菜单【分析-比较平均值-单因素ANOVA检验】

0.995>0.05，接受原假设方差具有齐性。

ANOVA P=0.000<0.05拒绝原假设，说明饲料对养猪的效果有显著差异

想要进一步了解是哪种饲料与其他组有显著性的均值差别（哪种饲料更好）等细节问题，需要在【事后多重比较】。这个对话框主要用于定义多重比较的检验方法。例如方差分析的结果认为因素A各水平之间的差异会对观测变量X造成显著影响，但并不意味着两个水平之间的差异都会对X造成显著影响。需要将各个水平的均值进行两两比较。

P值都小于0.05，说明有显著差异，1的体重均值都低于其他三种，说明1没有234效果好。其中效果最好的是饲料4，3次之，1最差。

9.2 多因素方差分析

用来分析两个及两个以上的控制变量是否对观测变量产生显著影响。不仅能分析多个控制因素对观测变量的影响，也能够分析多个控制因素的交互作用对观测变量产生的影响，进而最终找到利于观测变量的最优组合。

可以认为各个组总体方差是相等的，满足方差检验的前提条件。

不同组别（教学方法）贡献离差平方和为3295.577，均方差1647.78；不同性别贡献离差平方和为351.16，均方差为351.16。说明教学方法比性别影响大。从显著性看均小于0.05，说明二者对数学成绩有影响

交互影响折线图：由于两因素相交，说明有交互作用的影响

9.3 协方差分析

将很难控制的因素作为协变量，在排除协变量影响的条件下，分析控制变量对观测变量的影响，从而更加准确地控制因素进行分析和评价。

9.4 多元方差分析

用于研究控制因素同事对两个或两个以上的因变量产生影响的情况，用来分析控制因素取不同水平时这些因变量的均值是否存在显著性差异。

在方差分析中要求样本必须满足独立、正态、等方差的总体，对于多元方差分析而言，除以上条件还需要满足：各因变量间具有相关性；每一组都有相同方差-协方差矩阵；各因变量为多元正态分布。

说明二者总体方差具有齐性，满足方差分析的前提

说明海拔与施肥量对苗高增加量和地径增加量有显著影响，而海拔*施肥量的四种检验概率均大于0.05，说明二者对苗高增加量和地径增加量的影响不存在交互作用。

两个因变量在不同影响因素上的差异分析。苗高增加量在海拔0.02与施肥量0.00均存在显著性差异。

说明苗高增加量在海拔1与3、2与3上存在显著性差异，1和2上没有显著性差异；地径增加量在海拔1与3、2与3存在显著性差异，1和2没有差异。

10.相关分析

偏相关分析研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。计算偏相关系数可以判断哪些自变量

用于分析当两个变量都与第三个变量相关时，将第三个变量的影响剔除，只分析另外两个变量之间的相关程度。

某研究欲了解员工受教育年限与当前工资之间的关系情况。考虑到受教育年限会影响入职工资，入职工资还会影响到当前工资。因此，将入职工资作为控制变量，进行偏相关分析。

例子：分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度四个气候因素中哪些因素有关。

对生长量与4个气候因素分别求偏相关，如在求生长量与气候因素的相关时控制其他因素的影响。然后比较相关系数，按四个因素对生长量影响程度的大小排序，需进行偏相关分析。

月平均气温影响最大。

11.距离分析

非相似性测量：

对于定距数据主要是欧氏距离 /平方欧式距离 /切比雪夫距离/块距离明科夫斯基距离等

对于定序数据主要是卡方测量和phi平方测量

对二值数据变量之间的距离描述，使用欧氏距离、平方欧氏距离、大小差、模式差、形状、方差等距离统计量

相似性测量：

定距数据使用皮尔逊相关系数和夹角余弦距离

两个变量间的欧式距离越大说明差别越大，反之越小；北京和大连日照数最接近，和天津相差最大

11.回归分析

检验：1.拟合优度检验

2.回归方程的显著性检验 F检验 H0：回归系数与零显著差别 H1：回归总体具有显著性，也就是自变量对y具有显著的线性作用；3.回归系数的显著性检验 t检验对每个回归系数进行考察

相关系数R=0.989，说明自变量与因变量间相关性很强；决定系数R方=0.979，说明自变量x可以解释因变量y的97.9%的差异性。

F统计量观测值592.25，p为0拒绝原假设说明因变量与自变量的线性关系是非常显著的，可建立线性模型

回归系数表，通过T检验

残差（residual）是因变量的观测值 $y_{i}$ 与根据估计的回归方程求出的预测 $\hat{y}_{i}$ 之差

回归模型残差的正态性检验：直方图，累计概率分布图（P-P图）

回归模型残差的独立性检验：用DW检验 检验自相关性最常用的方法，但他只适用一阶自相关性

取值范围 0≤DW≤4 统计学意义D约等于2，残差与自变量相互独立；D<2，残差与自变量正相关；D>2，残差与自变量负相关

残差分析还可以检出奇异点；评判预测效果

12. 聚类分析

根据分类对象的不同，聚类分析分为对样本的聚类和对变量的聚类两种。

样本聚类：是对观测量进行聚类；

变量聚类：能够找出彼此独立且有代表性的自变量，而又不丢失大部分信息，将具有相同特性的变量作为一类。

AIC（赤池信息量）BIC（贝叶斯信息量）两个指标越小聚类效果越好

AIC和BIC的原理是不同的，AIC是从预测角度，选择一个好的模型用来预测，BIC是从拟合角度，选择一个对现有数据拟合最好的模型。

系统聚类

SPSS图形解释https://baijiahao.baidu.com/s?id=1614232715408666904&wfr=spider&for=pc

判别分析要解决的问题是在研究对象用某种方法已分成若干类的情况下，确定新的观察数据属于已知类别中的哪一类。

判别函数个数为2（min(3-1,5)=2，预测变量为5，类别数为3)判别函数的特征值越大，表明该函数越具有区别力。

判别函数饿显著性检验结果表，“1直至2”表示两个判别函数的平均数在3个级别间的差异情况。“2”表示在排除第一个判别函数后，第二个函数在三个级别间的差异情况。可以看出两个效果都不显著。

可以得到判别函数

F1 = 0.626x1-0.988x2-0.664x3+0.974x4+1.434x5

F2同上

12.主成分和因子分析

主成分事考虑各指标之间的相互关系，利用降维的方法将多个指标转换为少数几个互不相关的指标，每个主成分均是原始变量的线性组合，且各个指标互不相关。Y= BX 主成分Y是原始变量X的线性组合，综合原始变量的信息

步骤：1.原始数据的标准化处理2.计算系数矩阵3.计算特征值及单位向量4.计算主成分的方差贡献率和累计方差贡献率5.计算主成分

因子分析主要应用到两个方面一是寻求基本结构简化观测系统，二是对变量或样本进行分类。因子分析的基本思想是根据相关性的大小把变量分组，使得同组内变量相关性较高，而不同组的变量相关性较低。每组变量代表一个基本结构，成为公共因子。还可以用于对变量或样本的分类处理。X=BF+ 原始变量X为公因子F与特殊因子的线性组合，解释原始变量的信息

主要用途：解决共线性问题；评估问卷的结构效度（运用因子分析得出问卷中哪些问题用于研究那些潜在的特征，从而得出对该问卷结构效度的评价；寻找变量之间的潜在结构；内在结构证实

步骤：1.原始数据标准化

2.确定待分析的原有变量是否事用于因子分析（检验方法：1.巴特利特球形检验2.KMO检验，值越接近1，则所有变量间的简单相关系数平方和远大于偏相关系数平方和，因此越适用因子分析，KMO值越小越不适合。3.反映像相关矩阵检验。如果变量之间存在较多的重叠影响，那么偏相关系数就会较小。偏相关系数是在控制了其他变量对量变量影响的条件下计算出来的相关系数）

3.构造因子变量建立变量的相关系数矩阵R，求R的特征根以及相应的单位特征向量，取前m个特征根以及特征向量，写出因子载荷矩阵A

4.利用旋转使得因子变量更具有解释性。

5.计算因子变量的得分。估计因子得分的方法有加权最小二乘法、回归法等

特征值：在某种程度上可以堪称表示主成分影响力度大小的指标，如果特征值小于1，说明该主成分的解释力度不吐直接引入原变量的平均解释力度大。

旋转方法：最大方差法也称正交旋转法，将每一个有最大负荷的因子的变量数最小化，可以简化对因子的解释

13.最大互信息系数(MIC)

用于衡量两个变量X和Y的线性或非线性的强度。不仅可以用来纵向比较同一相关关系的强度，还可以用来横向比较不同关系的强度。