48972368997ae03ed66694398c5f70c7.gif

看点

01

主成分分析(PCA)

主成分分析(Principal Component Analysis,PCA)是一种无监督学习的多元统计分析方法。PCA分析的主要原理是将高维数据投影到较低维空间,提取多元事物的主要因素,揭示其本质特征。它可以高效地找出数据中的主要部分,将原有的复杂数据降维处理。PCA分析被广泛应用于很多领域,比如理论物理学、气象学、心理学、生物学、化学、工程学等。

看点

02

PCA图解析

24daf6a0e8da5e1c98fb8866028fdcd2.png

图1  对照组和实验组的PCA得分图

7e5513cbc7b2c729fe50e65887184398.gif

PCA得分图能将对照组和实验组样本区分开。在PCA图中,如果样本之间聚集在一起,说明这些样本差异性小;反之样本之间距离越远,说明样本之间差异性越大。

bfc7a564dc1c11c1ee552a058434a0cb.png

图2  含质控样本的对照组和实验组PCA得分图

7e5513cbc7b2c729fe50e65887184398.gif

PCA还可进行质控,PCA图中含质控样品(mix),若质控样品聚集在一起,表明检测过程稳定性好,数据可靠;若质控样品很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。

看点

03

PCA分析理解

主成分分析是对于原先提出的所有变量,删去多余、重复的变量(关系紧密的变量),建立尽可能少的新变量,使得这些新变量是两两不相关。PCA分析的过程就是信息浓缩的过程。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性,PCA分析可以用比较少的变量来概括描述课题信息的同时尽可能保持原有的信息,这些新变量称之为主成分。

PCA分析并不是选出一些变量,然后丢掉另外的变量,实际上是它找出一些新的变量,而且这些新变量可以很好的描述样本信息。怎么找这些新变量呢?利用的还是之前的变量,通过空间投影和线性变换找到一些新的变量(线性组合)。这样的变量有很多,PCA做的就是找出那些最佳组合,PCA找出最佳新变量的过程如图3所示。

681d35ed4c73af3d6339123d3b35b04c.png

图3  PCA获取新变量的过程

7e5513cbc7b2c729fe50e65887184398.gif

看点

04

PCA分析原理与算法

0 1PCA原理 

0a3d13fb27c2edb141f3790fa7b4c30c.png

图4  数据空间投影和线性变换

7e5513cbc7b2c729fe50e65887184398.gif

图4里蓝点表示样本的两个特征x和y,它们是相关的,画一条穿过这些点的黑线,让这些点都投影到黑线上,黑线上的红点就表示蓝点的投影,这样就获得一个新变量(黑线上的红点)。新变量可以用线ω_1*x+ω_2*y来表示,ω_1,ω_2不同时,黑线的方向就不同。

PCA找出的最佳新变量要同时满足 “方差最大”和“误差最小”这两个条件,当黑线转动到品红色标记的方向时,同时满足这两个条件。PCA找出的最佳新变量就是“第一主成分”。方差最大即黑线上的红点的变化范围要最大。误差最小即新变量(红色点)来重现原来的两个特征(蓝色点)时的误差(红色连线)最小。

692e40710d73bac9b4891797cc982d68.png

图5  数据投影的方差和误差

7e5513cbc7b2c729fe50e65887184398.gif

红点的方差:每个红点跟中心点的距离的平方和。误差:红色连线长度的平方取平均值表示。红色的方差与误差的和为蓝点与中心点的平方,因此,方差越大时,误差也会越小。

0 2PCA算法       

PCA算法步骤:

设有n条m维数据

1) 将原始数据按列组成m行n列矩阵X

2) 将X的每一行(代表一个属性字段)进行零均值化

3) 求出协方差矩阵2cd68541b548a47b949ee497717b8aed.png

4) 求出协方差矩阵的特征值及对应的特征向量

5) 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

6) Y=PX,Y=PX即为降维到k维后的数据

0 3协方差矩阵定义  

一个含有n个样本的集合,依次给出数理统计中的一些相关概念:

均值:e581f7674f2e2831b8c15ad5c1cfa4f8.png

标准差:7dea10237f863fe80d1fbff7d1990461.png

方差:4714990a66d650f6a0b47ea7c90138e0.png

协方差就是一种用来度量两个随机变量关系的统计量,其定义为:

819c6cc6d6a090fc3483d7b24a0656e1.png

数据集有018d72f24fc81f8f97563b55a7b7962d.png三个维度,则协方差矩阵为

fd5f3ff20233e763b68a65986a236b30.png

n维的数据集就需要计算bb9c98dfe4f24ced8cbc8b7b1dc68afc.png

个协方差,用矩阵来组织这些数据。

给出协方差矩阵的定义:473120f214784b3a1b963d46eb27c876.png

协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。协方差矩阵计算的是不同维度之间的协方差。

PCA思维导图:

2c7d473bf9672b2862b6127d89a4ad30.png

99%的代谢组学研究者都在阅读下文:

●迈维影像 |《生命之光》专访 x 上海代谢组学国际研讨会精彩回放

湖北卫视特别报道:迈维代谢——湖北重点产业里的新动能

●招聘 | 全民目击,迈维代谢寻找会发光的你!

●十里洋场,魔都上海 | 与迈维一起相约2019年代谢组学国际研讨会

●多组学|转录+代谢联合分析,so easy

●迈维星光 | 转酮醇酶缺乏通过增加核糖-5-磷酸和核苷酸水平保护肝脏免受DNA损伤

●干货 | 代谢组研究中GC-MS和LC-MS数据的区别 干货|浅析代谢组学最常用到的数据分析方法

465b10126f95e6a5b18b30e7bc6a5d21.gif

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐