数据分析在机器学习中非常重要,它决定后续的特征值选取和数据处理的方向。热力图(heatmap)和相关性(correlation)分析则是常见的分析手段,本文主要介绍两者的使用方法,文中使用的演示代码放在GitHub中。

热力度
热力度常常用来表示地图上的分布密度,也可以简单理解为两维坐标中的数值到颜色的映射图。我们来看下面的热力度,去掉方格中颜色后,其实就是一个二维矩阵
在这里插入图片描述
皮尔森相关系数
相关性最常用的是皮尔森相关系数(Pearson correlation coefficient)。该系数是用来反映两个变量线性相关程度的统计量,使用公式
在这里插入图片描述
Cov(X, Y) is the covariance
分母上的两个变量表示X和Y的标准差(standard deviation)
皮尔森相关系数在[-1, 1],越接近1或-1,表明正/反线性关系越强,为0则表示两个变量间没有线性关系

链接:https://www.jianshu.com/p/39220c7ac8e9

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐