数据可视化的重要性 — Anscombe的四重奏之道
四个数据集,如果建立的话会欺骗线性回归模型。
[](https://res.cloudinary.com/practicaldev/image/fetch/s--MHX3Mk3_--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://cdn-images -1.medium.com/max/2326/1%2AteCUzrolOckJEyHsNhi_Ng.png)
#Anscombe 的四重奏 包含四个数据集,它们具有几乎相同的简单描述性统计,但分布非常不同,并且在绘制图表时看起来非常不同。
#— 维基百科
Anscombe 的四重奏 可以定义为一组四个数据集,它们在简单的描述性统计中几乎相同,但如果构建数据集,则会愚弄回归模型。它们具有非常不同的分布,并且在散点图上绘制时出现不同。
它由统计学家 Francis Anscombe 于 1973 年构建,以说明在分析和模型构建之前绘制图表的重要性,以及其他观察对统计特性的影响。这四个数据集图是否具有几乎相同的统计观察,它提供了相同的统计信息,涉及所有四个数据集中所有 x、y 点的方差和平均值。
这告诉我们在应用各种算法构建模型之前可视化数据的重要性,这表明必须绘制数据特征才能看到样本的分布,这可以帮助您识别存在的各种异常异常值、数据的多样性、数据的线性可分性等数据。此外,线性回归只能被认为适合具有线性关系的数据,并且无法处理任何其他类型的数据集.这四个地块可以定义如下:
[](https://res.cloudinary.com/practicaldev/image/fetch/s--R4pv_T1h--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://cdn-images -1.medium.com/max/2268/1%2AwMuoOLohuNbTWbbu_rpujg.png)
所有这四个数据集的统计信息大致相似,可以计算如下:
[](https://res.cloudinary.com/practicaldev/image/fetch/s--7FNqjuHm--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://cdn-images -1.medium.com/max/2268/1%2AUrXAppaF09s88C_rG0KRjA.png)
当这些模型绘制在散点图上时,所有数据集都会生成一种不同类型的图,任何被这些特性愚弄的回归算法都无法解释这种图,如下所示:
[](https://res.cloudinary.com/practicaldev/image/fetch/s--1Zf7MAA_--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://cdn-images -1.medium.com/max/2314/1%2A4H7ByZaIXvke8NVAOZ8E2g.png)
这四个数据集可以描述为:
-
数据集 1: 这 ** 非常适合**线性回归模型。
-
数据集 2: 这个无法很好地拟合数据的线性回归模型,因为数据是非线性的。
-
Dataset 3: 显示数据集中涉及的outliers 不能被线性回归模型处理
-
Dataset 4: 显示数据集中涉及的outliers 不能被线性回归模型处理
结论:
我们已经描述了故意创建的四个数据集,以描述数据可视化的重要性以及任何回归算法如何被相同的愚弄。因此,在对它们实施任何机器学习算法之前,必须对数据集中的所有重要特征进行可视化,这将有助于建立一个良好的拟合模型。
谢谢阅读。你可以在这里找到我的其他机器学习相关的帖子。
我希望这篇文章有用。我感谢反馈和建设性的批评。如果你想谈论这篇文章或其他相关话题,你可以在这里或在LinkedIn给我发短信。
[
](/imsparsh)[
线性回归中的假设你可能不知道。
Sparsh Gupta 水 16 5 m 芦苇
#machinelearning #datascience #python
](/imsparsh/assumptions-in-linear-regression-you-might-not-know-58c6)
[
](/imsparsh)[
机器学习中最常见的损失函数
Sparsh Gupta 水 9 5 Me 芦苇
#machinelearning #datascience #python #computerscience
](/imsparsh/最常见的损失函数-机器学习-57p7)
更多推荐
所有评论(0)