各位读者好!在本文中,我们将重点介绍 Python 中最重要的预处理技术之一——使用 StandardScaler() 函数进行标准化

那么,让我们开始吧!!


需要标准化

在进入标准化之前,让我们首先了解缩放的概念。

缩放特征是使用数据集对算法进行建模的重要步骤。通常用于建模目的的数据是通过各种方式获得的,例如:

  • 问卷

  • 调查

  • 研究

  • 刮擦等

因此,获得的数据包含各种维度和尺度的特征。不同尺度的数据特征会对数据集的建模产生不利影响。

它导致在错误分类错误和准确率方面的预测结果有偏差。因此,有必要在建模之前对数据进行缩放。

这是标准化出现的时候。

标准化是一种缩放技术,它通过将数据的统计分布转换为以下格式来使数据无缩放:

  • 平均值 - 0(零)

  • 标准差 - 1

标准化

标准化

这样一来,整个数据集都以零均值和单位方差进行缩放。

现在让我们尝试在接下来的部分中实现标准化的概念。


Python sklearn StandardScaler()函数

Python sklearn 库为我们提供了 StandardScaler() 函数来将数据值标准化为标准格式。

句法:

object = StandardScaler()
object.fit_transform(data)

根据上面的语法,我们初步创建了一个StandardScaler()函数的对象。此外,我们使用fit_transform()以及分配的对象来转换数据并对其进行标准化。

注意:标准化仅适用于遵循正态分布的数据值。


使用 StandardScaler() 函数标准化数据

看看下面的例子!

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
 
dataset = load_iris()
object= StandardScaler()
 
# Splitting the independent and dependent variables
i_data = dataset.data
response = dataset.target
 
# standardization 
scale = object.fit_transform(i_data) 
print(scale)

解释:

  1. 导入所需的必要库。我们已经导入了 sklearn 库来使用 StandardScaler 函数。

  2. 加载数据集。在这里,我们使用了 sklearn.datasets 库中的 IRIS* 数据集。您可以在此处找到数据集。

  3. 为 StandardScaler() 函数设置一个对象。

  4. 分离自变量和目标变量,如上所示。

  5. 使用 fit_transform() 函数将该函数应用于数据集。

输出:

标准化输出

标准化-输出


结论

至此,我们已经结束了这个话题。如果您遇到任何问题,请随时在下面发表评论。

更多与 Python 相关的帖子,请继续关注@Python with JournalDev,直到那时,学习愉快!! :)

Logo

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐