无论您是想从数据分析开始,获取有用的信息,还是从数据中预测某些东西,第一步始终是数据加载,我们将使用 pandas 库。

我们将使用名为 pandas 的 Python 工具从 Excel 表或 SQL 数据库中导入数据。

在开始加载数据之前,您必须将 pandas 安装到您正在加载数据的平台中。

我将使用 Jupyter Notebook,你可以在 Anaconda 中轻松获取

要安装 pandas,请在 Jupyter Notebook 单元格中运行以下命令:

!pip install pandas

进入全屏模式 退出全屏模式

或者你也可以在 Python 环境中安装,但这不是今天的重点。

**这是我们正在接触代码的第一堂课,所以如果你想编写代码,请打开 Jupyter Notebook **

我有一些 CSV 和 Excel 文件,我会一起去

最初,您必须导入已安装的库 pandas。

import pandas

进入全屏模式 退出全屏模式

写这个就足够了,但是因为我们会经常使用 pandas,所以我们会给它一个别名的简写

import pandas as pd

进入全屏模式 退出全屏模式

pd 是人们最常用的,我们现在执行单元格,现在我们在 Python 中有 Pandas。

导入或读取数据

您可以在笔记本中输入 pd.read 并点击选项卡,您可以看到加载数据的不同方式,您可以使用各种方式加载数据,在此我们将看看最常见的方式

导入 Excel 文件

pd.read_excel("data/crypto.xlsx")

进入全屏模式 退出全屏模式

在括号中,您将给出文件存储的位置,

现在加载已经完成,您可以看到您在 pandas 数据框中有数据

我们没有将它保存在变量中。

但是,您也可以将数据保存在变量中。

data=pd.read_excel("data/crypto.xlsx")

进入全屏模式 退出全屏模式

导入 CSV 文件

CSV 文件略有不同,因为它们包含原始数据。

pd.read_csv("data/crypto.csv")

进入全屏模式 退出全屏模式

从 SQL 加载数据

存储数据并使数据科学家可以使用的一种好方法是通过 SQL 数据库。

大多数企业避免使用 Excel 文件,因为它们可以被复制。

除了 pandas 我们还必须导入 SQLAlchemy

SQLAlchemy 是一个帮助 Python 程序与数据库通信的包。

import sqlalchemy as sql

进入全屏模式 退出全屏模式

下面将创建连接,它称为引擎,如果您有 PostgreSQL 数据库,这应该是您的数据库的位置

connect=sql.create_engine("postgresql://scott:tiger@localhost/test")

进入全屏模式 退出全屏模式

这里我们阅读 SQL 表

data = pd.read_sql_table("sales", connect)

进入全屏模式 退出全屏模式

加载任何数据文件

Pandas 在结构化数据上表现出色,但有时数据的格式很奇怪。这是在 Python 中处理数据文件的一般方法。

with open("data/crypto.csv", mode='r') as cryptocurr:
    data = cryptocurr.read()

进入全屏模式 退出全屏模式

如果您只想读取数据而不是更改它,您会指出这一点。 模式u003d'r'

然后我们会给文件一个打开的名字,这里我给文件名是cryptocurr

现在我们有一个打开文件的块,在这个块中创建一个变量,然后使用读取函数运行单元格并调用变量来执行。

data

进入全屏模式 退出全屏模式

我们做到了!!!!!!

将数据加载到 pandas 中非常容易。

使用您自己的数据尝试一下,如果您的计算机上有一个 excel 文件,请确保您的计算机中有数据,没有任何内容可以输出,这样您就可以 pd.read 并获取您的数据并进行操作。

Logo

华为、百度、京东云现已入驻,来创建你的专属开发者社区吧!

更多推荐