使用 Pandas 加载数据:加载 Excel、CSV、SQL 和任何数据文件
无论您是想从数据分析开始,获取有用的信息,还是从数据中预测某些东西,第一步始终是数据加载,我们将使用 pandas 库。
我们将使用名为 pandas 的 Python 工具从 Excel 表或 SQL 数据库中导入数据。
在开始加载数据之前,您必须将 pandas 安装到您正在加载数据的平台中。
我将使用 Jupyter Notebook,你可以在 Anaconda 中轻松获取
要安装 pandas,请在 Jupyter Notebook 单元格中运行以下命令:
!pip install pandas
进入全屏模式 退出全屏模式
或者你也可以在 Python 环境中安装,但这不是今天的重点。
**这是我们正在接触代码的第一堂课,所以如果你想编写代码,请打开 Jupyter Notebook **
我有一些 CSV 和 Excel 文件,我会一起去
最初,您必须导入已安装的库 pandas。
import pandas
进入全屏模式 退出全屏模式
写这个就足够了,但是因为我们会经常使用 pandas,所以我们会给它一个别名的简写
import pandas as pd
进入全屏模式 退出全屏模式
pd 是人们最常用的,我们现在执行单元格,现在我们在 Python 中有 Pandas。
导入或读取数据
您可以在笔记本中输入 pd.read 并点击选项卡,您可以看到加载数据的不同方式,您可以使用各种方式加载数据,在此我们将看看最常见的方式
导入 Excel 文件
pd.read_excel("data/crypto.xlsx")
进入全屏模式 退出全屏模式
在括号中,您将给出文件存储的位置,
现在加载已经完成,您可以看到您在 pandas 数据框中有数据
我们没有将它保存在变量中。
但是,您也可以将数据保存在变量中。
data=pd.read_excel("data/crypto.xlsx")
进入全屏模式 退出全屏模式
导入 CSV 文件
CSV 文件略有不同,因为它们包含原始数据。
pd.read_csv("data/crypto.csv")
进入全屏模式 退出全屏模式
从 SQL 加载数据
存储数据并使数据科学家可以使用的一种好方法是通过 SQL 数据库。
大多数企业避免使用 Excel 文件,因为它们可以被复制。
除了 pandas 我们还必须导入 SQLAlchemy
SQLAlchemy 是一个帮助 Python 程序与数据库通信的包。
import sqlalchemy as sql
进入全屏模式 退出全屏模式
下面将创建连接,它称为引擎,如果您有 PostgreSQL 数据库,这应该是您的数据库的位置
connect=sql.create_engine("postgresql://scott:tiger@localhost/test")
进入全屏模式 退出全屏模式
这里我们阅读 SQL 表
data = pd.read_sql_table("sales", connect)
进入全屏模式 退出全屏模式
加载任何数据文件
Pandas 在结构化数据上表现出色,但有时数据的格式很奇怪。这是在 Python 中处理数据文件的一般方法。
with open("data/crypto.csv", mode='r') as cryptocurr:
data = cryptocurr.read()
进入全屏模式 退出全屏模式
如果您只想读取数据而不是更改它,您会指出这一点。 模式u003d'r'
然后我们会给文件一个打开的名字,这里我给文件名是cryptocurr
现在我们有一个打开文件的块,在这个块中创建一个变量,然后使用读取函数运行单元格并调用变量来执行。
data
进入全屏模式 退出全屏模式
我们做到了!!!!!!
将数据加载到 pandas 中非常容易。
使用您自己的数据尝试一下,如果您的计算机上有一个 excel 文件,请确保您的计算机中有数据,没有任何内容可以输出,这样您就可以 pd.read 并获取您的数据并进行操作。
更多推荐

所有评论(0)