使用 Pandas 加载数据:加载 Excel、CSV、SQL 和任何数据文件

BIGdd

83人浏览 · 2022-08-28 01:34:32

BIGdd · 2022-08-28 01:34:32 发布

无论您是想从数据分析开始,获取有用的信息,还是从数据中预测某些东西,第一步始终是数据加载,我们将使用 pandas 库。

我们将使用名为 pandas 的 Python 工具从 Excel 表或 SQL 数据库中导入数据。

在开始加载数据之前,您必须将 pandas 安装到您正在加载数据的平台中。

我将使用 Jupyter Notebook,你可以在 Anaconda 中轻松获取

要安装 pandas,请在 Jupyter Notebook 单元格中运行以下命令:

!pip install pandas

进入全屏模式退出全屏模式

或者你也可以在 Python 环境中安装,但这不是今天的重点。

**这是我们正在接触代码的第一堂课,所以如果你想编写代码,请打开 Jupyter Notebook **

我有一些 CSV 和 Excel 文件,我会一起去

最初,您必须导入已安装的库 pandas。

import pandas

进入全屏模式退出全屏模式

写这个就足够了,但是因为我们会经常使用 pandas,所以我们会给它一个别名的简写

import pandas as pd

进入全屏模式退出全屏模式

pd 是人们最常用的,我们现在执行单元格,现在我们在 Python 中有 Pandas。

导入或读取数据

您可以在笔记本中输入 pd.read 并点击选项卡,您可以看到加载数据的不同方式,您可以使用各种方式加载数据,在此我们将看看最常见的方式

导入 Excel 文件

pd.read_excel("data/crypto.xlsx")

进入全屏模式退出全屏模式

在括号中,您将给出文件存储的位置,

现在加载已经完成,您可以看到您在 pandas 数据框中有数据

我们没有将它保存在变量中。

但是,您也可以将数据保存在变量中。

data=pd.read_excel("data/crypto.xlsx")

进入全屏模式退出全屏模式

导入 CSV 文件

CSV 文件略有不同,因为它们包含原始数据。

pd.read_csv("data/crypto.csv")

进入全屏模式退出全屏模式

从 SQL 加载数据

存储数据并使数据科学家可以使用的一种好方法是通过 SQL 数据库。

大多数企业避免使用 Excel 文件,因为它们可以被复制。

除了 pandas 我们还必须导入 SQLAlchemy

SQLAlchemy 是一个帮助 Python 程序与数据库通信的包。

import sqlalchemy as sql

进入全屏模式退出全屏模式

下面将创建连接,它称为引擎,如果您有 PostgreSQL 数据库,这应该是您的数据库的位置

connect=sql.create_engine("postgresql://scott:tiger@localhost/test")

进入全屏模式退出全屏模式

这里我们阅读 SQL 表

data = pd.read_sql_table("sales", connect)

进入全屏模式退出全屏模式

加载任何数据文件

Pandas 在结构化数据上表现出色,但有时数据的格式很奇怪。这是在 Python 中处理数据文件的一般方法。

with open("data/crypto.csv", mode='r') as cryptocurr:
    data = cryptocurr.read()

进入全屏模式退出全屏模式

如果您只想读取数据而不是更改它,您会指出这一点。 模式u003d'r'

然后我们会给文件一个打开的名字,这里我给文件名是cryptocurr

现在我们有一个打开文件的块,在这个块中创建一个变量,然后使用读取函数运行单元格并调用变量来执行。

data

进入全屏模式退出全屏模式

我们做到了!!!!!!

将数据加载到 pandas 中非常容易。

使用您自己的数据尝试一下,如果您的计算机上有一个 excel 文件,请确保您的计算机中有数据,没有任何内容可以输出,这样您就可以 pd.read 并获取您的数据并进行操作。

向你推荐>>>开发者社区

华为、百度、京东云现已入驻，来创建你的专属开发者社区吧！

更多推荐

关于 Jupyter 笔记本最糟糕的五件事

我曾经喜欢 Jupyter。我仍然认为它们是许多任务的绝佳工具,例如探索性数据分析和轻松轻松地向同事展示见解。然而,虽然它们有时非常适合数据科学,但有时却令人头疼。像任何软件工具一样,它们也有其缺点。以下是 Jupyter Notebooks 用于数据科学的五个最糟糕的事情: 1.练习良好的代码版本控制几乎是不可能的 Jupyter Notebooks 对于代码版本控制来说很糟糕。问题是它们存储为

大数据

2023 年流行的大数据和数据科学角色

数据科学和大数据提供了广泛的职业前景。涉及数据的角色的扩展伴随着数据科学的出现。它是当今最流行和最前沿的技术应用领域之一,这是有道理的。数据科学目前可能是最好的就业市场。与此同时,这一发展中的主题正在改变众多业务和技术。随着所有垂直领域的行业越来越受数据驱动,就业市场和必要的技能受到影响。随着我们学习新的数据接触点和评估方法,我们生活的社会、日常生活和国家经济越来越依赖数据。这是大数据和数据科学能

大数据

数据科学的主要组成部分和特点

数据科学是十年来增长最快、最具挑战性和高薪的工作之一。那么,究竟什么是数据科学?数据科学是一个跨学科领域,它结合了统计学、计算机科学和机器学习算法,以从结构化和非结构化数据中获得洞察力。据《经济时报》报道,尽管供应增长缓慢,但印度对通过数据科学课程认证的各行业数据科学专业人员的需求增长了 400% 以上。数据科学的组成部分 1\。数据探索这是最关键的一步,因为它花费的时间最多。数据探索消耗了大