Python——Pandas库

大圣编程

224人浏览 · 2026-05-20 11:52:54

大圣编程 · 2026-05-20 11:52:54 发布

下面给你一份简洁但够用、偏进阶的 Python Pandas 核心介绍，适合学习、实战和面试使用 👇

Python —— Pandas 库（核心速览）

一、Pandas 是什么？

Pandas 是 Python 中最常用的数据分析与处理库

✅ 擅长处理 表格数据（Excel / CSV / SQL）

✅ 比 Excel 快、可重复、可自动化

✅ 数据清洗 + 统计分析 + 可视化前置

二、两大核心数据结构

结构	说明	类比
Series	一维数据	一列
DataFrame	二维表	Excel 表

import pandas as pd

s = pd.Series([1, 2, 3])
df = pd.DataFrame({
    "name": ["A", "B"],
    "score": [90, 85]
})

三、Pandas 最常用的 10 个操作 ✅

1️⃣ 读取数据

pd.read_csv("data.csv")
pd.read_excel("data.xlsx")

2️⃣ 查看数据

df.head()
df.info()
df.describe()

3️⃣ 选择数据

df["列名"]
df.loc[0]              # 按标签
df.iloc[0:5]           # 按位置

4️⃣ 过滤数据

df[df["age"] > 18]
df.query("age > 18 and score >= 90")

5️⃣ 新增 / 修改列

df["bonus"] = df["salary"] * 0.1

6️⃣ 缺失值处理

df.dropna()
df.fillna(0)

7️⃣ 分组统计（非常重要）

df.groupby("dept")["salary"].mean()

8️⃣ 排序

df.sort_values("score", ascending=False)

9️⃣ 合并数据

pd.merge(df1, df2, on="id")
pd.concat([df1, df2])

🔟 透视表

pd.pivot_table(
    df,
    index="dept",
    values="salary",
    aggfunc="sum"
)

四、Pandas 进阶（面试 & 实战）

✅ 向量化运算（不用 for 循环）

df["total"] = df["price"] * df["count"]

✅ apply / map

df["score"].apply(lambda x: x + 5)

✅ 时间处理

df["date"] = pd.to_datetime(df["date"])
df["month"] = df["date"].dt.month

✅ 性能优化

少用 iterrows()
多用 vectorized operation
大数据用 dtype优化内存

五、Pandas 的典型应用场景

✅ 数据清洗（ETL）

✅ 报表统计

✅ 金融分析

✅ 运营数据分析

✅ AI / 机器学习前的数据预处理

六、Pandas 不适合做什么？

❌ 实时流处理

❌ 超大规模（TB 级）→ 用 Spark / Dask

❌ 复杂数学建模 → NumPy / SciPy

七、学习建议（高效路线）

Python 基础
  ↓
NumPy（了解数组）
  ↓
Pandas 基础（读/写/筛选）
  ↓
分组 / 合并 / 透视
  ↓
真实项目练手（CSV / Excel）

亚马逊云科技技术品牌专区

更多推荐

2026年CSDN年度技术趋势预测：AI、云原生与开发者工具的未来

亚马逊云科技技术品牌专区

数据产业服务分类（32）——数据产业——数字技术服务与数据产业服务

值得关注的是，当前呈现出一种显著趋势，AIGC（生成式AI）技术既依赖海量数据进行训练，这属于数据产业服务的范畴，又推动了数字内容生产效率的大幅提升，体现了数字技术服务的价值，二者相互交融，共同推动着行业的发展与进步。技术融合方面，致力于构建“数据 + 技术”中台，通过整合数据中台所提供的数据产业服务与技术中台所开展的数字技术服务，达成数据与技术能力的复用，提升资源利用效能。数字技术服务与数据产业