下面给你一份简洁但够用、偏进阶Python Pandas 核心介绍,适合学习、实战和面试使用 👇


Python —— Pandas 库(核心速览)

一、Pandas 是什么?

Pandas 是 Python 中最常用的数据分析与处理库

✅ 擅长处理 表格数据(Excel / CSV / SQL)

✅ 比 Excel 快、可重复、可自动化

✅ 数据清洗 + 统计分析 + 可视化前置


二、两大核心数据结构

结构

说明

类比

Series

一维数据

一列

DataFrame

二维表

Excel 表

import pandas as pd

s = pd.Series([1, 2, 3])
df = pd.DataFrame({
    "name": ["A", "B"],
    "score": [90, 85]
})

三、Pandas 最常用的 10 个操作 ✅

1️⃣ 读取数据

pd.read_csv("data.csv")
pd.read_excel("data.xlsx")

2️⃣ 查看数据

df.head()
df.info()
df.describe()

3️⃣ 选择数据

df["列名"]
df.loc[0]              # 按标签
df.iloc[0:5]           # 按位置

4️⃣ 过滤数据

df[df["age"] > 18]
df.query("age > 18 and score >= 90")

5️⃣ 新增 / 修改列

df["bonus"] = df["salary"] * 0.1

6️⃣ 缺失值处理

df.dropna()
df.fillna(0)

7️⃣ 分组统计(非常重要)

df.groupby("dept")["salary"].mean()

8️⃣ 排序

df.sort_values("score", ascending=False)

9️⃣ 合并数据

pd.merge(df1, df2, on="id")
pd.concat([df1, df2])

🔟 透视表

pd.pivot_table(
    df,
    index="dept",
    values="salary",
    aggfunc="sum"
)

四、Pandas 进阶(面试 & 实战)

✅ 向量化运算(不用 for 循环)

df["total"] = df["price"] * df["count"]

✅ apply / map

df["score"].apply(lambda x: x + 5)

✅ 时间处理

df["date"] = pd.to_datetime(df["date"])
df["month"] = df["date"].dt.month

✅ 性能优化

  • 少用 iterrows()

  • 多用 vectorized operation

  • 大数据用 dtype优化内存


五、Pandas 的典型应用场景

✅ 数据清洗(ETL)

✅ 报表统计

✅ 金融分析

✅ 运营数据分析

✅ AI / 机器学习前的数据预处理


六、Pandas 不适合做什么?

❌ 实时流处理

❌ 超大规模(TB 级)→ 用 Spark / Dask

❌ 复杂数学建模 → NumPy / SciPy


七、学习建议(高效路线)

Python 基础
  ↓
NumPy(了解数组)
  ↓
Pandas 基础(读/写/筛选)
  ↓
分组 / 合并 / 透视
  ↓
真实项目练手(CSV / Excel)

更多推荐