Python——Pandas库
·
下面给你一份简洁但够用、偏进阶的 Python Pandas 核心介绍,适合学习、实战和面试使用 👇
Python —— Pandas 库(核心速览)
一、Pandas 是什么?
Pandas 是 Python 中最常用的数据分析与处理库
✅ 擅长处理 表格数据(Excel / CSV / SQL)
✅ 比 Excel 快、可重复、可自动化
✅ 数据清洗 + 统计分析 + 可视化前置
二、两大核心数据结构
|
结构 |
说明 |
类比 |
|---|---|---|
|
Series |
一维数据 |
一列 |
|
DataFrame |
二维表 |
Excel 表 |
import pandas as pd
s = pd.Series([1, 2, 3])
df = pd.DataFrame({
"name": ["A", "B"],
"score": [90, 85]
})
三、Pandas 最常用的 10 个操作 ✅
1️⃣ 读取数据
pd.read_csv("data.csv")
pd.read_excel("data.xlsx")
2️⃣ 查看数据
df.head()
df.info()
df.describe()
3️⃣ 选择数据
df["列名"]
df.loc[0] # 按标签
df.iloc[0:5] # 按位置
4️⃣ 过滤数据
df[df["age"] > 18]
df.query("age > 18 and score >= 90")
5️⃣ 新增 / 修改列
df["bonus"] = df["salary"] * 0.1
6️⃣ 缺失值处理
df.dropna()
df.fillna(0)
7️⃣ 分组统计(非常重要)
df.groupby("dept")["salary"].mean()
8️⃣ 排序
df.sort_values("score", ascending=False)
9️⃣ 合并数据
pd.merge(df1, df2, on="id")
pd.concat([df1, df2])
🔟 透视表
pd.pivot_table(
df,
index="dept",
values="salary",
aggfunc="sum"
)
四、Pandas 进阶(面试 & 实战)
✅ 向量化运算(不用 for 循环)
df["total"] = df["price"] * df["count"]
✅ apply / map
df["score"].apply(lambda x: x + 5)
✅ 时间处理
df["date"] = pd.to_datetime(df["date"])
df["month"] = df["date"].dt.month
✅ 性能优化
-
少用
iterrows() -
多用
vectorized operation -
大数据用
dtype优化内存
五、Pandas 的典型应用场景
✅ 数据清洗(ETL)
✅ 报表统计
✅ 金融分析
✅ 运营数据分析
✅ AI / 机器学习前的数据预处理
六、Pandas 不适合做什么?
❌ 实时流处理
❌ 超大规模(TB 级)→ 用 Spark / Dask
❌ 复杂数学建模 → NumPy / SciPy
七、学习建议(高效路线)
Python 基础
↓
NumPy(了解数组)
↓
Pandas 基础(读/写/筛选)
↓
分组 / 合并 / 透视
↓
真实项目练手(CSV / Excel)
更多推荐


所有评论(0)