数据开发专用:Python + Pandas 必学清单 + 15 道实操练习题(带答案、可直接手打)
·
一、数开岗位 Python 必学知识点(只学这些就够)
1. Python 基础语法(必须熟练)
- 变量、数据类型:int/float/ 字符串 / 布尔
- 流程控制:
if-elif-else、for、while - 容器:列表 list、字典 dict、元组 tuple、集合 set
- 常用内置函数:
len()、range()、split()、strip()、join() - 函数定义
def、参数、返回值 - 文件读写:
open()读 txt/csv - 简单异常处理
try-except - 调用系统命令:
os.system、os.popen
2. Pandas 必学核心(数开刚需,面试 + 工作天天用)
- 读取数据:
pd.read_csv() - 查看数据:
head()、tail()、info()、describe() - 选取行、选取列
- 条件筛选数据(布尔索引)
- 缺失值处理:
isnull()、dropna()、fillna() - 去重:
drop_duplicates() - 分组聚合:
groupby()求和、计数、均值 - 多表合并:
merge()类似 SQL 连表 - 新增列、修改列、删除列
- 数据排序:
sort_values()
3. 数开完全不用学
面向对象高阶、爬虫、并发线程、Django/Flask、机器学习、深度学习、Numpy 高阶、可视化花哨图表。
二、15 道 Pandas 实操练习题(零基础可练、直接手打)
先导入环境,所有题都基于这个开头:
python
运行
import pandas as pd
# 造一份模拟电商行为数据,不用自己建文件
data = {
"user_id": [1001,1001,1002,1003,1003,1004],
"item_id": [201,202,201,203,201,202],
"behavior": ["browse","buy","browse","browse","buy","browse"],
"dt": ["2025-01-01","2025-01-01","2025-01-01","2025-01-02","2025-01-02","2025-01-02"]
}
df = pd.DataFrame(data)
练习题 1:查看前 3 行数据
python
运行
print(df.head(3))
练习题 2:查看数据基本信息(行列数、字段类型)
python
运行
print(df.info())
练习题 3:查看数据统计概况
python
运行
print(df.describe())
练习题 4:只选取 user_id 和 behavior 两列
python
运行
df2 = df[["user_id","behavior"]]
print(df2)
练习题 5:筛选 2025-01-01 的所有数据
python
运行
df_day1 = df[df["dt"] == "2025-01-01"]
print(df_day1)
练习题 6:筛选行为是 buy 购买的数据
python
运行
df_buy = df[df["behavior"] == "buy"]
print(df_buy)
练习题 7:查看是否有缺失值
python
运行
print(df.isnull())
print(df.isnull().sum())
练习题 8:删除有缺失值的整行
python
运行
df_drop = df.dropna()
练习题 9:对 user_id 去重,看有多少独立用户
python
运行
user_distinct = df["user_id"].drop_duplicates()
print(user_distinct)
print("独立用户数:", len(user_distinct))
练习题 10:按用户分组,统计每个用户行为次数
python
运行
user_count = df.groupby("user_id").size()
print(user_count)
练习题 11:按日期分组,统计每天多少条行为记录
python
运行
day_count = df.groupby("dt").size()
print(day_count)
练习题 12:统计每天购买行为的数量
python
运行
buy_cnt = df[df["behavior"]=="buy"].groupby("dt").size()
print(buy_cnt)
练习题 13:新增一列标记是否为购买行为
python
运行
df["is_buy"] = df["behavior"].apply(lambda x: 1 if x=="buy" else 0)
print(df)
练习题 14:按日期排序
python
运行
df_sort = df.sort_values("dt")
print(df_sort)
练习题 15:遍历每一行数据(做数据校验常用)
python
运行
for index, row in df.iterrows():
print("用户:",row["user_id"],"行为:",row["behavior"],"日期:",row["dt"])
三、给你明确:你现在怎么练、多久能达标
- 每天:
- 继续用简单算法题巩固 Python 基础 20 分钟
- 手打 2–3 道上面 Pandas 练习题 20 分钟
- 坚持 7 天:你就能完全达到 数据开发实习要求的 Python 水平
四、后续我可以给你再加两样
- 数开常用「Python 自动化脚本模板」(日志统计、文件批量处理)
- Python 面试常问简答 + 口述背诵版
更多推荐
所有评论(0)