一、数开岗位 Python 必学知识点(只学这些就够)

1. Python 基础语法(必须熟练)

  1. 变量、数据类型:int/float/ 字符串 / 布尔
  2. 流程控制:if-elif-elseforwhile
  3. 容器:列表 list、字典 dict、元组 tuple、集合 set
  4. 常用内置函数:len()、range()、split()、strip()、join()
  5. 函数定义 def、参数、返回值
  6. 文件读写:open() 读 txt/csv
  7. 简单异常处理 try-except
  8. 调用系统命令:os.systemos.popen

2. Pandas 必学核心(数开刚需,面试 + 工作天天用)

  1. 读取数据:pd.read_csv()
  2. 查看数据:head()、tail()、info()、describe()
  3. 选取行、选取列
  4. 条件筛选数据(布尔索引)
  5. 缺失值处理:isnull()、dropna()、fillna()
  6. 去重:drop_duplicates()
  7. 分组聚合:groupby() 求和、计数、均值
  8. 多表合并:merge() 类似 SQL 连表
  9. 新增列、修改列、删除列
  10. 数据排序:sort_values()

3. 数开完全不用学

面向对象高阶、爬虫、并发线程、Django/Flask、机器学习、深度学习、Numpy 高阶、可视化花哨图表。


二、15 道 Pandas 实操练习题(零基础可练、直接手打)

先导入环境,所有题都基于这个开头:

python

运行

import pandas as pd

# 造一份模拟电商行为数据,不用自己建文件
data = {
    "user_id": [1001,1001,1002,1003,1003,1004],
    "item_id": [201,202,201,203,201,202],
    "behavior": ["browse","buy","browse","browse","buy","browse"],
    "dt": ["2025-01-01","2025-01-01","2025-01-01","2025-01-02","2025-01-02","2025-01-02"]
}
df = pd.DataFrame(data)

练习题 1:查看前 3 行数据

python

运行

print(df.head(3))

练习题 2:查看数据基本信息(行列数、字段类型)

python

运行

print(df.info())

练习题 3:查看数据统计概况

python

运行

print(df.describe())

练习题 4:只选取 user_id 和 behavior 两列

python

运行

df2 = df[["user_id","behavior"]]
print(df2)

练习题 5:筛选 2025-01-01 的所有数据

python

运行

df_day1 = df[df["dt"] == "2025-01-01"]
print(df_day1)

练习题 6:筛选行为是 buy 购买的数据

python

运行

df_buy = df[df["behavior"] == "buy"]
print(df_buy)

练习题 7:查看是否有缺失值

python

运行

print(df.isnull())
print(df.isnull().sum())

练习题 8:删除有缺失值的整行

python

运行

df_drop = df.dropna()

练习题 9:对 user_id 去重,看有多少独立用户

python

运行

user_distinct = df["user_id"].drop_duplicates()
print(user_distinct)
print("独立用户数:", len(user_distinct))

练习题 10:按用户分组,统计每个用户行为次数

python

运行

user_count = df.groupby("user_id").size()
print(user_count)

练习题 11:按日期分组,统计每天多少条行为记录

python

运行

day_count = df.groupby("dt").size()
print(day_count)

练习题 12:统计每天购买行为的数量

python

运行

buy_cnt = df[df["behavior"]=="buy"].groupby("dt").size()
print(buy_cnt)

练习题 13:新增一列标记是否为购买行为

python

运行

df["is_buy"] = df["behavior"].apply(lambda x: 1 if x=="buy" else 0)
print(df)

练习题 14:按日期排序

python

运行

df_sort = df.sort_values("dt")
print(df_sort)

练习题 15:遍历每一行数据(做数据校验常用)

python

运行

for index, row in df.iterrows():
    print("用户:",row["user_id"],"行为:",row["behavior"],"日期:",row["dt"])

三、给你明确:你现在怎么练、多久能达标

  1. 每天:
    • 继续用简单算法题巩固 Python 基础 20 分钟
    • 手打 2–3 道上面 Pandas 练习题 20 分钟
  2. 坚持 7 天:你就能完全达到 数据开发实习要求的 Python 水平

四、后续我可以给你再加两样

  1. 数开常用「Python 自动化脚本模板」(日志统计、文件批量处理)
  2. Python 面试常问简答 + 口述背诵版

更多推荐