(以Qwen为例)大模型训练和微调全流程实战指南：从预训练到对齐，小白也能掌握！

文章系统介绍了大模型训练全流程：预训练→领域自适应→指令微调→偏好对齐→强化学习对齐。详细讲解了环境配置、数据准备、LoRA/QLoRA技术、代码实现和参数设置，特别强调了数据格式处理、chat模板应用和常见问题解决。既适合有编程基础的开发者，也通过ms-swift等工具降低初学者门槛，是一份从基础到高级的实用指南。

AI-椰子不椰

461人浏览 · 2025-09-09 11:22:41

AI-椰子不椰 · 2025-09-09 11:22:41 发布

简介

前序：

概念与流程：预训练 → 继续预训练（领域自适应） → 指令微调（SFT） → 偏好对齐（DPO/ORPO/KTO） → 强化学习对齐（PPO）。
可复用的代码模板：Hugging Face/TRL/PEFT、ms-swift 命令行。
LoRA/QLoRA 的落地做法（rank、target_modules、合并权重）。
数据格式与 chat 模板的关键坑位（Qwen 的 chat_template）。

说明

代码示例默认以 Qwen/Qwen2.5-7B(-Instruct) 为例。如果你已有 Qwen3 的 HuggingFace 权重，直接把 MODEL_ID 换成对应 id 即可。
GPU 建议：SFT/QLoRA 单卡 24–48GB 足够（batch 小一点 + 累积梯度）；PPO/DPO 视模型大小和数据量，一般多卡更舒适。
环境建议：transformers>=4.41, trl>=0.8, peft>=0.11, bitsandbytes>=0.43, datasets, accelerate, deepspeed（可选）。

一、训练全流程总览

预训练（Pretraining）

目标：大规模无监督自回归（next-token prediction），学习通用语言能力。
数据：网页、代码、书籍，多语种清洗、去重、毒性过滤。

继续预训练（Continued/Domain Adaptive Pretraining）

用你的领域语料（金融/法务/医疗/企业内部知识）对基础模型再训练数万步，提升领域覆盖与术语分布。

指令微调（SFT）

用指令-回答/对话样本教模型“按指令办事”。常配合 LoRA/QLoRA 降显存。

偏好对齐（Alignment）

DPO/ORPO/KTO/SimPO：用偏好对（preferred vs rejected）做直接对比优化。
RLHF（PPO/RLAIF/GRPO）：用奖励模型/规则/AI 反馈作为奖励信号做策略优化。

安全与工具能力

安全基座（拒答/去有害）、工具使用（函数调用）、检索增强（RAG）。

评测与蒸馏

任务集评测（MMLU、C-Eval、GSM8K、AlignBench 等），蒸馏成小模型部署。

二、环境安装（通用）

# 基础依赖

三、继续预训练（领域自适应 Pretraining）
适合你已有一批纯文本/代码语料，想让基础模型更懂你的领域。

数据准备（举例）

data/train.txt 与 data/val.txt：每行一段原始文本（已清洗去重）。

代码（Hugging Face Trainer）

import os, torch

要点

继续预训练用“base”模型（非 Instruct）更合适。
启用 packing（group_texts）能显著提高吞吐。
大模型建议配合 DeepSpeed ZeRO-2/3、多卡和梯度检查点。

四、指令微调 SFT（LoRA/QLoRA）
数据格式（推荐 messages 格式，方便套 chat_template）

train.jsonl（每行一个样本）：

{"messages":[

代码（TRL + PEFT，QLoRA）

import torch

合并 LoRA（推理部署更方便）

import torch

要点

target_modules 对 Qwen/LLaMA 系列常见投影层足够；实际以模型结构为准可做微调。
QLoRA 推荐 r=16/32，learning_rate 2e-4~5e-5 视 batch/任务而定。
数据用 messages + chat_template 能避免标签错位、特殊 token 漏标等坑。

五、用 ms-swift 快速上手（SFT / DPO）
提示：不同版本的 ms-swift CLI 参数略有差异，建议先执行 swift -h 或 swift sft -h 查看你本地版本帮助。下面给出常见用法范式（以 2.x 为例）。

安装

pip install -U "ms-swift[llm]" modelscope

SFT（LoRA/QLoRA）

# 假设 data/train.jsonl 是上文 messages 格式

DPO（偏好对齐，使用 prompt/choice 对）

数据 dpo.jsonl（每行）：

{"prompt":"请写一段自我介绍","chosen":"我是一个乐观...","rejected":"我是个不靠谱..."}

swift dpo \

合并 LoRA

swift export \

备注

ms-swift 还支持 ORPO/KTO/GRPO/SimPO、全参/部分层微调、Deepspeed/FSDP，一行命令即可切换策略。
如果你的 ms-swift 本地帮助与上面不一致，以本地 -h 为准。

六、偏好对齐：DPO（Hugging Face TRL 版）
适合有成对偏好数据（prompt, chosen, rejected），可在 SFT 基础上再优化。

import torch

要点

DPO 对 LR 更敏感，建议 5e-6~2e-5。
数据质量很关键：prompt 明确、chosen/rejected 差异清晰。

七、强化学习对齐：PPO（TRL）
PPO 需要一个“奖励函数”。真实场景常用专门的 Reward Model（例如对 helpfulness/harmlessness 的打分）。这里给一个可跑通的演示版，用情感模型（正面=高分）代替。你可以替换为自己的 RM。

import torch, random

要点

真实对齐要用与你任务匹配的 Reward Model（如中文对齐 RM、规则奖励或 RLAIF）。
控制 KL（target_kl）避免模型崩坏；LR、采样温度、奖励量纲都很关键。
PPO 显存较吃，建议小 batch + 累积，必要时 LoRA 化 PPO（进阶用法）。

八、评测、部署与常见坑

评测

综合：MMLU（中英）、C-Eval（中文学科）、GSM8K（数学）、BBH、AlignBench（对齐）。
指标：准确率、长度、拒答率（安全）、幻觉率（可人工/自动评测结合）。

部署

vLLM 高吞吐推理；支持 LoRA 热插拔、KV Cache、连续批处理。
量化：AWQ/GPTQ（离线），bitsandbytes（在线 8/4bit）。

常见坑

Chat 模板：messages → apply_chat_template 必须一致，训练/推理同模板。
标签错位：SFT 时确保只有 assistant 段落有 label，prompt 部分 label 应该是 -100（用模板正确构造可避免）。
Max length 截断：训练/生成的 max_length 与模型 rope/rope_scaling 要一致。
LoRA 目标层：不同架构名称可能略有不同，先 print(model) 或参考官方配置。
数据清洗：去重、去噪、脱敏；不良样本少量也会严重拖后腿。

九、结尾

你是更偏好用 ms-swift 一键训练，还是 Hugging Face/TRL 写代码流？
你的 GPU 配置（型号/显存/卡数）和大概数据规模是怎样的？我可以按你的资源把 batch、累积、rank、是否 QLoRA 等超参调到更稳妥。
如果你有现成的样本，我可以帮你把数据转换成 messages 或 DPO 所需的 prompt/chosen/rejected 格式，并给出针对你任务的奖励函数设计建议。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述