文章详细介绍了从零开始构建大语言模型(LLM)的四个核心阶段:首先通过预训练让模型掌握语言基本规律;然后通过指令微调使模型具备对话能力;接着利用偏好微调(RLHF)优化模型与人类偏好的一致性;最后通过推理微调提升模型在逻辑推理任务中的表现。这四个阶段循序渐进,使一个随机初始化的模型逐步成长为能够应用于真实场景的智能系统。

从零开始构建 LLMs 的四个阶段,使其能够应用于真实场景。

涵盖:

  • 预训练
  • 指令微调
  • 偏好微调
  • 推理微调

0️⃣ 随机初始化的 LLM

此时,模型一无所知。

你问它“什么是 LLM?”,得到的却是像“try peter hand and hello 448Sn”这样的胡言乱语。

它尚未见过任何数据,只拥有随机的权重。

1️⃣ 预训练

这一阶段通过在海量语料上训练 LLM 预测下一个 token,让它掌握语言的基本规律,从而吸收语法、世界知识等。

但它并不擅长对话,因为当被提示时,它只是继续生成文本。

2️⃣ 指令微调

为了让模型具备对话能力,我们通过在指令 - 响应对上进行训练来进行指令微调。这帮助它学会如何遵循提示并格式化回复。

现在它可以:

  • 回答问题
  • 总结内容
  • 编写代码等

此时,我们很可能已经:

  • 用尽了整个原始互联网档案和知识。
  • 用光了用于人工标注指令 - 回复数据的预算。

那么我们还能做什么来进一步提升模型?

我们进入了强化学习(RL)的领域。

3️⃣ 偏好微调(PFT)

你一定在 ChatGPT 上见过这个界面,它会问:你更喜欢哪个回答?

这不仅仅是为了收集反馈,更是宝贵的人类偏好数据。

OpenAI 利用这些数据,通过偏好微调来优化他们的模型。

在 PFT 中:

用户在两个回答之间做出选择,以生成人类偏好数据。

随后训练一个奖励模型来预测人类偏好,并使用 RL 更新 LLM。

上述过程称为 RLHF(Reinforcement Learning with Human Feedback,基于人类反馈的强化学习),用于更新模型权重的算法称为 PPO。

它教会 LLM 在没有“正确答案”的情况下也能与人类对齐。

但我们还可以进一步改进 LLM。

4️⃣ 推理微调

在推理任务(数学、逻辑等)中,通常只有一个正确答案,以及一系列明确的步骤来得出答案。

因此我们不需要人类偏好,而是可以用正确性作为信号。

这被称为推理微调 👇

步骤:

  • 模型针对提示生成一个答案。
  • 将该答案与已知正确答案进行比较。
  • 根据正确性,我们给予奖励。

这被称为“基于可验证奖励的强化学习”。

DeepSeek 的 GRPO 是一种流行的技术。

这就是从零开始训练一个 LLM 的 4 个阶段。

  • 从一个随机初始化的模型开始。
  • 在大规模语料库上进行预训练。
  • 使用指令微调,使其能够遵循命令。
  • 使用偏好与推理微调来优化回答。

零基础如何学习大模型

读者福利大放送:如果你对大模型感兴趣,想更加深入的学习大模型**,那么这份精心整理的大模型学习资料,绝对能帮你少走弯路、快速入门**

如果你是零基础小白,别担心——大模型入门真的没那么难,你完全可以学得会

👉 不用你懂任何算法和数学知识,公式推导、复杂原理这些都不用操心;
👉 也不挑电脑配置,普通家用电脑完全能 hold 住,不用额外花钱升级设备;
👉 更不用你提前学 Python 之类的编程语言,零基础照样能上手。

你要做的特别简单:跟着我的讲解走,照着教程里的步骤一步步操作就行。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

现在这份资料免费分享给大家,有需要的小伙伴,直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型?

数据显示,2023 年我国大模型相关人才缺口已突破百万,这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代,产业对专业人才的需求将呈爆发式增长,据预测,到 2025 年这一缺口将急剧扩大至 400 万!!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战,跟着学习路线一步步打卡,小白也能轻松学会!
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够,这套学习资料还包含了丰富的实战案例,让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题,我都给大家汇总好了,能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
👉获取方式

😝有需要的小伙伴,可以保存图片到VX扫描下方二维码免费领取【保证100%免费】
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最适合零基础的!!

Logo

更多推荐