LLM训练全流程:从预训练到RLHF,带你深入探索大模型核心机制!
本文系统阐述了大语言模型(LLM)的两阶段训练过程:预训练通过海量文本数据使模型掌握语言规律,涉及数据收集、分词和神经网络训练等关键步骤;后训练通过微调优化模型行为,使其更实用可靠。文章深入探讨了模型推理机制、幻觉现象及其缓解方法,并详细解析了强化学习在LLM中的应用,包括RLHF技术原理、PPO算法等,揭示了模型如何通过人类反馈优化输出。全文从基础理论到前沿技术,全面展现了LLM的训练机制与优化
本文详细解析了大语言模型(LLM)的两大核心阶段:预训练与后训练。预训练通过海量文本数据让模型掌握语言规律,涉及数据收集、分词、神经网络训练等关键步骤,并介绍了基础模型的特性及幻觉现象。后训练则通过微调和特殊token引入,使模型更实用、可靠和安全。此外,文章还深入探讨了强化学习(RL)在LLM中的应用,包括RL的目的、直觉、基础回顾、GRPO与PPO算法、CoT思维链以及RLHF等,揭示了模型如何从经验中学习并优化输出,最终生成更符合人类期望的响应。
文章分为两个部分:
第一部分:介绍LLM的基础知识,涵盖从预训练到后训练的整个过程,探讨神经网络的工作原理、幻觉现象(Hallucinations)以及模型的推理机制。
第二部分:探讨人工智能/人类反馈强化学习(RHHF)、o1模型研究、DeepSeek R1以及AlphgGo等主题
第一部分:预训练和微调
训练大语言模型(LLM)主要分为两个核心阶段:预训练(Pre-training)和后训练(Post-training)。这两个阶段共同构成了LLM从零到一的学习过程。
1.预训练(Pre-training)
在LLM能够生成连贯文本之前,它需要先掌握语言的基本规律,这一过程称为预训练。预训练是一个计算密集型任务,涉及大量数据和复杂的模型优化。
步骤1:数据收集与预处理
训练LLM的第一步是收集海量高质量的文本数据。
一个常见的数据来源是Common Crawl,这是一个免费开发的网页爬取数据库,https://commoncrawl.org/ 。然而原始网页数据通常包含大量噪声,因此数据预处理是必不可少的环节。
在完成文本数据的清理后,下一步是进行分词(Tokenization)处理。
步骤2:分词(Tokenization)
在神经网络能够处理文本之前,文本需要被准换为数值形式。这一过程称为分词(Tokenization)。分词的作用是将单词、字词或字符映射为唯一的数值token。这些token是语言模型的基本构建单元,是模型理解和处理语言的核心组件。以GPT-4为例,其可能的token数量为100,277个。每个token对应一个唯一的数值ID,模型通过这些ID来识别和处理文本。
整个过程详细讲一下:
首先文本会先经过分词Tokenization,切成token
然后数值化,把token映射成token id。
比如:我喜欢大模型,经过tokenizer后可能变成:【我,喜欢,大,模型】。之后再映射成数字:【125,3045,89,7821】。
但是这里要注意的是,125并不代表”我“的语义,3045也不是代表”喜欢“的语义。
token id只是编号,本身没有语义。真正表达语义的是下一步:token id —>embedding 向量。
比如: 125 → [0.12, -0.43, 0.88, …] 3045 → [0.76, 0.21, -0.19, …]
所以完整的流程是: 原始文本 ↓ Tokenization:切成 token ↓ Numericalization:映射成 token id ↓ Embedding:查表变成向量 ↓ 送入 Transformer / 神经网络
值得注意的是tokenizer 和模型必须严格匹配,否则模型会“听不懂输入”。
每个大模型都有自己独立的 tokenizer、token id 映射和 embedding,它们是绑定在一起的一整套系统,不能混用。
通过分词,文本被转化为模型可以理解的数值序列,为后续的模型训练和推理奠定了基础。这里说的数值token就是指向量。
步骤3:神经网络训练(Neural Network Training )
在文本经过分词处理后,神经网络的任务是学习如何根据上下文预测下一个token(这里专指LLM的神经网络的任务)。具体来说,模型会接收一串输入token,并通过模型的架构进行处理,最终输出对下一个token的预测。模型之所以能做到,是因为它的训练目标就是这样。它使用的是无监督的训练,例如有一句话,“玩原神玩的”,最开始输入玩,模型就会预测一个输出,训练的目标是让它输出“原”。紧接着,就会输入“玩原”,然后输出的目前是“神”,以此类推。
神经网络训练是LLM训练的核心。
神经网络主要由两个关键部分构成:
1.参数(Weights):也称为权重,通过训练学习得到的数值,用于调整模型的行为。本质上是矩阵的值。神经网络是无数个矩阵组成的,参数就是这些矩阵的值。
2.架构(Architecture):定义输入token如何被处理以生成输出的数学结构。
基础模型(Base Model):预训练的成果
在这一阶段,基础模型已经学会了:理解单词、短语和句子之间的关联。识别训练数据中的统计模式。但是基础模型并未针对具体任务进行优化,它能够基于概率预测下一个token,但缺乏对指令的精确理解和执行能力。
为什么模型只做 next-token prediction 却能回答问题? 虽然语言模型的训练目标是预测下一个 token,但在训练数据中,问题后面通常跟随的是答案,因此模型学习到了“问题-答案”的统计模式。在推理时,给定一个问题作为上下文,生成答案序列实际上是该条件概率分布下的高概率输出。因此模型表现出类似“理解问题并回答”的能力。
2.后训练(Post-Training):让模型更实用
为了让模型在实际应用阶段更加实用、可靠和安全,需要进行后训练(Post-Training)。这一阶段通常在更小、更专业的数据集上进行微调,以优化模型的行为和性能。
由于神经网络无法像传统软件那样通过显示编程来调整,我们只能通过训练来“编程”它。
后训练的方式
后训练阶段会创建专门的数据集,这些数据集包含结构化的示例,指导模型在不同情景下的回应方式。以下是两种常见的后训练方法:
1.指令/对话微调(Instruction/Conversation Fine-Tuning)
目标是让模型学会遵循指令、执行任务、进行多轮对话、遵守安全规范以及拒绝恶意请求。
2.领域特定微调(Domain-Specific Fine-Tuning)
目前是使模型适应特定领域的需求。通过在对应领域的高质量数据上进行微调,模型能够生成更专业、更准确的响应。
特殊token的引入
在后训练阶段,还会引入一些特殊token,这些token在预训练阶段并未使用。它们的作用是帮助模型理解交互的结构。例如:
1.标记用户输入的起始与结束。
2.标记AI响应的起始位置。
这些特殊的token确保模型能够正确区分提示(Prompt)和回答(Reply),从而生成更符合上下文的响应。
通过后训练,模型不仅能够更好的理解任务和指令,还能在特定领域和复杂交互中表现出色,最终成为一个实用且可靠的AI系统。
3.推理(Inference)–模型如何生成新文本
推理是模型生成新文本的过程,它可以在任何阶段进行,甚至可以在预训练中途执行,以评估模型的学习效果。当模型接收到一组输入token后,它会根据训练中学到的模式,为所有可能的下一个token分配概率。
然而,模型并非总是选择概率最高的token,而是通过概率分布采样来决定下一个token。
这类似于抛一个带有偏向性的硬币,高概率的token更有可能被选中,但低概率的token仍有机会被选择。
采样不是为了跳出局部最优,而是为了避免“过于确定性导致的表达退化”
在语言模型生成过程中,模型输出的是一个概率分布。若始终选择最大概率的 token(greedy decoding),会导致输出缺乏多样性甚至出现重复。通过从概率分布中采样,可以在保证高概率 token 更易被选中的前提下,引入适度随机性,从而提升生成文本的自然性与多样性。 这种机制并不是为了解决训练中的局部最优问题,而是为了避免生成过程过于确定性导致的表达退化。
这个过程是迭代进行的:每个新生成的token都会成为下一次预测的输入。由于token选择具有一定的随机性,即使输入相同,模型也可能生成不同的输出。通过这种方式,模型能够生成训练数据中未直接出现但符合统计规律的文本。
4.幻觉(Hallucinations)—当LLM生成错误信息
幻觉(Hallucinations)是指LLM生成虚假或错误信息的情况。这种现象的根本原因在于,LLM并不“理解”事实——它只是根据训练数据预测最可能的单词序列。
在早期,LLM的幻觉问题尤为严重。例如,如果训练数据中包含大量类似“谁是…”的问题,并且这些问题都有明确的答案,模型可能会学习到:这类查询应该有一个自信的回答,即使它实际上并不具备相关知识。
这种倾向导致模型在缺乏准确信息时,仍然会生成看似合理但实际错误的回答。解决幻觉问题是LLM研究和开发中的重要挑战之一,通过更高质量的训练数据、更精细的后训练以及引入外部知识库等方法可以缓解。
举个例子,在训练集当中可能有很多关于著名人物的介绍,比如成龙、项羽、刘邦等。这个时候你问谁是成龙、谁是项羽、谁是刘邦,模型是能给你准确回答的。但是这个时候你如果问谁是幽,这个时候模型不会自然地回答“我不知道”,因为在训练过程中,这种模式并未被充分强化。相反,模型会生成一个看似合理的猜测,而这就是幻觉。
如何减少幻觉?
方法一:训练模型说“我不知道”
提高模型的事实准确性需要明确训练它识别自身知识的边界,并学会在不确定时回答”我不知道“。这一过程通常通过自我询问(self-Interrogation)来实现。
自我询问可以通过另一个AI模型自动化完成。该模型生成问题以探测知识盲点,如果模型生成了错误的答案,系统会加入新的训练示例,其中正确的回应是:”我不确定,能否提供更多的上下文“
训练机制:
如果模型在训练中多次遇到某个问题,它会为正确答案分配较高的概率。
如果模型从未遇到过某个问题,它会在多个可能的token之间均匀分配概率,从而使输出更加随机,没有单一token被认为是最可能的选择。
微调效果:
通过微调,模型被显示训练以处理低置信度的输出,并用预定义的回应,(例如,我不知道)来应对。
方法二:引入网络搜索(或者RAG,外挂知识库)
一种更先进的方法是赋予模型访问外部搜索工具的能力,从而扩展其知识范围,使其能够超越训练数据的限制。
工作原理:
当模型检测到不确定性时,可以触发一次网络搜索。搜索结果会被插入到模型的上下文窗口中,成为其“工作记忆”的一部分。模型在生成响应时会参考这些新信息。
RAG技术就是类似的原理。
5.模糊记忆和工作记忆
LLM通常通过两种方式访问知识:
模糊记忆:
这是模型在训练过程中存储的知识,基于从海量互联网数据中学到的统计模式。
基本上模型的参数来储存这些记忆。模型不是“记住一条知识”,而是学会了“生成这条知识的函数”
工作记忆:
这是模型在推理过程中可以直接访问的信息,存储在其上下文窗口中。任何提供的文本都会作为短期记忆,使模型能够生成响应时回忆相关细节。
6.自我认知
当被问到“你是谁?”或“是什么构建了你?”等问题时,LLM 会根据其训练数据生成一个统计上最可能的回应,除非被显式编程以提供准确答案。LLM 并不具备真正的自我意识,它们的回应完全依赖于训练过程中学到的模式。
为了让模型表现出一致的身份,可以使用系统提示(System Prompt)。通过预定义的指令,系统提示可以描述模型的身份、能力以及局限性,从而引导模型生成符合预期的回答。
这个就是常说的prompt,给模型一个身份。
第二部分:强化学习(RL)
1.RL的目的是什么?
人类和LLM处理信息的方式存在显著差异,对于人类来说,当前的智能是如何由来的,暂时还没有一个准确和统一的答案。但是LLM是将文本视为一串token序列的。LLM能够在复杂主题上生成专家级回答,仅仅因为它们在训练过程中见过足够多的示例。
人类注释者难以提供一组“完美”的标签来持续引导LLM找到正确答案。RL弥补了这一差距,它允许模型从自身的经验中学习,模型不再仅仅依赖显示标签,而是通过探索不同的token序列,并根据哪些输出最有用来获得反馈(奖励信号)。
语言任务中通常不存在唯一标准答案,而“好回答”的定义又高度复杂和主观,因此人类难以通过传统监督学习提供完备且一致的标签。RL 更像“在巨大输出空间中搜索高质量行为”。
2.RL背后的直觉
LLM本质上是随机的,即使是相同的提示,输出也可能不同,因为它是从概率分布中采样的。我们可以利用这种随机性,通过并行生成成千上万甚至数百万个可能的响应。这可以看作是模型在探索不同的路径——有些是好的,有些是差的。我们的目标是鼓励模型更多的选择较好的路径。
为了实现这一点,我们让模型在那些导致更好结果的token序列上进行训练。监督微调(SFT)依赖人类专家提供的标签数据,而RL则允许模型从自身的学习中进步。模型通过发现哪些响应最有效,并在每个训练步骤后更新其参数。
模型不断采样生成不同 token 序列,通过 Reward Model 判断哪些回答更符合人类偏好,再利用 PPO 等算法提高高奖励序列的生成概率,从而逐渐形成更符合人类期望的输出分布。
这里有一个Reward Model,这个其实也是一个模型,这个模型是奖励模型。
输入(prompt,answer),会输出reward score。
Reward Model模型本质上是判断“什么样的回答更符合人类偏好。”这是一个比较常见的监督学习的问题。但它与传统监督学习不同,它学习的不是唯一正确答案,而是回答之间的相对偏好关系,本质上更接近排序学习(ranking)。
3.RL基础回顾
agent:这是学习的主体,负责在环境中采取行动。
环境:智能体与之交互的外部世界,它会根据智能体的行动给出反馈。
状态:环境在某一时刻的具体情况,智能体根据状态决定行动。
在每个时间点,智能体会在环境中执行一个动作,这个动作会将环境从当前的状态转移到新的状态。同时智能体会收到一个奖励,这个一个数值形式的反馈,用于评估动作的好坏。正奖励鼓励智能体重复该行为,而负奖励起到抑制作用。
策略是一个函数,它定义了在给定状态下选择不同动作的概率。
价值函数(Value Model)用于评估某个状态的好坏,考虑的是长期期望奖励。对于LLM而言,奖励可能来自人类反馈或者奖励模型。
Acotor-Critic架构
Actor-Critic是一种流行的强化学习框架,结合了两个关键组件:
1.Actor负责学习和更新策略,决定在每个状态下应该采取哪个动作。
2.Critic评估价值函数,为Actor提供反馈,告知其选择的动作是否带来了好的结果。
- Critic的反馈帮助Actor优化策略,使未来的动作能够获得更高的奖励。
在LLM的上下文当中,状态可以是当前的文本(提示或者对话)。动作是生成的下一个token(词或者子词)。奖励模型告诉模型生成的文本是好是坏。策略是模型选择下一个token的规则。价值函数评估当前文本上下文对最终生成高质量响应的贡献程度。
4.RL算法:GRPO和PPO
PPO是当前大模型RLHF中经典的策略优化算法,其核心思想是提高高奖励输出概率的同时,限制策略更新幅度,避免模型偏离原有语言分布过远,从而保证训练稳定性。
GRPO则是在PPO的基础上的一种改进思路,它不再依赖value model,而是通过同一prompt下生成结果之间的相对奖励进行归一化比较,从而估计advantage。其训练成本更低、适合推理任务。
PPO的核心:
它表示新模型和旧模型相比,某个token的概率变化了多少。
PPO的关键机制:
clip给出了的变化范围。
通过上述过程可以看到,在改变模型参数之后,需要再运行一次,才能知道新模型某个token的概率变化了多少。所以他需要多一次forward。而且PPO需要一个value model来对各个回答进行打分。
主要误区:区分Reward model 和value model
Reward model 的作用是看“这个完整的回答有多好”。RM本质是人类偏好评分器。
Value Model不是评价最终答案,完整答案。而是预测未来还能拿多少reward,它预估的是当前状态未来的期望收益。也就是说Value Model不是在整个回答之后进行评分,而是在生成答案的过程中进行评分。
当前处在状态 s_t, 从这里继续生成下去, 最终期望能拿到多少 reward。
PPO的整体逻辑:
1.LLM生成回答。
2.Reward Model给完整回答打分。
3.Value Model估计每个生成位置的预期价值。
4.计算Advantage=实际回报-预期价值。
5.PPO根据Advantage更新token概率。
如果说明这个token选择比预期好,提高它的概率。
如果说明这个token选择比预期差,降低它的概率。
PPO之所以通常需要Value Model,是因为只用最终reward来更新整条token序列会导致方差很大、信用分配困难、训练不稳定。Value Model可以降低方差,让策略更新更加稳定和精细。
但这里值得注意的是:
GRPO仍然会更新过程中的token,它仍然会对token做credit assignment(信用分配),只是它不再依赖一个显示Value Model去估计baseline了。
GRPO 通常对同一条 trajectory 中的 token 使用共享的 sequence-level advantage,因此更偏向整体强化高质量 trajectory;而 PPO 由于使用 Value Model 估计不同状态的价值,因此不同 token 位置可以拥有不同的 advantage,从而实现更细粒度的 credit assignment。 但两者本质上仍然都是 token-level policy gradient 更新,并不是“只更新最终结果”。
5.CoT(Chain of Thought,思维链)
传统的LLM训练流程是:预训练—>SFT—>RL。DeepSeek跳过了SFT,允许模型直接探索思维链(CoT)推理。
CoT本质上是让模型显示生成中间推理步骤,通过将复杂问题拆解为多个连续推理状态,从而提升多步推理任务的正确率。而且这里面会出现智慧涌现的神奇时刻。
CoT搭配RL,可以生成多条思维链路,然后通过RL强化正确的思维链路,削弱错误的思维链路。
同样的模型开始重新审视过去的推理步骤,显著提高了准确性。
把复杂问题拆成多个中间状态,可以降低推理难度,提高正确率。这是很符合人类直觉的,如果直接去做复杂的事情,很多人都会望而生畏,但是把复杂的事情拆解成多个小步骤,就会发现每个步骤都很简单。
6.RLHF(带有人工反馈的强化学习)
对于像总结或者创意写作这一没有单一“正确”答案的领域,如何评估模型的表现呢?通过引入人类评估,模型能够学习生成更符合人类偏好和意图的响应。
为什么使用排名而非绝对评分?
对响应进行排名比直接评分更容易更直观。人类更容易判断哪个回答更好,而不是为每个回答分配一个具体的分数。
解决方案是训练一个AI奖励模型,让它学习人类的偏好,从而大幅减少人工工作量。
这里说的AI奖励模型,就是前面说的RM。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

最后
1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

欢迎来到AMD开发者中国社区,我们致力于为全球开发者提供 ROCm、Ryzen AI Software 和 ZenDNN等全栈软硬件优化支持。携手中国开发者,链接全球开源生态,与你共建开放、协作的技术社区。
更多推荐

所有评论(0)