本文详细解析了大语言模型(LLM)的两大核心阶段:预训练与后训练。预训练通过海量文本数据让模型掌握语言规律,涉及数据收集、分词、神经网络训练等关键步骤,并介绍了基础模型的特性及幻觉现象。后训练则通过微调和特殊token引入,使模型更实用、可靠和安全。此外,文章还深入探讨了强化学习(RL)在LLM中的应用,包括RL的目的、直觉、基础回顾、GRPO与PPO算法、CoT思维链以及RLHF等,揭示了模型如何从经验中学习并优化输出,最终生成更符合人类期望的响应。


文章分为两个部分:

第一部分:介绍LLM的基础知识,涵盖从预训练到后训练的整个过程,探讨神经网络的工作原理、幻觉现象(Hallucinations)以及模型的推理机制。

第二部分:探讨人工智能/人类反馈强化学习(RHHF)、o1模型研究、DeepSeek R1以及AlphgGo等主题

第一部分:预训练和微调

训练大语言模型(LLM)主要分为两个核心阶段:预训练(Pre-training)和后训练(Post-training)。这两个阶段共同构成了LLM从零到一的学习过程。

1.预训练(Pre-training)

在LLM能够生成连贯文本之前,它需要先掌握语言的基本规律,这一过程称为预训练。预训练是一个计算密集型任务,涉及大量数据和复杂的模型优化。

步骤1:数据收集与预处理

训练LLM的第一步是收集海量高质量的文本数据。

一个常见的数据来源是Common Crawl,这是一个免费开发的网页爬取数据库,https://commoncrawl.org/ 。然而原始网页数据通常包含大量噪声,因此数据预处理是必不可少的环节。

在完成文本数据的清理后,下一步是进行分词(Tokenization)处理。

步骤2:分词(Tokenization)

在神经网络能够处理文本之前,文本需要被准换为数值形式。这一过程称为分词(Tokenization)。分词的作用是将单词、字词或字符映射为唯一的数值token。这些token是语言模型的基本构建单元,是模型理解和处理语言的核心组件。以GPT-4为例,其可能的token数量为100,277个。每个token对应一个唯一的数值ID,模型通过这些ID来识别和处理文本。

整个过程详细讲一下:

首先文本会先经过分词Tokenization,切成token

然后数值化,把token映射成token id。

比如:我喜欢大模型,经过tokenizer后可能变成:【我,喜欢,大,模型】。之后再映射成数字:【125,3045,89,7821】。

但是这里要注意的是,125并不代表”我“的语义,3045也不是代表”喜欢“的语义。

token id只是编号,本身没有语义。真正表达语义的是下一步:token id —>embedding 向量。

比如: 125 → [0.12, -0.43, 0.88, …] 3045 → [0.76, 0.21, -0.19, …]

所以完整的流程是: 原始文本 ↓ Tokenization:切成 token ↓ Numericalization:映射成 token id ↓ Embedding:查表变成向量 ↓ 送入 Transformer / 神经网络

值得注意的是tokenizer 和模型必须严格匹配,否则模型会“听不懂输入”。

每个大模型都有自己独立的 tokenizer、token id 映射和 embedding,它们是绑定在一起的一整套系统,不能混用。

通过分词,文本被转化为模型可以理解的数值序列,为后续的模型训练和推理奠定了基础。这里说的数值token就是指向量。

步骤3:神经网络训练(Neural Network Training )

在文本经过分词处理后,神经网络的任务是学习如何根据上下文预测下一个token(这里专指LLM的神经网络的任务)。具体来说,模型会接收一串输入token,并通过模型的架构进行处理,最终输出对下一个token的预测。模型之所以能做到,是因为它的训练目标就是这样。它使用的是无监督的训练,例如有一句话,“玩原神玩的”,最开始输入玩,模型就会预测一个输出,训练的目标是让它输出“原”。紧接着,就会输入“玩原”,然后输出的目前是“神”,以此类推。

神经网络训练是LLM训练的核心。

神经网络主要由两个关键部分构成:

1.参数(Weights):也称为权重,通过训练学习得到的数值,用于调整模型的行为。本质上是矩阵的值。神经网络是无数个矩阵组成的,参数就是这些矩阵的值。

2.架构(Architecture):定义输入token如何被处理以生成输出的数学结构。

基础模型(Base Model):预训练的成果

在这一阶段,基础模型已经学会了:理解单词、短语和句子之间的关联。识别训练数据中的统计模式。但是基础模型并未针对具体任务进行优化,它能够基于概率预测下一个token,但缺乏对指令的精确理解和执行能力。

为什么模型只做 next-token prediction 却能回答问题? 虽然语言模型的训练目标是预测下一个 token,但在训练数据中,问题后面通常跟随的是答案,因此模型学习到了“问题-答案”的统计模式。在推理时,给定一个问题作为上下文,生成答案序列实际上是该条件概率分布下的高概率输出。因此模型表现出类似“理解问题并回答”的能力。

2.后训练(Post-Training):让模型更实用

为了让模型在实际应用阶段更加实用、可靠和安全,需要进行后训练(Post-Training)。这一阶段通常在更小、更专业的数据集上进行微调,以优化模型的行为和性能。

由于神经网络无法像传统软件那样通过显示编程来调整,我们只能通过训练来“编程”它。

后训练的方式

后训练阶段会创建专门的数据集,这些数据集包含结构化的示例,指导模型在不同情景下的回应方式。以下是两种常见的后训练方法:

1.指令/对话微调(Instruction/Conversation Fine-Tuning)

目标是让模型学会遵循指令、执行任务、进行多轮对话、遵守安全规范以及拒绝恶意请求。

2.领域特定微调(Domain-Specific Fine-Tuning)

目前是使模型适应特定领域的需求。通过在对应领域的高质量数据上进行微调,模型能够生成更专业、更准确的响应。

特殊token的引入

在后训练阶段,还会引入一些特殊token,这些token在预训练阶段并未使用。它们的作用是帮助模型理解交互的结构。例如:

1.标记用户输入的起始与结束。

2.标记AI响应的起始位置。

这些特殊的token确保模型能够正确区分提示(Prompt)和回答(Reply),从而生成更符合上下文的响应。

通过后训练,模型不仅能够更好的理解任务和指令,还能在特定领域和复杂交互中表现出色,最终成为一个实用且可靠的AI系统。

3.推理(Inference)–模型如何生成新文本

推理是模型生成新文本的过程,它可以在任何阶段进行,甚至可以在预训练中途执行,以评估模型的学习效果。当模型接收到一组输入token后,它会根据训练中学到的模式,为所有可能的下一个token分配概率。

然而,模型并非总是选择概率最高的token,而是通过概率分布采样来决定下一个token。

这类似于抛一个带有偏向性的硬币,高概率的token更有可能被选中,但低概率的token仍有机会被选择。

采样不是为了跳出局部最优,而是为了避免“过于确定性导致的表达退化”

在语言模型生成过程中,模型输出的是一个概率分布。若始终选择最大概率的 token(greedy decoding),会导致输出缺乏多样性甚至出现重复。通过从概率分布中采样,可以在保证高概率 token 更易被选中的前提下,引入适度随机性,从而提升生成文本的自然性与多样性。 这种机制并不是为了解决训练中的局部最优问题,而是为了避免生成过程过于确定性导致的表达退化。

这个过程是迭代进行的:每个新生成的token都会成为下一次预测的输入。由于token选择具有一定的随机性,即使输入相同,模型也可能生成不同的输出。通过这种方式,模型能够生成训练数据中未直接出现但符合统计规律的文本。

4.幻觉(Hallucinations)—当LLM生成错误信息

幻觉(Hallucinations)是指LLM生成虚假或错误信息的情况。这种现象的根本原因在于,LLM并不“理解”事实——它只是根据训练数据预测最可能的单词序列。

在早期,LLM的幻觉问题尤为严重。例如,如果训练数据中包含大量类似“谁是…”的问题,并且这些问题都有明确的答案,模型可能会学习到:这类查询应该有一个自信的回答,即使它实际上并不具备相关知识。

这种倾向导致模型在缺乏准确信息时,仍然会生成看似合理但实际错误的回答。解决幻觉问题是LLM研究和开发中的重要挑战之一,通过更高质量的训练数据、更精细的后训练以及引入外部知识库等方法可以缓解。

举个例子,在训练集当中可能有很多关于著名人物的介绍,比如成龙、项羽、刘邦等。这个时候你问谁是成龙、谁是项羽、谁是刘邦,模型是能给你准确回答的。但是这个时候你如果问谁是幽,这个时候模型不会自然地回答“我不知道”,因为在训练过程中,这种模式并未被充分强化。相反,模型会生成一个看似合理的猜测,而这就是幻觉。

如何减少幻觉?

方法一:训练模型说“我不知道”

提高模型的事实准确性需要明确训练它识别自身知识的边界,并学会在不确定时回答”我不知道“。这一过程通常通过自我询问(self-Interrogation)来实现。

自我询问可以通过另一个AI模型自动化完成。该模型生成问题以探测知识盲点,如果模型生成了错误的答案,系统会加入新的训练示例,其中正确的回应是:”我不确定,能否提供更多的上下文“

训练机制:

如果模型在训练中多次遇到某个问题,它会为正确答案分配较高的概率。

如果模型从未遇到过某个问题,它会在多个可能的token之间均匀分配概率,从而使输出更加随机,没有单一token被认为是最可能的选择。

微调效果:

通过微调,模型被显示训练以处理低置信度的输出,并用预定义的回应,(例如,我不知道)来应对。

方法二:引入网络搜索(或者RAG,外挂知识库)

一种更先进的方法是赋予模型访问外部搜索工具的能力,从而扩展其知识范围,使其能够超越训练数据的限制。

工作原理:

当模型检测到不确定性时,可以触发一次网络搜索。搜索结果会被插入到模型的上下文窗口中,成为其“工作记忆”的一部分。模型在生成响应时会参考这些新信息。

RAG技术就是类似的原理。

5.模糊记忆和工作记忆

LLM通常通过两种方式访问知识:

模糊记忆:

这是模型在训练过程中存储的知识,基于从海量互联网数据中学到的统计模式。

基本上模型的参数来储存这些记忆。模型不是“记住一条知识”,而是学会了“生成这条知识的函数”

工作记忆:

这是模型在推理过程中可以直接访问的信息,存储在其上下文窗口中。任何提供的文本都会作为短期记忆,使模型能够生成响应时回忆相关细节。

6.自我认知

当被问到“你是谁?”或“是什么构建了你?”等问题时,LLM 会根据其训练数据生成一个统计上最可能的回应,除非被显式编程以提供准确答案。LLM 并不具备真正的自我意识,它们的回应完全依赖于训练过程中学到的模式。

为了让模型表现出一致的身份,可以使用系统提示(System Prompt)。通过预定义的指令,系统提示可以描述模型的身份、能力以及局限性,从而引导模型生成符合预期的回答。

这个就是常说的prompt,给模型一个身份。

第二部分:强化学习(RL)

1.RL的目的是什么?

人类和LLM处理信息的方式存在显著差异,对于人类来说,当前的智能是如何由来的,暂时还没有一个准确和统一的答案。但是LLM是将文本视为一串token序列的。LLM能够在复杂主题上生成专家级回答,仅仅因为它们在训练过程中见过足够多的示例。

人类注释者难以提供一组“完美”的标签来持续引导LLM找到正确答案。RL弥补了这一差距,它允许模型从自身的经验中学习,模型不再仅仅依赖显示标签,而是通过探索不同的token序列,并根据哪些输出最有用来获得反馈(奖励信号)。

语言任务中通常不存在唯一标准答案,而“好回答”的定义又高度复杂和主观,因此人类难以通过传统监督学习提供完备且一致的标签。RL 更像“在巨大输出空间中搜索高质量行为”。

2.RL背后的直觉

LLM本质上是随机的,即使是相同的提示,输出也可能不同,因为它是从概率分布中采样的。我们可以利用这种随机性,通过并行生成成千上万甚至数百万个可能的响应。这可以看作是模型在探索不同的路径——有些是好的,有些是差的。我们的目标是鼓励模型更多的选择较好的路径。

为了实现这一点,我们让模型在那些导致更好结果的token序列上进行训练。监督微调(SFT)依赖人类专家提供的标签数据,而RL则允许模型从自身的学习中进步。模型通过发现哪些响应最有效,并在每个训练步骤后更新其参数。

模型不断采样生成不同 token 序列,通过 Reward Model 判断哪些回答更符合人类偏好,再利用 PPO 等算法提高高奖励序列的生成概率,从而逐渐形成更符合人类期望的输出分布。

这里有一个Reward Model,这个其实也是一个模型,这个模型是奖励模型。

输入(prompt,answer),会输出reward score。

Reward Model模型本质上是判断“什么样的回答更符合人类偏好。”这是一个比较常见的监督学习的问题。但它与传统监督学习不同,它学习的不是唯一正确答案,而是回答之间的相对偏好关系,本质上更接近排序学习(ranking)。

3.RL基础回顾

agent:这是学习的主体,负责在环境中采取行动。

环境:智能体与之交互的外部世界,它会根据智能体的行动给出反馈。

状态:环境在某一时刻的具体情况,智能体根据状态决定行动。

在每个时间点,智能体会在环境中执行一个动作,这个动作会将环境从当前的状态转移到新的状态。同时智能体会收到一个奖励,这个一个数值形式的反馈,用于评估动作的好坏。正奖励鼓励智能体重复该行为,而负奖励起到抑制作用。

策略是一个函数,它定义了在给定状态下选择不同动作的概率。

价值函数(Value Model)用于评估某个状态的好坏,考虑的是长期期望奖励。对于LLM而言,奖励可能来自人类反馈或者奖励模型。

Acotor-Critic架构

Actor-Critic是一种流行的强化学习框架,结合了两个关键组件:

1.Actor负责学习和更新策略,决定在每个状态下应该采取哪个动作。

2.Critic评估价值函数,为Actor提供反馈,告知其选择的动作是否带来了好的结果。

  • Critic的反馈帮助Actor优化策略,使未来的动作能够获得更高的奖励。

在LLM的上下文当中,状态可以是当前的文本(提示或者对话)。动作是生成的下一个token(词或者子词)。奖励模型告诉模型生成的文本是好是坏。策略是模型选择下一个token的规则。价值函数评估当前文本上下文对最终生成高质量响应的贡献程度。

4.RL算法:GRPO和PPO

PPO是当前大模型RLHF中经典的策略优化算法,其核心思想是提高高奖励输出概率的同时,限制策略更新幅度,避免模型偏离原有语言分布过远,从而保证训练稳定性。

GRPO则是在PPO的基础上的一种改进思路,它不再依赖value model,而是通过同一prompt下生成结果之间的相对奖励进行归一化比较,从而估计advantage。其训练成本更低、适合推理任务。

PPO的核心:

它表示新模型和旧模型相比,某个token的概率变化了多少。

PPO的关键机制:

clip给出了的变化范围。

通过上述过程可以看到,在改变模型参数之后,需要再运行一次,才能知道新模型某个token的概率变化了多少。所以他需要多一次forward。而且PPO需要一个value model来对各个回答进行打分。

主要误区:区分Reward model 和value model

Reward model 的作用是看“这个完整的回答有多好”。RM本质是人类偏好评分器。

Value Model不是评价最终答案,完整答案。而是预测未来还能拿多少reward,它预估的是当前状态未来的期望收益。也就是说Value Model不是在整个回答之后进行评分,而是在生成答案的过程中进行评分。

当前处在状态 s_t, 从这里继续生成下去, 最终期望能拿到多少 reward。

PPO的整体逻辑:

1.LLM生成回答。

2.Reward Model给完整回答打分。

3.Value Model估计每个生成位置的预期价值。

4.计算Advantage=实际回报-预期价值。

5.PPO根据Advantage更新token概率。

如果说明这个token选择比预期好,提高它的概率。

如果说明这个token选择比预期差,降低它的概率。

PPO之所以通常需要Value Model,是因为只用最终reward来更新整条token序列会导致方差很大、信用分配困难、训练不稳定。Value Model可以降低方差,让策略更新更加稳定和精细。

但这里值得注意的是:

GRPO仍然会更新过程中的token,它仍然会对token做credit assignment(信用分配),只是它不再依赖一个显示Value Model去估计baseline了。

GRPO 通常对同一条 trajectory 中的 token 使用共享的 sequence-level advantage,因此更偏向整体强化高质量 trajectory;而 PPO 由于使用 Value Model 估计不同状态的价值,因此不同 token 位置可以拥有不同的 advantage,从而实现更细粒度的 credit assignment。 但两者本质上仍然都是 token-level policy gradient 更新,并不是“只更新最终结果”。

5.CoT(Chain of Thought,思维链)

传统的LLM训练流程是:预训练—>SFT—>RL。DeepSeek跳过了SFT,允许模型直接探索思维链(CoT)推理。

CoT本质上是让模型显示生成中间推理步骤,通过将复杂问题拆解为多个连续推理状态,从而提升多步推理任务的正确率。而且这里面会出现智慧涌现的神奇时刻。

CoT搭配RL,可以生成多条思维链路,然后通过RL强化正确的思维链路,削弱错误的思维链路。

同样的模型开始重新审视过去的推理步骤,显著提高了准确性。

把复杂问题拆成多个中间状态,可以降低推理难度,提高正确率。这是很符合人类直觉的,如果直接去做复杂的事情,很多人都会望而生畏,但是把复杂的事情拆解成多个小步骤,就会发现每个步骤都很简单。

6.RLHF(带有人工反馈的强化学习)

对于像总结或者创意写作这一没有单一“正确”答案的领域,如何评估模型的表现呢?通过引入人类评估,模型能够学习生成更符合人类偏好和意图的响应。

为什么使用排名而非绝对评分?

对响应进行排名比直接评分更容易更直观。人类更容易判断哪个回答更好,而不是为每个回答分配一个具体的分数。

解决方案是训练一个AI奖励模型,让它学习人类的偏好,从而大幅减少人工工作量。

这里说的AI奖励模型,就是前面说的RM。

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

    在这里插入图片描述

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎来到AMD开发者中国社区,我们致力于为全球开发者提供 ROCm、Ryzen AI Software 和 ZenDNN等全栈软硬件优化支持。携手中国开发者,链接全球开源生态,与你共建开放、协作的技术社区。

更多推荐