LLM训练全流程：从预训练到RLHF，带你深入探索大模型核心机制！

本文系统阐述了大语言模型（LLM）的两阶段训练过程：预训练通过海量文本数据使模型掌握语言规律，涉及数据收集、分词和神经网络训练等关键步骤；后训练通过微调优化模型行为，使其更实用可靠。文章深入探讨了模型推理机制、幻觉现象及其缓解方法，并详细解析了强化学习在LLM中的应用，包括RLHF技术原理、PPO算法等，揭示了模型如何通过人类反馈优化输出。全文从基础理论到前沿技术，全面展现了LLM的训练机制与优化

全栈大佬！

143人浏览 · 2026-05-13 16:17:11

全栈大佬！ · 2026-05-13 16:17:11 发布

本文详细解析了大语言模型（LLM）的两大核心阶段：预训练与后训练。预训练通过海量文本数据让模型掌握语言规律，涉及数据收集、分词、神经网络训练等关键步骤，并介绍了基础模型的特性及幻觉现象。后训练则通过微调和特殊token引入，使模型更实用、可靠和安全。此外，文章还深入探讨了强化学习（RL）在LLM中的应用，包括RL的目的、直觉、基础回顾、GRPO与PPO算法、CoT思维链以及RLHF等，揭示了模型如何从经验中学习并优化输出，最终生成更符合人类期望的响应。

文章分为两个部分：

第一部分：介绍LLM的基础知识，涵盖从预训练到后训练的整个过程，探讨神经网络的工作原理、幻觉现象（Hallucinations）以及模型的推理机制。

第二部分：探讨人工智能/人类反馈强化学习（RHHF）、o1模型研究、DeepSeek R1以及AlphgGo等主题

第一部分：预训练和微调

训练大语言模型（LLM）主要分为两个核心阶段：预训练（Pre-training）和后训练（Post-training）。这两个阶段共同构成了LLM从零到一的学习过程。

1.预训练（Pre-training）

在LLM能够生成连贯文本之前，它需要先掌握语言的基本规律，这一过程称为预训练。预训练是一个计算密集型任务，涉及大量数据和复杂的模型优化。

步骤1：数据收集与预处理

训练LLM的第一步是收集海量高质量的文本数据。

一个常见的数据来源是Common Crawl，这是一个免费开发的网页爬取数据库，https://commoncrawl.org/ 。然而原始网页数据通常包含大量噪声，因此数据预处理是必不可少的环节。

在完成文本数据的清理后，下一步是进行分词（Tokenization）处理。

步骤2：分词（Tokenization）

在神经网络能够处理文本之前，文本需要被准换为数值形式。这一过程称为分词（Tokenization）。分词的作用是将单词、字词或字符映射为唯一的数值token。这些token是语言模型的基本构建单元，是模型理解和处理语言的核心组件。以GPT-4为例，其可能的token数量为100,277个。每个token对应一个唯一的数值ID，模型通过这些ID来识别和处理文本。

整个过程详细讲一下：

首先文本会先经过分词Tokenization，切成token

然后数值化，把token映射成token id。

比如：我喜欢大模型，经过tokenizer后可能变成：【我，喜欢，大，模型】。之后再映射成数字：【125，3045，89，7821】。

但是这里要注意的是，125并不代表”我“的语义，3045也不是代表”喜欢“的语义。

token id只是编号，本身没有语义。真正表达语义的是下一步：token id —>embedding 向量。

比如： 125 → [0.12, -0.43, 0.88, …] 3045 → [0.76, 0.21, -0.19, …]

所以完整的流程是：原始文本 ↓ Tokenization：切成 token ↓ Numericalization：映射成 token id ↓ Embedding：查表变成向量 ↓ 送入 Transformer / 神经网络

值得注意的是tokenizer 和模型必须严格匹配，否则模型会“听不懂输入”。

每个大模型都有自己独立的 tokenizer、token id 映射和 embedding，它们是绑定在一起的一整套系统，不能混用。

通过分词，文本被转化为模型可以理解的数值序列，为后续的模型训练和推理奠定了基础。这里说的数值token就是指向量。

步骤3：神经网络训练（Neural Network Training ）

在文本经过分词处理后，神经网络的任务是学习如何根据上下文预测下一个token（这里专指LLM的神经网络的任务）。具体来说，模型会接收一串输入token，并通过模型的架构进行处理，最终输出对下一个token的预测。模型之所以能做到，是因为它的训练目标就是这样。它使用的是无监督的训练，例如有一句话，“玩原神玩的”，最开始输入玩，模型就会预测一个输出，训练的目标是让它输出“原”。紧接着，就会输入“玩原”，然后输出的目前是“神”,以此类推。

神经网络训练是LLM训练的核心。

神经网络主要由两个关键部分构成：

1.参数（Weights）:也称为权重，通过训练学习得到的数值，用于调整模型的行为。本质上是矩阵的值。神经网络是无数个矩阵组成的，参数就是这些矩阵的值。

2.架构（Architecture）：定义输入token如何被处理以生成输出的数学结构。

基础模型（Base Model）：预训练的成果

在这一阶段，基础模型已经学会了：理解单词、短语和句子之间的关联。识别训练数据中的统计模式。但是基础模型并未针对具体任务进行优化，它能够基于概率预测下一个token，但缺乏对指令的精确理解和执行能力。

为什么模型只做 next-token prediction 却能回答问题？虽然语言模型的训练目标是预测下一个 token，但在训练数据中，问题后面通常跟随的是答案，因此模型学习到了“问题-答案”的统计模式。在推理时，给定一个问题作为上下文，生成答案序列实际上是该条件概率分布下的高概率输出。因此模型表现出类似“理解问题并回答”的能力。

2.后训练(Post-Training):让模型更实用

为了让模型在实际应用阶段更加实用、可靠和安全，需要进行后训练（Post-Training）。这一阶段通常在更小、更专业的数据集上进行微调，以优化模型的行为和性能。

由于神经网络无法像传统软件那样通过显示编程来调整，我们只能通过训练来“编程”它。

后训练的方式

后训练阶段会创建专门的数据集，这些数据集包含结构化的示例，指导模型在不同情景下的回应方式。以下是两种常见的后训练方法：

1.指令/对话微调（Instruction/Conversation Fine-Tuning）

目标是让模型学会遵循指令、执行任务、进行多轮对话、遵守安全规范以及拒绝恶意请求。

2.领域特定微调（Domain-Specific Fine-Tuning）

目前是使模型适应特定领域的需求。通过在对应领域的高质量数据上进行微调，模型能够生成更专业、更准确的响应。

特殊token的引入

在后训练阶段，还会引入一些特殊token，这些token在预训练阶段并未使用。它们的作用是帮助模型理解交互的结构。例如：

1.标记用户输入的起始与结束。

2.标记AI响应的起始位置。

这些特殊的token确保模型能够正确区分提示（Prompt）和回答（Reply），从而生成更符合上下文的响应。

通过后训练，模型不仅能够更好的理解任务和指令，还能在特定领域和复杂交互中表现出色，最终成为一个实用且可靠的AI系统。

3.推理（Inference）–模型如何生成新文本

推理是模型生成新文本的过程，它可以在任何阶段进行，甚至可以在预训练中途执行，以评估模型的学习效果。当模型接收到一组输入token后，它会根据训练中学到的模式，为所有可能的下一个token分配概率。

然而，模型并非总是选择概率最高的token，而是通过概率分布采样来决定下一个token。

这类似于抛一个带有偏向性的硬币，高概率的token更有可能被选中，但低概率的token仍有机会被选择。

采样不是为了跳出局部最优，而是为了避免“过于确定性导致的表达退化”

在语言模型生成过程中，模型输出的是一个概率分布。若始终选择最大概率的 token（greedy decoding），会导致输出缺乏多样性甚至出现重复。通过从概率分布中采样，可以在保证高概率 token 更易被选中的前提下，引入适度随机性，从而提升生成文本的自然性与多样性。这种机制并不是为了解决训练中的局部最优问题，而是为了避免生成过程过于确定性导致的表达退化。

这个过程是迭代进行的：每个新生成的token都会成为下一次预测的输入。由于token选择具有一定的随机性，即使输入相同，模型也可能生成不同的输出。通过这种方式，模型能够生成训练数据中未直接出现但符合统计规律的文本。

4.幻觉（Hallucinations）—当LLM生成错误信息

幻觉（Hallucinations）是指LLM生成虚假或错误信息的情况。这种现象的根本原因在于，LLM并不“理解”事实——它只是根据训练数据预测最可能的单词序列。

在早期，LLM的幻觉问题尤为严重。例如，如果训练数据中包含大量类似“谁是…”的问题，并且这些问题都有明确的答案，模型可能会学习到：这类查询应该有一个自信的回答，即使它实际上并不具备相关知识。

这种倾向导致模型在缺乏准确信息时，仍然会生成看似合理但实际错误的回答。解决幻觉问题是LLM研究和开发中的重要挑战之一，通过更高质量的训练数据、更精细的后训练以及引入外部知识库等方法可以缓解。

举个例子，在训练集当中可能有很多关于著名人物的介绍，比如成龙、项羽、刘邦等。这个时候你问谁是成龙、谁是项羽、谁是刘邦，模型是能给你准确回答的。但是这个时候你如果问谁是幽，这个时候模型不会自然地回答“我不知道”，因为在训练过程中，这种模式并未被充分强化。相反，模型会生成一个看似合理的猜测，而这就是幻觉。

如何减少幻觉？

方法一：训练模型说“我不知道”

提高模型的事实准确性需要明确训练它识别自身知识的边界，并学会在不确定时回答”我不知道“。这一过程通常通过自我询问（self-Interrogation）来实现。

自我询问可以通过另一个AI模型自动化完成。该模型生成问题以探测知识盲点，如果模型生成了错误的答案，系统会加入新的训练示例，其中正确的回应是：”我不确定，能否提供更多的上下文“

训练机制：

如果模型在训练中多次遇到某个问题，它会为正确答案分配较高的概率。

如果模型从未遇到过某个问题，它会在多个可能的token之间均匀分配概率，从而使输出更加随机，没有单一token被认为是最可能的选择。

微调效果：

通过微调，模型被显示训练以处理低置信度的输出，并用预定义的回应，（例如，我不知道）来应对。

方法二：引入网络搜索（或者RAG，外挂知识库）

一种更先进的方法是赋予模型访问外部搜索工具的能力，从而扩展其知识范围，使其能够超越训练数据的限制。

工作原理：

当模型检测到不确定性时，可以触发一次网络搜索。搜索结果会被插入到模型的上下文窗口中，成为其“工作记忆”的一部分。模型在生成响应时会参考这些新信息。

RAG技术就是类似的原理。

5.模糊记忆和工作记忆

LLM通常通过两种方式访问知识：

模糊记忆：

这是模型在训练过程中存储的知识，基于从海量互联网数据中学到的统计模式。

基本上模型的参数来储存这些记忆。模型不是“记住一条知识”，而是学会了“生成这条知识的函数”

工作记忆：

这是模型在推理过程中可以直接访问的信息，存储在其上下文窗口中。任何提供的文本都会作为短期记忆，使模型能够生成响应时回忆相关细节。

6.自我认知

当被问到“你是谁？”或“是什么构建了你？”等问题时，LLM 会根据其训练数据生成一个统计上最可能的回应，除非被显式编程以提供准确答案。LLM 并不具备真正的自我意识，它们的回应完全依赖于训练过程中学到的模式。

为了让模型表现出一致的身份，可以使用系统提示（System Prompt）。通过预定义的指令，系统提示可以描述模型的身份、能力以及局限性，从而引导模型生成符合预期的回答。

这个就是常说的prompt，给模型一个身份。

第二部分：强化学习（RL）

1.RL的目的是什么？

人类和LLM处理信息的方式存在显著差异，对于人类来说，当前的智能是如何由来的，暂时还没有一个准确和统一的答案。但是LLM是将文本视为一串token序列的。LLM能够在复杂主题上生成专家级回答，仅仅因为它们在训练过程中见过足够多的示例。

人类注释者难以提供一组“完美”的标签来持续引导LLM找到正确答案。RL弥补了这一差距，它允许模型从自身的经验中学习，模型不再仅仅依赖显示标签，而是通过探索不同的token序列，并根据哪些输出最有用来获得反馈（奖励信号）。

语言任务中通常不存在唯一标准答案，而“好回答”的定义又高度复杂和主观，因此人类难以通过传统监督学习提供完备且一致的标签。RL 更像“在巨大输出空间中搜索高质量行为”。

2.RL背后的直觉

LLM本质上是随机的，即使是相同的提示，输出也可能不同，因为它是从概率分布中采样的。我们可以利用这种随机性，通过并行生成成千上万甚至数百万个可能的响应。这可以看作是模型在探索不同的路径——有些是好的，有些是差的。我们的目标是鼓励模型更多的选择较好的路径。

为了实现这一点，我们让模型在那些导致更好结果的token序列上进行训练。监督微调（SFT）依赖人类专家提供的标签数据，而RL则允许模型从自身的学习中进步。模型通过发现哪些响应最有效，并在每个训练步骤后更新其参数。

模型不断采样生成不同 token 序列，通过 Reward Model 判断哪些回答更符合人类偏好，再利用 PPO 等算法提高高奖励序列的生成概率，从而逐渐形成更符合人类期望的输出分布。

这里有一个Reward Model，这个其实也是一个模型，这个模型是奖励模型。

输入（prompt，answer），会输出reward score。

Reward Model模型本质上是判断“什么样的回答更符合人类偏好。”这是一个比较常见的监督学习的问题。但它与传统监督学习不同，它学习的不是唯一正确答案，而是回答之间的相对偏好关系，本质上更接近排序学习（ranking）。

3.RL基础回顾

agent：这是学习的主体，负责在环境中采取行动。

环境：智能体与之交互的外部世界，它会根据智能体的行动给出反馈。

状态：环境在某一时刻的具体情况，智能体根据状态决定行动。

在每个时间点，智能体会在环境中执行一个动作，这个动作会将环境从当前的状态转移到新的状态。同时智能体会收到一个奖励，这个一个数值形式的反馈，用于评估动作的好坏。正奖励鼓励智能体重复该行为，而负奖励起到抑制作用。

策略是一个函数，它定义了在给定状态下选择不同动作的概率。

价值函数（Value Model）用于评估某个状态的好坏，考虑的是长期期望奖励。对于LLM而言，奖励可能来自人类反馈或者奖励模型。

Acotor-Critic架构

Actor-Critic是一种流行的强化学习框架，结合了两个关键组件：

1.Actor负责学习和更新策略，决定在每个状态下应该采取哪个动作。

2.Critic评估价值函数，为Actor提供反馈，告知其选择的动作是否带来了好的结果。

Critic的反馈帮助Actor优化策略，使未来的动作能够获得更高的奖励。

在LLM的上下文当中，状态可以是当前的文本（提示或者对话）。动作是生成的下一个token（词或者子词）。奖励模型告诉模型生成的文本是好是坏。策略是模型选择下一个token的规则。价值函数评估当前文本上下文对最终生成高质量响应的贡献程度。

4.RL算法：GRPO和PPO

PPO是当前大模型RLHF中经典的策略优化算法，其核心思想是提高高奖励输出概率的同时，限制策略更新幅度，避免模型偏离原有语言分布过远，从而保证训练稳定性。

GRPO则是在PPO的基础上的一种改进思路，它不再依赖value model，而是通过同一prompt下生成结果之间的相对奖励进行归一化比较，从而估计advantage。其训练成本更低、适合推理任务。

PPO的核心：

它表示新模型和旧模型相比，某个token的概率变化了多少。

PPO的关键机制：

clip给出了的变化范围。

通过上述过程可以看到，在改变模型参数之后，需要再运行一次，才能知道新模型某个token的概率变化了多少。所以他需要多一次forward。而且PPO需要一个value model来对各个回答进行打分。

主要误区：区分Reward model 和value model

Reward model 的作用是看“这个完整的回答有多好”。RM本质是人类偏好评分器。

Value Model不是评价最终答案，完整答案。而是预测未来还能拿多少reward，它预估的是当前状态未来的期望收益。也就是说Value Model不是在整个回答之后进行评分，而是在生成答案的过程中进行评分。

当前处在状态 s_t，从这里继续生成下去，最终期望能拿到多少 reward。

PPO的整体逻辑：

1.LLM生成回答。

2.Reward Model给完整回答打分。

3.Value Model估计每个生成位置的预期价值。

4.计算Advantage=实际回报-预期价值。

5.PPO根据Advantage更新token概率。

如果说明这个token选择比预期好，提高它的概率。

如果说明这个token选择比预期差，降低它的概率。

PPO之所以通常需要Value Model，是因为只用最终reward来更新整条token序列会导致方差很大、信用分配困难、训练不稳定。Value Model可以降低方差，让策略更新更加稳定和精细。

但这里值得注意的是：

GRPO仍然会更新过程中的token，它仍然会对token做credit assignment（信用分配），只是它不再依赖一个显示Value Model去估计baseline了。

GRPO 通常对同一条 trajectory 中的 token 使用共享的 sequence-level advantage，因此更偏向整体强化高质量 trajectory；而 PPO 由于使用 Value Model 估计不同状态的价值，因此不同 token 位置可以拥有不同的 advantage，从而实现更细粒度的 credit assignment。但两者本质上仍然都是 token-level policy gradient 更新，并不是“只更新最终结果”。

5.CoT（Chain of Thought,思维链）

传统的LLM训练流程是：预训练—>SFT—>RL。DeepSeek跳过了SFT，允许模型直接探索思维链(CoT)推理。

CoT本质上是让模型显示生成中间推理步骤，通过将复杂问题拆解为多个连续推理状态，从而提升多步推理任务的正确率。而且这里面会出现智慧涌现的神奇时刻。

CoT搭配RL，可以生成多条思维链路，然后通过RL强化正确的思维链路，削弱错误的思维链路。

同样的模型开始重新审视过去的推理步骤，显著提高了准确性。

把复杂问题拆成多个中间状态，可以降低推理难度，提高正确率。这是很符合人类直觉的，如果直接去做复杂的事情，很多人都会望而生畏，但是把复杂的事情拆解成多个小步骤，就会发现每个步骤都很简单。

6.RLHF（带有人工反馈的强化学习）

对于像总结或者创意写作这一没有单一“正确”答案的领域，如何评估模型的表现呢？通过引入人类评估，模型能够学习生成更符合人类偏好和意图的响应。

为什么使用排名而非绝对评分？

对响应进行排名比直接评分更容易更直观。人类更容易判断哪个回答更好，而不是为每个回答分配一个具体的分数。

解决方案是训练一个AI奖励模型，让它学习人类的偏好，从而大幅减少人工工作量。

这里说的AI奖励模型，就是前面说的RM。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

AMD开发者中国社区

欢迎来到AMD开发者中国社区，我们致力于为全球开发者提供 ROCm、Ryzen AI Software 和 ZenDNN等全栈软硬件优化支持。携手中国开发者，链接全球开源生态，与你共建开放、协作的技术社区。

更多推荐

深度拆解 LLMs-from-scratch：拒绝调包！手把手教你用 PyTorch 从零实现类 ChatGPT 大模型

AMD开发者中国社区

别再踩坑了！RTX 30系显卡（3050Ti/3060）保姆级CUDA 11.x + PyTorch环境配置指南

本文提供RTX 30系显卡（3050Ti/3060）的深度学习环境配置全攻略，详细讲解CUDA 11.x与PyTorch的版本匹配问题，并给出保姆级安装指南和性能优化技巧，帮助用户避开常见配置陷阱，充分发挥显卡性能。

AMD开发者中国社区

FPN结构拆解与PyTorch实战：从原理到逐行代码解析

本文深入解析FPN（Feature Pyramid Network）的核心思想与PyTorch实现，详细拆解其横向连接与自上而下融合的双向特征金字塔结构。通过逐行代码解析，展示如何构建自底向上路径、实现横向连接及特征融合，并分享关键参数调试与显存优化等实战经验，帮助开发者高效应用FPN提升多尺度检测性能。

AMD开发者中国社区

所有评论(0)

查看更多评论

全栈大佬！

@2401_84204413

已为社区贡献1条内容

LLM训练全流程：从预训练到RLHF，带你深入探索大模型核心机制！

全栈大佬！

第一部分：预训练和微调

1.预训练（Pre-training）

步骤1：数据收集与预处理

步骤2：分词（Tokenization）

步骤3：神经网络训练（Neural Network Training ）

2.后训练(Post-Training):让模型更实用

后训练的方式

3.推理（Inference）–模型如何生成新文本

4.幻觉（Hallucinations）—当LLM生成错误信息

5.模糊记忆和工作记忆

6.自我认知

第二部分：强化学习（RL）

1.RL的目的是什么？

2.RL背后的直觉

3.RL基础回顾

4.RL算法：GRPO和PPO

5.CoT（Chain of Thought,思维链）

6.RLHF（带有人工反馈的强化学习）

最后

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

3、 入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

3、这些资料真的有用吗？

所有评论(0)

温馨提示：您尚未绑定手机号

全栈大佬！

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）