一文读懂LLM：从工作原理到训练过程，小白也能掌握的大模型精华【建议收藏】

学编程的头没秃

380人浏览 · 2025-10-04 10:30:00

学编程的头没秃 · 2025-10-04 10:30:00 发布

本文详细解析了LLM的工作原理和训练过程。LLM本质是基于神经网络的文本模拟器，通过预测Token生成内容。训练分为Pre-training(构建知识库)和Post-training(SFT教会交互方式、RL优化能力)。文章还探讨了LLM常见问题的原因，以及AI对咨询行业的短期提升效率和长期潜在颠覆影响，建议从业者拥抱新技术并培养AI难以替代的核心技能。

前段时间无意中刷到了Andrej Karpathy大神的视频（Deep Dive into LLMs like ChatGPT）。这是我看过的最好LLM讲解视频，我最欣赏的一点就是Andrej大神在讲解抽象概念时，会给出生动具体的例子，即便是像我这样对编程一窍不通的小白，也能看懂其中的关键概念。视频全长三个半小时，强烈建议对LLM有兴趣的同学观看。

当然，如果你觉得三个半小时太长，也可以先看看这篇文章。这篇文章是我对Andrej大神科普视频的总结和概括，文末也附上了一些个人思考，主要是关于AI对像我这样的中介行业普通从业者的影响。好了，话不多说，我们开始吧。

1、LLM的工作原理

很多人觉得LLM像人一样具备智慧，能够思考，但事实并非如此，LLM本质上只是一个基于神经元网络（Neural Network）构建的、能够模拟人类语言模式的的文本模拟器，其工作原理可以简单概括为：

用户输入文本
LLM将文本转换成Token（即模型可理解的编码形式）
LLM根据输入的Token序列，预测下一个最有可能出现的Token，并重复此过程直至出现一段token序列
LLM将预测结果转换成文本，并输出

当LLM预测越精准，其输出的内容就越接近人类的回复，用户就越容易产生"LLM具备智慧"的错觉。

那么LLM到底包括什么呢？主要是两部分：

代码：描述LLM进行Token预测的具体步骤，即神经元网络的内部结构。目前主流的LLM都是基于Transformer神经元网络搭建的。
参数：参数是LLM最有价值的部分，它代表着LLM赋予不同变量的权重。参数初始是随机的，经过海量数据训练后，逐步调整成最能反映训练数据集特征的一组数字。参数量直接影响模型的性能。理论上来讲，参数量越多，LLM的预测结果就越准确。

举个例子，OpenAI 2019年发布的GPT-2有15亿个参数，而Meta 2024年发布的Llama 3参数量为4,050亿

用Andrej的比喻来说，LLM就像个巨型函数：神经元网络是函数公式，参数是变量权重。输入Token时，函数就会运行并生成预测结果：

在这里插入图片描述

(如上图所示，左上角是用户输入的文本转换成的token，左下角为模型参数，中间的巨型函数是神经元网络，100,277为该模型总token的数量，模型输出的token是100,277个token中的一个）

2、LLM的训练过程

了解了LLM的运行原理后，我们来看看它的训练过程，并尝试回答几个关键问题：1）为什么LLM有时候会满嘴跑火车；2）为什么LLM在执行一些简单的计数任务时表现不佳；3）为什么LLM有时候会自我认知紊乱。这些问题都和LLM的训练方式和运行机制息息相关。

LLM的训练主要分为Pre-training和Post-training两个阶段，我更喜欢把它们称为“养成“和”调教“。Pre-training（养成）主要是基于大规模的数据集对LLM进行训练，使其参数调整至最能反映数据集特征的一组数值，你可以把它理解为帮助LLM建立自己的知识库。

Pre-training阶段的产出成果是Base model，它其实只是一个无情的Token预测器，能根据输入的token较为准确地预测下一个Token，但无法与用户进行有意义的交互，例如回答问题或帮助用户完成任务，跟我们平时使用的AI助手（如ChatGPT-4o，DeepSeek-R1）仍然有很大区别。

那么，如何才能让Base model变成真正的AI助手呢？这就需要对它进行Post-training（调教）。目前主流的，或者说讨论最多的Post-training方法主要有Supervised Fine-Tuning（SFT）和Reinforcement Learning（RL）。接下来，我们简单介绍一下Pre-training和Post-training的具体操作。

2.1：LLM的训练过程 - Pre-training（养成）

第一步：构建训练数据集，首先，我们需要下载互联网文本数据集作为LLM的预训练材料。一个优质的数据集应该具备1）高质量；2）数据量足够大；3）多样性强三个特点。例如，HuggingFace的FineWeb就是一个高质量的开源数据集。这些数据集通常是通过网络爬虫获取的互联网文本，随后经过一系列清洗、去重和优化处理（如下图）。此外，各大AI公司都有自己的内部数据集。

在这里插入图片描述

（HuggingFace的FineWeb数据集的数据处理流程）

第二步：Tokenisation，接下来，需要将数据集中的文本转换为LLM可以理解的格式，即Token。这个过程称为Tokenization。不同的AI公司Tokenisation的编码方式各不相同，大家可以在Tiktokenizer这个网站上体验Tokenisation过程。

在这里插入图片描述

（如上图所示，左边是我们输入的文本，右下角是LLM看到的token）

第三步：神经元网络的训练，训练过程其实很简单，就是从数据集中截取一段Token，让LLM基于这段Token预测下一个Token，再将预测结果和正确答案进行比较，根据误差调整模型参数，以提高预测准确度。一开始，由于模型参数是随机的，LLM预测的结果可能驴唇不对马嘴，但随着训练次数的增加以及参数的不断调整，LLM的预测结果会越来越准确

第四步：Inference，即随机输入一个Token，让LLM生成一段新的Token。这一步与第三步交替进行，主要目的是检测训练效果。初期inference生成的文本可能毫无逻辑，但随着训练次数的增加，LLM生成的文本会越来越流畅、合理。

Step 540/32000表示当前是第540次优化/训练；
Loss（损失值）表示LLM预测结果和正确答案之间的误差，该值越低，说明LLM的预测精度越高；
模型每进行一定次数的训练后，会进行Inference，Generating后面显示的文字就是LLM根据随机Token生成的内容，由于仍处于训练初期，这些文本看起来还是杂乱无章的。

2.2：LLM的训练过程 - Post-training（调教）

Supervised Fine-Tuning：

通过Pre-training，我们得到了Base model，但它仍然无法与用户进行有意义的交互。因此，我们需要通过Post-training对其进行进一步优化，帮助它代入AI助手的角色。

目前最主流的Post-training方法是SFT。在训练之前，我们需要构建一个高质量的对话数据集（Conversation dataset）。这些数据包括一系列模拟的人类和AI助手之间的问答（以下是三个示例）。

在这里插入图片描述

对于对话数据集，我们注重质量而非数量，因为Post-training的主要目的并不是帮助LLM学习新知识（知识库已经在Pre-training 阶段建立），而是以对话数据集作为例子，教会LLM如何以AI助手的身份和用户进行交互（想起了敝司的Slogan - we lead by example…）。这些对话数据由Human labellers（人工标注员）编写，涵盖各种话题，人工标注员通常包括各个领域的专家，他们的回答可以被视为供AI学习的”标准答案“。

人工标注员在编写问答时，需严格遵守AI公司的Labelling instructions（标注指南），这份指南可能长达数百页，核心原则包括helpful，truthful，harmless。随着LLM的逐步成熟，部分高水平的LLM甚至可以辅助编写问答，人工标注员的工作量正在逐渐减少。

搭建好数据集后，Post-training的训练过程与Pre-training类似，只不过训练材料从互联网文本变成了对话数据集。由于数据量较小且训练目标更明确，SFT阶段所需的时间和计算成本都远低于Pre-training阶段。

接下来我们聊一聊LLM的一些常见问题：

为什么LLM有时候会”满嘴跑火车“ - 在使用一些早期的LLM时，当我们问到超出其知识范围的问题，比如训练数据截止时间之后的事件，或让LLM介绍一个虚构人物的生平，LLM有时会用自信坚定的语气给出一个听起来合理但实际错误的回答。这可能是因为SFT训练时使用的对话数据集中不存在“我不知道”这样的回答，导致LLM在遇到超出知识范围的问题时，会模仿人工标注员的语气进行回答，而不是承认自己不知道。这个过程类似Inference。针对这个问题，Andrej大神列举了两种解决方法，其一是在对话数据集中加入”我不知道“的示范案例，让LLM学会在面对超出知识范围的问题时承认自己的无知，而不是编造答案；其二是让LLM使用工具，比如互联网搜索，以获取最新信息。
为什么LLM会认为9.11大于9.9 - 这个问题可能与tokenisation方式有关，LLM会将文本拆分成多个token，比如9.9拆分成”24, 13, 806"，9.11拆分成“24, 13, 24"（以ChatGPT为例），在进行比较时，LLM可能先比较整数部分，再比较小数部分，即直接对比11和9，认为11>9，从而得出9.11大于9.9的结论，而忽略了小数位的实际含义。类似的问题还包括为什么LLM在处理简单的计数或拼写任务时表现不佳，例如让它回答“Strawberry里有多少r?"，LLM常常会出错。这主要是因为人类看到的单词是由字母组成的，而LLM看到的实际上是token，token级别的数据结构并不能够支持LLM完成计数类的任务。
为什么LLM会出现”自我认知紊乱” - 当被问到“你是谁”时，有些LLM会给出错误的回答（如下图所示）。很多人看到这样的回答，会怀疑LLM是否“套壳”，这种推测并不严谨。我们之前提到，LLM本质上并不具备智慧，也不会“思考”，所以”自我认知“本身就是一个伪命题。导致LLM认知混乱的原因可能有很多个，其中一种可能的解释是SFT的对话数据集中没有类似的“自我介绍”问题，导致LLM只能生成一段最可能出现的token作为回答，而ChatGPT作为一个家喻户晓的LLM名字，在Pre-training数据集中出现的频率较高，因此在LLM回答中出现的几率也比较高。

Post-training - RL：

SFT是一种比较成熟的训练方式，但它也存在一些局限性 - SFT更像是人工标注员言传身教，教LLM如何回答问题，但这种方式的极限是：LLM的表现可以无限接近人工标注员，但很难超越顶尖的人类。另一种Post-training方法 - RL则提供了一种全新的思路。

RL的原理可以简单理解为：

向LLM提出问题并给出标准答案
让LLM自行探索解题方法，并对正确的方法给予奖励
不断重复这个过程，让LLM逐步优化

与SFT相比，RL在训练LLM处理抽象任务（如创意性写作）时表现更优，例如我们可以让LLM生成笑话，然后让另一个LLM模仿人类的喜好，对笑话的幽默程度进行评分，使LLM可以根据评分结果不断优化笑话的质量。然而，RL也存在一定的风险，就是容易被钻空子（Reward hacking），如果评分机制设计不够完善，LLM可能会找到规则的漏洞，利用技巧刷分，而不是实际提高能力。

其实，很多AI公司在使用RL训练自己的model（比如OpenAI的o1），为什么DeekSeek会引起如此大的讨论呢？主要有以下几个原因：

DeepSeek是第一个发布相关论文并开源模型的公司，而且用户在使用时，可以完整地看到LLM的思考链（Chain of thoughts），而不像OpenAI那样隐藏推理过程
目前主流的做法是先进行SFT，再进行RL。但DeepSeek对DeepSeek-R1-Zero的训练采用了直接在Base model上进行RL，跳过SFT阶段的方法，这种方式大幅减少了对人工标注员和对话数据集的依赖，并且显著提高了模型的适应性、复杂推理和自主学习能力

DeekSeek通过延长思考时间（即计算时间），提高了推理能力。
随着计算时间的增加，一些复杂的行为比如反思、自我验证以长链推理等也开始出现

DeepSeek以更少的成本，实现了和OpenAI o1不相上下的训练效果

小结

最后，Andrej大神用一个形象的比喻，总结了LLM的训练过程：

Pre-training就好像“熟读课文”，让LLM建立知识库
SFT就像“学习例题”，让LLM了解如何解题
RL就像做“书后练习”，让LLM通过自主探索，优化解题思路

3、AI对咨询从业者的影响

聊完了LLM的工作原理和训练过程，我想简单分享一下自己对AI的一些看法。我毫不怀疑AI会让这个世界变得越来越好，但这不是我关注的重点。我更关心的是AI对像我这样的普通中介服务从业者的影响。

短期影响（未来3年）

从短期来看，AI预计会极大地提升审计、咨询等中介行业的工作效率，一些基础性的执行工作（如行业研究、数据处理等）将逐步由AI代劳，从业者的工作将从执行转变为复核。这种转变可能会对咨询行业的初级和中级岗位造成冲击，但行业中的核心技能，比如行业知识/经验、客户关系维护能力、表达/沟通能力、背锅能力，短时间内仍然是AI无法完全替代的。

年轻的朋友也不要灰心，AI的发展正在颠覆知识的传递和获取方式，极大地缩小了信息不对称性。如果能善用AI，拥抱新技术，还是有很多弯道超车的机会的。

长期影响

如果把视角拉长到5-10年，老实说，我也不知道会发生什么。毕竟10年前，几乎没人能预见到AI发展会如此迅猛。同理，我们现在也很难预测10年后的世界。

Raoul Pal（一个我非常喜欢的youtuber）提出了一个2030理论，他认为AI发展达到某个临界点后，将颠覆一切，包括我们的工作方式、投资逻辑、生活方式等等。Raoul认为，这个临界点将在2030年到来，而在那之前，我们大约有5年时间准备。Raoul的说法可能有点夸张，但值得参考。

在面对AI的冲击时，我觉得我们可以从以下几个方面着手准备：

调整心态，拥抱AI和新技术
锻炼身体，保持健康
多赚钱
学一门手艺 - 水电工、理发师、开锁等技术工种与普通白领相比，更不容易（短时间内）被AI取代。所以，以防万一…（插个题外话，香港工联会有很多职业技能课程，比如开锁、理发、水电维修等等，价格便宜，在香港的朋友可以尝试一下）

4、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

北京朝阳AI社区

更多推荐

大模型爱好者收藏：这样操作就能提前用上Gemini 3，亲测有效！！

北京朝阳AI社区

部分可观测马尔可夫决策过程（POMDP）形式化中信念状态更新的详解

在部分可观测马尔可夫决策过程（POMDP）形式化中，信念状态（belief state）是处理部分可观测性的核心机制。它将agent对环境真实状态的不确定性表示为一个概率分布，从而将POMDP问题转化为一个完全可观测的马尔可夫决策过程（MDP）——即信念MDP（belief-MDP）

北京朝阳AI社区

大模型常见面试题及解答的资料

大模型面试指南摘要本文系统梳理了大模型核心知识点与面试技巧，涵盖以下重点内容：基础理论大模型定义：参数量巨大的深度学习模型（如GPT），具备更强的泛化能力但需更高算力 Transformer架构：基于自注意力机制，通过位置编码解决序列位置信息缺失问题关键技术与优化训练优化：分布式训练/混合精度训练降低资源消耗推理优化：模型剪枝、量化压缩提升推理速度微调策略：全量/增量/局部微调的选择