两万字AI热门词汇大扫盲：从 LLM 到 Agent，一篇讲透今天最常见的 AI 术语

本文系统梳理了AI领域的核心概念，通过"AI助手如何完成任务"的主线，将高频术语分为6大类：模型本质、工作原理、训练方法、外部连接、知识获取和任务执行。文章从基础概念（AI/机器学习/大模型）入手，逐步解析Prompt、Token、Context等关键要素，并深入介绍RAG、Tool Calling、Agent等进阶技术。通过类比公司架构（大脑-任务说明-工具权限-执行规则），帮助读者建立完整的认

m0_73627883

512人浏览 · 2026-05-14 20:24:57

m0_73627883 · 2026-05-14 20:24:57 发布

如果你最近在看 AI 相关内容，大概率会被一堆词砸脸：LLM、Prompt、Token、RAG、Embedding、Tool Calling、Skill、Harness、Agent、Sub-agent、Workflow、Fine-tuning、Multi-Agent……

问题不在于这些词有多难，而在于它们总是被混着说。很多文章默认你已经懂一半，于是你越看越像在“听懂了每个字，但没听懂整句话”。

这篇文章想做的，就是把这些高频 AI 词汇放回同一张地图里。我们不搞一上来就堆定义，而是顺着一条主线来理解：一个 AI 助手到底是怎么一步步完成任务的。只要这条主线清楚了，今天最热门的大多数 AI 词，你都会知道它们分别是什么、为什么会出现、彼此是什么关系。

先别急着背词：AI 词汇其实可以分成 6 大类
第一部分：AI、机器学习、大模型，这几个词到底是什么关系
第二部分：一个 AI 回答你问题时，内部大概发生了什么
第三部分：从“会聊天”到“会做事”，AI 系统中间多了什么
第四部分：RAG 是什么，为什么几乎所有 AI 产品都在讲它
第五部分：Tool Calling 是什么，为什么说它让 AI 从“嘴强王者”变成“能动手的人”
第六部分：Agent 到底是什么，它和普通聊天机器人有什么区别
第七部分：训练相关词汇，一次讲清大模型是怎么“学成”的
第八部分：为什么大家都在说 Reasoning Model、推理模型、思维链
第九部分：AI 产品和工程里最常见的那些词
第十部分：把今天最常见的 AI 词串成一条完整主线
第十一部分：高频 AI 词汇速查表
第十二部分：如果你是初学者，最值得先搞懂的是哪几个词
最后总结：今天最火的 AI 词，真正该怎么理解

先别急着背词：AI 词汇其实可以分成 6 大类

很多初学者会有一种错觉：AI 领域的新词是不是每天都在重新发明世界？

其实没有那么夸张。你看到的大部分热门词，基本都能塞进 6 个篮子里：

模型是什么：AI、机器学习、深度学习、神经网络、大模型、LLM、多模态。
模型怎么工作：Token、Prompt、Context、Inference、Temperature、Reasoning。
模型怎么学来的：Pretraining、Fine-tuning、SFT、RLHF、Distillation。
模型怎么连接外部世界：Tool Calling、Function Calling、API、Browser Use、Skill、Harness。
模型怎么获得额外知识：RAG、Embedding、Chunking、Vector Database、Rerank。
模型怎么从会回答变成会做事：Workflow、Memory、Planning、Agent、Sub-agent、Multi-Agent、Automation。

你也可以把这 6 类想成一家公司：模型是“大脑”，Prompt 和 Context 是任务说明，RAG 是临时调资料，Tool Calling 是开工具权限，Skill 和 Harness 是把做事方法和执行规则稳定下来，而 Agent 则让它不仅会说，还能把事情一步步做下去。

接下来，我们就从最底层开始，一层一层往上走。

第一部分：AI、机器学习、大模型，这几个词到底是什么关系

1. AI：一个最大的总称

AI，人工智能，英文是 Artificial Intelligence。
它本质上不是某一种具体技术，而是一个很大的总称：让机器表现出某种“像人一样会判断、会学习、会处理任务”的能力，都可以被归到 AI 这个大伞下面。

比如，会识别人脸的系统是 AI，会自动推荐短视频的系统是 AI，会和你聊天写文案的系统是 AI，会下围棋的系统当然也是 AI。

所以如果你把 AI 理解成“智能机器的总称”，一般不会错。

2. 机器学习：让机器从数据里学规律

机器学习（Machine Learning，ML），是 AI 里最重要的一条技术路线。

它的核心思想其实很朴素：
不再让程序员把所有规则一条条写死，而是让机器从大量数据中自己总结规律。

举个生活化的例子。

传统编程像什么？
像你写一套明确规则：

如果邮件里出现“中奖”“转账”“链接”
并且发件人陌生
那么大概率是垃圾邮件

机器学习更像什么？
像你直接喂给系统几十万封“这是垃圾邮件”“这不是垃圾邮件”的样本，让它自己学出判断模式。

所以机器学习的关键词不是“规则”，而是“数据、训练、模式、预测”这四件事。

3. 深度学习：机器学习里最火的一支

深度学习（Deep Learning，DL），可以理解成机器学习中的一个分支，而且是这几年最推动 AI 爆发的那一支。

它的核心是 神经网络（Neural Network）。
之所以叫“神经网络”，是因为它的灵感来自人脑神经元的连接方式，但你不用把它想得太玄。更容易理解的方式是：

神经网络像一个层层传递、层层提取特征的巨大函数系统。

比如识别一张猫的图片：

第一层可能先识别边缘
第二层识别局部形状
第三层识别耳朵、眼睛、胡须等组合特征
更深层再综合判断“这像一只猫”

“深度”指的就是层很多、结构很深。

4. 大模型：参数规模特别大的神经网络模型

大模型，通常指参数量非常大的模型。
参数你可以粗略理解为模型内部“记住规律”的旋钮数量。旋钮越多，模型通常越有能力容纳更复杂的模式。

但注意，大模型不等于什么都懂。它只是：

见过更多数据
容量更大
泛化能力更强
更可能具备通用任务处理能力

很多年以前，AI 模型往往是“一模型一用途”：

一个模型专门识别图片
一个模型专门做翻译
一个模型专门做推荐

现在的大模型开始变成“一个底座，很多任务都能做”。

5. LLM：大语言模型

LLM 是 Large Language Model，也就是 大语言模型。

它本质上是一类特别擅长处理语言的大模型。这里的“语言”不只指中文英文，也包括对话、写作、总结、翻译、分类、代码、表格理解，甚至一部分结构化推理。

为什么 LLM 这么火？

因为它第一次让普通人直观感受到：
机器不只是会执行命令，而是开始能“理解你的自然语言，再生成看起来像样的回应”。

你今天接触到的 ChatGPT、Claude、Gemini、通义、豆包、Kimi 这类聊天式 AI，背后通常都建立在 LLM 的能力之上。

6. 多模态：不只会看文字

多模态（Multimodal），指模型不只处理文字，还能处理多种输入输出形式，比如文本、图片、音频、视频、文档、表格。

如果说 LLM 原本更像“会读会写”的大脑，
那么多模态模型更像是给这个大脑又加上了眼睛、耳朵，甚至一部分“看图说话”和“听音理解”的能力。

第二部分：一个 AI 回答你问题时，内部大概发生了什么

现在我们已经知道：大模型像一个很强的语言大脑。
那下一步问题是：当你给它一句话时，它到底是怎么开始工作的？

这一部分会带出很多你最常见的高频词。

1. Prompt：你给 AI 的任务说明

Prompt，通常翻译成 提示词，但这个翻译有时候会让人误会，觉得它只是“给一句提示”。

更准确地说，Prompt 是：

你输入给模型的任务描述、上下文说明、约束条件和输出要求的总和。

比如下面这句：

请用面向零基础读者的方式，解释什么是 RAG，并举一个电商客服场景的例子。

这就是一个 Prompt。

很多人把 Prompt 理解成“魔法咒语”，好像只要掌握几个神秘模板，AI 就会突然变强十倍。其实更接近事实的说法是：

Prompt 不是玄学
它更像“跟一个强但不读心的实习生下任务”

你说得越清楚，它通常做得越稳。

2. Token：模型不是按“字数”理解世界

Token 是理解大模型时非常关键的一个词，现在被官方翻译为词元。

很多人以为模型按“字”或者“词”处理文本，其实更准确地说，它处理的是 Token。
Token 可以粗略理解为模型切分文本后的最小处理单元。

它不一定等于一个汉字，也不一定等于一个英文单词或一个标点。不同模型的切分方式并不一样。

为什么 Token 这么重要？

因为它直接关系到三件事：

上下文能装多少内容
调用成本有多高
生成速度会不会变慢

你可以把上下文窗口想成一个会议桌，Token 就是桌上能摆的纸张数量。
桌子再大，也不是无限大。你给模型塞的系统提示、聊天历史、知识库片段、工具返回结果、用户问题，全都要占 Token。

3. Context：模型当前这一轮能看到的全部信息

Context，也就是 上下文。

它指的是模型在当前响应时，能够“看见”的全部信息，包括你的当前问题、前面的聊天记录、系统提示词、开发者设置的规则、临时注入的资料，以及工具调用返回的数据。

这点特别重要，因为大模型并不是像人一样拥有一个无限的长时记忆。
对它来说，“看见什么”决定了它“能基于什么作答”。

所以很多看起来像“模型突然变笨了”的情况，本质上往往是：它没看到关键资料、上下文太长导致关键信息被挤掉、指令彼此冲突，或者历史信息太乱。

4. Context Window：上下文窗口

Context Window，就是模型一次性能处理的上下文容量上限。

如果你把模型比作一个考试中的学生，那么：

Prompt 是考题
RAG 是老师临时发给他的参考资料
Context Window 是他的桌面大小

桌面太小，资料摆不下，就只能删掉一部分，或者先压缩再摆。

所以为什么很多 AI 应用会做历史摘要、分段检索、Chunking、对话记忆压缩？说到底，都是在给有限的上下文窗口腾地方。

5. Inference：模型开始“出答案”的过程

Inference，通常翻译成 推理，但这里的“推理”更偏工程含义，指的是：

模型在接收到输入之后，实际生成输出结果的运行过程。

注意，这里的 inference 不一定等于“像人那样深度思考”。
它更多是在说模型开始工作、开始出结果这个阶段。

所以很多系统里会有两个大阶段：

Training：训练阶段
Inference：使用阶段

训练像上学，推理像考试答题。

6. Temperature：控制输出有多发散

Temperature 是一个常见参数。
它会影响模型输出的随机性和发散程度。

你可以简单理解成：温度低时，输出更稳、更保守、更像标准答案；温度高时，输出更活、更发散、更有创造性，但也更可能跑偏。所以写代码、抽取信息、结构化输出时，通常希望温度低一点；写文案、头脑风暴、故事创作时，则可能会放高一点。

它不是“智商开关”，更像“风格松紧旋钮”。

7. Hallucination：AI 一本正经胡说八道

Hallucination，中文常叫 幻觉。
它指的是模型生成了听起来合理、语气很自信、但事实不对或凭空编造的内容。

为什么会这样？

因为大语言模型本质上是在“根据上下文预测下一个更可能出现的 Token”。
它擅长生成“像答案的文字”，但并不天然等于“在调用一个真实世界事实数据库”。

这就是为什么它会编不存在的论文、编不存在的接口参数、编错日期数字和引用，或者在信息不够时强行补全。

这也是后面 RAG 和 Tool Calling 会变得特别重要的原因：
它们都在试图让模型少靠“猜”，多靠“查”和“拿”。

第三部分：从“会聊天”到“会做事”，AI 系统中间多了什么

如果只有一个裸的大模型，它最擅长的往往是：

回答
改写
总结
解释
生成文本

但现实世界里的任务很少只是“回一句话”。

比如你说：

帮我查一下最近三个月销量下滑最明显的商品，并生成一份复盘建议。

这件事靠模型自己“脑补”肯定不行。
它需要访问真实数据，可能还需要调用数据库、分析工具、图表工具、文档工具。

于是，AI 应用开始往三个方向进化：

给模型更多外部知识
给模型调用工具的能力
让模型可以分步骤执行任务

这正好对应三组热门词：RAG、Tool Calling、Agent。

第四部分：RAG 是什么，为什么几乎所有 AI 产品都在讲它

1. RAG：不是给模型“补脑”，而是让它在生成时接入外部资料

RAG 是 Retrieval-Augmented Generation，中文一般叫 检索增强生成。

这个名字第一次看非常拗口，但你只要记住一句大白话：

RAG = 在回答问题时，先检索外部资料，再让模型结合这些资料生成答案。

它特别像什么？
像 开卷考试。

裸模型回答问题，像闭卷考试。
它只能依赖自己训练时学过的东西。

RAG 回答问题，像老师允许学生先翻讲义、翻笔记、翻公司知识库，再开始答题。
这样模型就不需要死记所有信息，而是可以在作答时先去“拿相关资料”。

如果你想说得稍微专业一点，RAG 本质上是在把两类记忆拼起来：

模型参数里原本“学会的东西”
外部知识库里“临时检索到的东西”

所以它不是把知识重新训练进模型，而是在生成阶段把外部证据接进来。

2. 为什么 RAG 会火

因为企业和产品团队很快发现一个现实：

用户问的很多问题，不是“互联网公共知识”，而是“你们自己的私有知识”。

比如：

公司的制度文档
客服 FAQ
医院内部流程
法务模板
产品说明书
项目历史记录
代码仓库文档

这些东西大模型训练时未必见过，就算见过也可能早就过时。
于是最实用的办法不是重训一个模型，而是：

把自己的资料接进来
用户提问时先检索相关内容
再把检索结果塞给模型回答

这就是 RAG 的基本逻辑。

3. RAG 的典型流程

一个常见的 RAG 系统，大概会经过这些步骤：

收集资料
清洗资料
切分资料
转成向量
存入向量数据库
用户提问
检索最相关片段
把片段连同问题一起发给模型
模型生成最终答案

看起来步骤很多，所以 RAG 相关词也会特别多。下面我们逐个拆。

4. Embedding：把文本变成可计算“相似度”的向量

Embedding 常被翻译成 向量化表示 或 嵌入表示。

如果直接说定义，会很抽象。更容易理解的说法是：

Embedding 是把一句话、一段话、一个文档，转换成一串数字坐标，让机器可以计算“谁和谁更像”。

比如：

“苹果手机怎么换电池”
“iPhone 电池维修流程”

这两句话表面写法不一样，但语义很接近。
Embedding 模型会尽量把它们映射到“距离比较近”的向量位置上。

为什么这很重要？

因为普通关键词搜索只会看字面重合，
而向量检索更有机会看“意思接不接近”。

5. Vector Database：向量数据库

Vector Database，就是专门用来存储和检索向量的数据库。

你可以把它理解成一个很擅长回答这类问题的仓库：

“跟用户这个问题语义最接近的资料片段有哪些？”

常见向量数据库包括 Pinecone、Weaviate、Milvus、Qdrant、Chroma 等。
但对初学者来说，名字不是重点，重点是理解它的职责：

存文档片段对应的向量
支持相似度搜索
快速返回最相关的若干条结果

6. Chunking：为什么文档要切块

Chunking，就是 分块 或 切片。

为什么不把整本手册直接塞给模型？

因为：

上下文窗口有限
整篇文档里只有少量内容和当前问题相关
整篇塞进去会增加成本和噪音

所以 RAG 常常会先把文档切成一个个片段，也就是 chunk。

这就像图书馆管理员不会每次把整本百科全书搬给你，
而是先找到最相关的几页。

Chunk 切得太大，容易噪音多。
切得太小，可能上下文不完整。
所以“怎么切”本身就是 RAG 里很关键的工程细节。

7. Retrieval：检索

Retrieval，就是从知识库里把相关内容找出来。

它是 RAG 的前半段。
如果检索阶段拿错资料，后面的模型再聪明也容易答歪。

所以很多 RAG 项目里，问题不在“生成模型不够强”，反而在：

没检索到正确资料
检索结果排序太差
切块策略不合理
文档清洗不干净

8. Recall 和 Precision：找得全，还是找得准

这两个词在检索里常出现：

Recall（召回率）：相关内容有没有尽可能找全
Precision（准确率）：找出来的内容里有多少是真的相关

你可以简单理解成：

Recall 高：宁可多捞一点，别漏掉关键内容
Precision 高：宁可少一点，也尽量别捞进无关内容

很多系统需要在这两者之间找平衡。

9. Rerank：二次排序

Rerank 就是 重排序。

一个常见做法是：

先从向量数据库里粗筛出一批候选片段
再用一个更精细的模型，对这些候选结果重新排序

这像什么？

像你先从 100 本书里粗筛出 10 本可能相关的，
再认真翻一下目录，决定最该先看的 3 本。

Rerank 的价值在于，它能让最终送进模型的资料更相关、更干净。

10. RAG 和 Fine-tuning 很容易混：一个是“临时查”，一个是“直接改模型”

这是初学者最容易混淆的一组词。

你可以这样区分：

RAG：不改模型本身，回答时临时去查外部资料
Fine-tuning：直接继续训练模型，让模型本身更适合某类任务

举个例子：

如果你想让 AI 回答“你们公司 2026 年最新报销制度”，更适合用 RAG
如果你想让 AI 整体学会“像专业法律顾问一样说话”，更可能涉及 Fine-tuning

所以最简单的记法是：

RAG 更像开卷考试，Fine-tuning 更像重新培训这个人。

11. RAG 的边界：它不是万能外挂

很多人把 RAG 当成“只要接知识库就无敌”。这也不对。

RAG 擅长解决的是：

补充外部知识
减少事实性胡编
接入私有文档
让答案更可追溯

但它不直接解决：

模型逻辑推理弱
工作流设计混乱
工具调用错误
原始文档本身有误

所以你可以把 RAG 理解为：
它解决的是“知道什么”的问题，不完全解决“怎么做事”的问题。

第五部分：Tool Calling 是什么，为什么说它让 AI 从“嘴强王者”变成“能动手的人”

1. Tool Calling：给模型一个“调用外部能力”的接口

Tool Calling，常常也会看到 Function Calling 这个词。

最简单的理解是：

模型发现“这件事不能只靠嘴回答”，于是它发出结构化的工具调用请求，由外部系统执行工具，再把结果回传给模型继续完成任务。

这很像一个聪明助理的工作方式：

你问“今天上海天气怎样”
他不会闭眼瞎猜
他会打开天气软件查一下，再回复你

这里“打开天气软件查一下”的动作，就是 Tool Calling 的直觉。

要注意一个容易误解的点：

不是模型自己真的“伸手点开了天气 App”
而是模型先判断“现在该查天气了”
再按规定格式说出“我要调用哪个工具、参数是什么”
最后由外部程序真正执行

2. 为什么需要 Tool Calling

因为很多任务，模型自己并不具备直接完成的能力。比如查询实时天气、查询数据库、发邮件、下单、调日历、生成图表、调用搜索引擎、运行代码、操作浏览器，这些都需要外部工具。

所以很多 AI 产品的核心不只是“有一个模型”，而是“让模型接上工具生态”。

3. Function Calling 和 Tool Calling 有什么区别

实际使用里，两者经常被混用。

粗略理解：

Tool Calling 是更宽泛的说法，泛指模型调用外部能力
Function Calling 通常是其中一种更具体的实现方式：工具被定义成函数，模型按约定格式给出参数

比如系统提前告诉模型，它可以调用 get_weather(city)、search_docs(query)、create_ticket(title, priority) 这些函数。

模型在对话中判断：该什么时候调用哪个函数、填什么参数。
它本身不一定真的执行代码，但会输出结构化调用意图，由外部系统去执行。

比如用户说：

帮我查一下明天下午北京会不会下雨。

模型内部更接近做的是：

判断这个问题需要实时信息
选择天气工具
生成类似 city=Beijing, date=tomorrow afternoon 的参数
等工具返回天气结果
再把结果组织成人能读懂的话

4. API：工具连接的常见方式

API 是 Application Programming Interface。
如果你完全零基础，可以把 API 想成：

一个软件对外开放的“标准接口”，别人按这个接口规则，就可以调用它的能力。

比如地图 API、支付 API、翻译 API、搜索 API、企业内部工单 API。

Tool Calling 背后很多时候接的就是 API。

5. Structured Output：为什么要让模型按格式输出

当模型要调用工具时，最怕的是它输出一段模糊自然语言，例如：

我建议调用天气接口，城市应该是上海。

这对程序来说不好接。
程序更希望拿到的是结构化内容，比如：

{
  "tool": "get_weather",
  "arguments": {
    "city": "Shanghai"
  }
}

所以 Structured Output、JSON Output、Schema 这些词也常一起出现。
意思是：让模型输出符合约定格式的数据，而不是松散文字。

6. Tool Use 的风险

给模型开工具权限，不等于万事大吉。
因为一旦它能动手，风险也随之增加：可能调错工具、填错参数、重复执行、误删数据，甚至越权访问。

所以这时又会出现几个常见词：Permission 是权限控制，Approval 是关键步骤需要人工确认，Guardrails 是防护规则，Sandbox 则是受限执行环境。

你会发现，AI 工程越往后走，越像“产品、工程、安全”一起上场，而不是只有模型本身。

7. Skill：把一类能力封装成可复用的“专长”

Skill 这个词现在越来越常见，尤其是在 AI 助手、Agent 框架、插件系统里。

你可以先把它理解成：

Skill = 把某类任务的做法、规则、工具用法和输出要求，打包成一个可重复调用的能力模块。

比如写周报的 skill、做代码审查的 skill、处理 PDF 的 skill、做竞品调研的 skill、生成 SQL 的 skill。

为什么 skill 会火？

因为大家很快发现，单靠一个裸模型，每次都从零开始理解任务，太不稳定。
而 skill 的作用就是把“这类任务应该怎么做”提前沉淀下来。

它通常会包含一套专门提示词、一组可调用工具、明确的执行步骤、特定输出模板，以及针对某场景的规则约束。

如果你把模型理解成一个通用大脑，
那 skill 就像这个大脑后来学会的一门门“专门手艺”。

不过这里要补一个更准确的提醒：

Skill 不是像 RAG、Token 那样全行业边界完全统一的标准基础词，它更像一个平台和工程实践里越来越常见的概念。

在一些具体产品体系里，skill 会被定义得更明确，甚至就是一个可以被加载、复用、共享的能力包。
但在更泛的行业讨论里，大家说 skill，通常就是在说“把一类经验沉淀成可复用能力”。

举个贴近工作的例子，“把法务审合同的检查步骤写成一套 agent 可复用流程”，或者“把运营周报的数据整理方式固定成一个模板化能力”，这些都更像是在做 skill 沉淀。

8. Harness：把模型能力真正接成“可运行系统”的支架

Harness 这个词，中文不太好直译。你可以把它理解成 支架、封装层，或者更口语一点，叫 把模型套进可控执行框架里的那一层。

这里要特别说明一下：
Harness 现在虽然越来越常见，但它还不像 RAG、Embedding 这样边界特别稳定。不同语境下，它可能指 agent 的运行时控制层、模型与工具之间的编排层、一套测试或评估支架，或者一个可重复执行的任务外壳。

它要解决的问题是：

模型会说，不等于系统能稳定跑。谁来负责把提示词、工具、权限、输入输出格式、错误处理、重试机制这些东西拢在一起？

这时 harness 就出现了。

一个 harness 可能负责给模型喂固定系统提示、约束它只能调用哪些工具、校验工具参数、处理超时和报错、记录日志、决定失败后要不要重试，并把最后结果整理成产品能接住的格式。

如果说 Tool Calling 是“模型能伸手拿工具”，
那 Harness 更像“工具台和安全规程”。
它不一定聪明，但它决定整个系统是不是稳定、可控、可上线。

比如在一个“自动生成销售复盘”的系统里，harness 可能会先拉 CRM 数据，再调用模型总结；如果字段缺失就回退到人工确认，如果输出格式不对就自动重试，最后再把结果写回系统。

所以 harness 不是“某个单独的 AI 能力”，而更像让这套能力能稳定跑起来的执行外壳。

第六部分：Agent 到底是什么，它和普通聊天机器人有什么区别

1. Chatbot 只是会聊，Agent 更像会办事

Chatbot，就是聊天机器人。
它的核心是“你说一句，我回一句”。

Agent，通常翻译成智能体。
虽然现在这个词被用得很泛，但如果你想抓住核心，可以记一句：

Agent = 由模型、指令和工具组成，能够围绕一个目标进行多步决策、执行和反馈推进的 AI 系统。

也就是说，Agent 不只是回答，它还会先理解任务目标，再判断要不要查资料、要不要调用工具，执行一步之后还会看结果对不对，并决定下一步怎么推进。

这就从“对话”升级成了“任务执行”。

所以严格一点说，Agent 不是“一个更聪明的聊天框”，而是一个有目标、有可用工具、有执行循环，并且能根据中间结果继续往下走的系统。

2. 一个直观例子：订机票这件事

普通聊天机器人面对“帮我找下周去北京最便宜的机票”时，可能只能告诉你：

你可以去某某平台搜索
买机票时注意时间、价格、退改规则

而一个更完整的 Agent 可能会：

问你出发地、时间偏好、预算
调用航班搜索工具
对结果做筛选
比较价格和起飞时段
给你推荐几个选项
在确认后继续下单

差别就在于：
前者主要是“提供建议”，后者是在“推进任务”。

3. Planning：先想步骤，再行动

Planning，就是 规划。

它指 Agent 在开始执行前，先形成一个任务分解过程，例如：

第一步：理解用户目标
第二步：确认缺失信息
第三步：调用搜索工具
第四步：整理结果
第五步：生成最终输出

不是所有系统都会显式展示 planning，但很多 Agent 框架都在强调它。
原因很简单：复杂任务如果不拆，模型很容易一步走歪。

4. Workflow：预先设计好的流程

Workflow，就是 工作流。

它和 Agent 很容易混。

一个简单区分方式是：Workflow 更像提前编排好的固定流程，Agent 更像带一定自主决策能力的执行者。

比如一个固定客服流程：

识别用户意图
检索知识库
生成回复
敏感问题转人工

这更像 workflow。

但如果系统能根据不同情况自己决定要不要先追问、要不要查外部资料、要不要调用不同工具、要不要拆成多个子任务，那它就更接近 agent。

你也可以这样记：

Workflow 更强调“流程图”，Agent 更强调“自主性”。

5. Memory：记忆

Memory 在 Agent 里也很常见。

这里的“记忆”可以分两种：

短期记忆

主要指当前会话中的上下文。
比如你前面说过你是做电商的、你想要表格输出、你偏好中文回答，系统在后续轮次里继续记住这些，这就是短期记忆的直觉。

长期记忆

指跨会话保留的用户信息、偏好、历史任务经验等。
比如它记得你的常用写作风格、记得你所在团队的项目背景、记得你上次没做完的任务，这些都更像长期记忆。

Memory 为什么重要？
因为没有记忆的 Agent 每次都像第一次见你，执行连续任务会非常笨。

6. Reflection / Self-Correction：自我检查

这两个词常出现在更高级一点的 Agent 讨论里。

Reflection：先回看自己刚才的结果，判断有没有问题
Self-Correction：发现问题后再修正

这有点像人做题时：

先写答案
再检查一遍
发现错了就修改

注意，这不代表模型真的拥有“意识”。
它更多是通过额外一轮提示和流程，让系统表现得更会复核。

7. Multi-Agent：多个 Agent 协作

Multi-Agent，就是多个智能体协作。

比如把一个复杂任务拆给不同角色：一个负责搜索资料，一个负责分析数据，一个负责写报告，一个负责审核输出。这有点像小团队分工。

它听起来很酷，但并不是越多 Agent 越高级。
在很多真实产品里，多智能体往往也会带来更高的成本、更复杂的协调、更长的延迟，以及更多的出错路径。

所以很多时候，能用简单 workflow 做好的事，不一定非要堆 multi-agent。

8. Sub-agent：大任务里被拆出来的“子执行者”

Sub-agent，就是 子智能体。
它通常出现在这样一种场景里：一个主 Agent 发现任务太复杂，于是把其中某一部分拆出去，交给更专门的执行者处理。

你可以把它想成团队分工：主 Agent 像项目经理，Sub-agent 像被拉来处理专项任务的同事。

比如用户说：

帮我做一份竞品分析，最后输出成演示稿。

主 Agent 可能会把它拆成三段：一个 sub-agent 去搜集竞品资料，一个 sub-agent 去提炼卖点和差异点，另一个 sub-agent 去整理成演示提纲。

为什么这个词现在会火？

因为很多复杂任务并不适合一个 Agent 从头干到尾。
拆成 sub-agent 之后，系统可以让不同子任务各自使用不同的 skill、不同的工具、不同的模型，甚至不同的输出格式。

更准确一点说，sub-agent 往往还意味着它有自己独立的一段上下文、有自己独立的指令边界，而且可能只被授权使用某些特定工具。

但它的代价也很明显：协调更复杂、成本更高、错误链条也更长。

所以 Sub-agent 可以理解成 Multi-Agent 的一个更具体落地形态：
不是抽象地说“多个智能体协作”，而是明确有主从关系、有任务拆分、有责任边界。

9. Copilot：副驾，而不是全自动驾驶

Copilot 这个词也很常见。它直译是 副驾驶。

为什么很多 AI 产品爱叫自己 copilot？

因为这个词传递的是一种产品定位：它不是完全替你做决定，而是更像辅助你完成工作，你仍然是主驾驶。

比如代码助手、办公助手、销售助手、设计助手，都常走 copilot 路线。
这通常意味着：AI 提建议、做初稿、帮执行部分动作，但关键决策仍由人把关。

第七部分：训练相关词汇，一次讲清大模型是怎么“学成”的

前面讲的更多是“模型怎么用”。
现在我们讲“模型怎么练出来”。

1. Training：训练

Training，训练，就是让模型通过大量数据不断调整参数的过程。

如果说使用阶段像考试答题，
那训练阶段就像长时间刷题、背知识、调方法。

2. Pretraining：预训练

Pretraining 是 预训练。
它指模型先在海量通用数据上进行大规模学习，形成一个通用底座。

这一步让模型获得语言模式、常识、基础知识、表达能力，以及某种泛化能力。

你可以把预训练理解成“先读完一整个巨型图书馆”。

3. Base Model：基础模型

Base Model 是基础模型。
它通常指刚完成预训练、但还没有被进一步“调教成适合对话和指令执行”的模型。

基础模型往往续写能力强、语言知识多，但不一定特别听话。

比如你问它一个问题，它可能继续补全文字，而不是规规矩矩回答。

4. Instruct Model：指令模型

Instruct Model，就是经过进一步训练后，更擅长“按人类指令做事”的模型。

它和 base model 的差别，可以理解为：base model 更像一个读书很多但不一定懂面试礼仪的人，instruct model 更像接受过任务表达训练、知道该怎么回应用户需求的人。

5. Fine-tuning：微调

Fine-tuning，微调，是在已有大模型基础上，用更具体的数据进一步训练，让它更适合某类任务或风格。

比如法律问答微调、医疗术语微调、某企业客服风格微调、某类代码任务微调。

这有点像一个已经受过通识教育的人，再去读某个专业方向。

6. SFT：监督微调

SFT 是 Supervised Fine-Tuning，监督微调。

简单说，就是拿一批“问题-好答案”示例继续训练模型，让它学会更符合预期的响应方式。

比如给它大量这样的示范：用户怎么问、理想答案怎么写、风格要怎样、输出格式怎么控制。

SFT 是很多对话模型走向“更好用”的关键一步。

7. RLHF：基于人类反馈的强化学习

RLHF 是 Reinforcement Learning from Human Feedback。

这个名字很长，但它的目标可以说得很直白：

不只是让模型会答，还要让它更符合人类偏好。

比如两段回答都不算错，但人通常会更喜欢更有帮助、更安全、更不冒犯、也更清楚的那一段。

那就可以通过人类反馈，逐渐把模型往这个方向推。

所以 RLHF 更像是在训练“回答风格、对齐方式、帮助程度”，而不只是训练事实知识。

8. Alignment：对齐

Alignment，对齐，是一个更大的概念。
它指的是：让模型的行为更符合人类意图、价值约束和使用目标。

所以你会看到很多讨论，比如模型有没有对齐、对齐得够不够、会不会太保守、会不会太容易被诱导。

对齐本质上是在回答一个问题：

这个强大的模型，最终会按什么方式来帮助人？

9. Distillation：蒸馏

Distillation，蒸馏，是把一个更大、更强的模型的能力，压缩迁移给一个更小、更便宜、更快的模型。

你可以把它想成“高手带徒弟”：大模型负责给出高质量示范，小模型学习这些示范，最终得到一个更轻量但还不错的版本。

这在端侧部署、低成本服务、特定场景优化里很常见。

这里特别要和一个很容易混淆的意思区分开：

很多人会把“把某个专家的经验、某个岗位的流程、某类重复工作的套路，整理成 AI 可以复用的能力”也直觉地叫成“蒸馏”。
这个说法在口语里能听懂，但如果按现在更主流的技术共识，它通常不算严格意义上的模型蒸馏。

更贴切地说，那种过程更像是在做 knowledge capture，也就是把人的经验捕捉下来；或者做 workflow abstraction，把流程抽象出来；再或者做 skill 沉淀，把做事方法打包成可复用能力；也可能是在做 prompt / system design，把规则写进提示和系统逻辑。

举个例子：

“把一个资深客服的话术和判断步骤整理进客服助手里”
这更像经验沉淀、skill 封装或 workflow 设计
“让一个 70B 大模型教一个 7B 小模型学会更像样地回答问题”
这才更接近技术上说的 distillation

10. Open-source 和 Closed-source

这两个词几乎所有 AI 讨论里都会出现。

Open-source：开源，通常意味着模型权重、代码或相关组件开放程度更高
Closed-source：闭源，通常由公司私有控制，外界只能通过产品或 API 使用

初学者常把“开源”误解成“免费”或“能力一定更弱”，这都不准确。
它主要是生态和开放方式的区别，不是单纯的强弱标签。

第八部分：为什么大家都在说 Reasoning Model、推理模型、思维链

1. Reasoning：这里说的不是数学定义，而是“更会分步骤思考”

这几年一个很热的词是 Reasoning Model，也就是大家常说的“推理模型”。

它通常指模型在复杂任务上更擅长分解问题、延迟下结论、多步分析、权衡不同条件，以及进行更长链条的任务求解。

你可以把它理解成：
不是只会快速接话，而是更擅长“把题目慢慢做出来”。

2. Chain of Thought：思维链

Chain of Thought，常缩写为 CoT。

最初它更准确地说，是一种 prompting 方法：
通过给模型示范中间推理步骤，诱导它也按步骤展开思考。

后来这个词被用得越来越广，很多人也会把它泛指为“分步骤思考”的方式。
所以在日常讨论里，你听到 CoT，大概率都可以先理解成“别急着直接下结论，先把推理步骤展开”。

它指的是让模型以分步骤的方式展开中间推理过程。
比如不是直接回答“结果是 A”，而是：

先分析条件一
再分析条件二
再比较选项
最后得出结论

这在复杂推理、数学、规划任务里常有帮助。

不过在实际产品里，用户不一定总会看到完整思维链。
因为很多系统会基于安全、效率、产品策略，只暴露结果或摘要，而不是全部中间过程。

3. Test-time Compute：把更多算力花在回答时

这个词近来很热。
它指的是在模型真正作答的时候，愿意投入更多计算资源，让它“多想一会儿”。

这背后的直觉很简单：不是所有问题都要秒回；对复杂问题，多花一点推理时间，可能会明显提升质量。

所以今天很多高阶模型的竞争，不只是“谁训练得大”，也包括“谁在回答时更会分配思考资源”。

第九部分：AI 产品和工程里最常见的那些词

前面你理解了模型、RAG、Tool、Agent，已经能看懂大部分讨论了。
但如果你继续往产品和工程方向走，还会常见下面这些词。

1. Latency：延迟

Latency 指用户发出请求到收到结果的耗时。

AI 产品里延迟特别关键，因为用户对“智能”的感知，很大程度也取决于“它到底等多久”。
一个再强的系统，如果每次都要等 30 秒，体验也会非常差。

2. Throughput：吞吐量

Throughput，吞吐量，指单位时间内系统能处理多少请求。

如果一个 AI 应用面向大量用户，就必须关注吞吐量。
不然模型再好，也可能一高峰就崩。

3. Cost：成本

AI 系统很多时候不是“能不能做”，而是“值不值这样做”。

成本来自很多地方，比如模型调用费用、向量检索费用、存储费用、工具调用费用，以及推理时长。

所以你会看到很多产品团队不断在平衡：到底要用更强模型还是更便宜模型，要全量长上下文还是分步检索，要单 Agent 还是多 Agent，要实时算还是预计算。

4. Evals：评测

Evals，评测，是 AI 产品里非常重要但经常被低估的一环。

因为 AI 不是传统程序，不是说“输出 1 就一定对，输出 0 就一定错”。
很多任务有模糊地带，所以你需要一套评估方法。

常见评测维度包括准确性、相关性、完整性、格式正确率、工具调用成功率、幻觉率，以及用户满意度。

一个 AI 产品做得稳不稳，很大程度看它有没有持续 eval。

5. Benchmark：基准测试

Benchmark 是 基准测试。
它通常指一套标准化任务集，用来比较不同模型或系统的表现。

比如：

数学能力 benchmark
代码能力 benchmark
多轮对话 benchmark
检索问答 benchmark

但要小心：benchmark 成绩高，不代表你的真实业务场景一定好用。
它更像标准化考试分数，不等于真实工作表现。

6. Guardrails：护栏

Guardrails，护栏，可以理解成 AI 系统的行为边界控制。

比如不允许回答违法内容，不允许执行高风险操作，输出前做敏感审查，或者要求金融、医疗建议必须加免责声明。

它就像高速公路边上的护栏，不负责帮你开车，但负责防止系统冲出边界。

7. Human in the Loop：人在回路中

这个词非常重要。

Human in the Loop 指的是：
系统不是完全自动化，而是在关键节点保留人的审核、确认、修改或接管。

很多成熟 AI 产品都不会追求“彻底无人值守”，而是会设计成：草稿由 AI 生成，关键动作由人确认，高风险输出由人审核。

这通常比“全自动”更现实，也更容易落地。

8. AI Native：AI 原生

AI Native 这几年很流行。
它通常不是说“产品里加了个聊天框”，而是：

这个产品从底层体验和核心价值上，就是围绕 AI 能力重新设计的。

比如它不是在传统文档软件里硬塞个“帮我润色”，而是让整个写作流程、检索方式、协作方式都围绕 AI 重构。

所以 AI Native 更像一种产品方法论，而不是单一功能标签。

第十部分：把今天最常见的 AI 词串成一条完整主线

现在我们把前面的词汇全连起来。

假设你正在使用一个“企业知识助手”，问它：

帮我总结一下公司报销制度里，出差住宿费用的最新标准，并给我列成三条要点。

背后可能发生的是：

你输入问题
- 这形成了一个 Prompt
系统整理上下文
- 把系统规则、聊天历史、你的当前问题放进 Context
系统判断要不要查知识库
- 因为这是公司内部制度，所以启动 RAG
知识库检索
- 先把问题做 Embedding
- 去 Vector Database 检索相关 Chunk
- 再用 Rerank 选最相关片段
模型拿到资料开始回答
- 进入 Inference
如果需要更多动作
- 模型可能触发 Tool Calling
- 比如调用企业搜索、附件解析、表格工具
如果系统把一些高频能力提前打包好
- 那你可以把这些模块理解成 Skill
如果系统还负责权限、格式、重试、日志这些工程细节
- 那背后通常有一层 Harness
如果这是一个更复杂任务
- 比如不只是总结，还要生成审批建议、拉取历史报销记录、生成邮件
- 那系统就更像一个 Agent
如果主 Agent 又把某个子任务拆给更专门的执行者
- 那这个子执行者就可以叫 Sub-agent
如果它会长期记住你的岗位和偏好
- 那就涉及 Memory
如果整个过程分固定步骤编排
- 那就是 Workflow
如果多个角色分工协作
- 那就是 Multi-Agent

看到这里你会发现：

很多热门 AI 词其实不是互相替代，而是互相拼装。

LLM 是大脑
RAG 是找资料
Tool Calling 是用工具
Skill 是打包好的专门能力
Harness 是把模型和工具接成稳定系统的执行支架
Workflow 是流程图
Agent 是带自主性的执行者
Sub-agent 是主 Agent 拆出去的子执行者
Memory 是持续记住事

一旦你有了这张地图，看到行业文章就不会再像看天书。

第十一部分：高频 AI 词汇速查表

下面给你一个适合收藏的简明版速查表。
如果前面是“故事版理解”，这里就是“复习版记忆”。

词汇	一句话解释
AI	人工智能的总称
ML	让机器从数据中学习规律
DL	以神经网络为核心的机器学习分支
Neural Network	模拟神经连接方式的模型结构
Foundation Model	通用能力很强的大底座模型
LLM	大语言模型，擅长处理和生成语言
Multimodal	能处理文本、图像、音频等多种模态
Prompt	给模型的任务说明
Token	模型处理文本的最小单元
Context	模型当前能看到的全部信息
Context Window	模型一次能容纳的上下文上限
Inference	模型接收输入后生成输出的过程
Temperature	控制输出随机性和发散度的参数
Hallucination	模型一本正经地编错内容
Pretraining	在海量通用数据上的预训练
Base Model	只完成基础训练的模型
Instruct Model	更会按人类指令响应的模型
Fine-tuning	在通用模型基础上进一步微调
SFT	用标注好的问答样本做监督微调
RLHF	基于人类反馈优化模型行为
Alignment	让模型更符合人类目标与约束
Distillation	把大模型能力压缩给小模型
RAG	先检索资料，再结合资料作答
Embedding	把文本变成可算相似度的向量
Vector Database	存储和检索向量的数据库
Chunking	把文档切成小片段用于检索
Retrieval	从知识库中检索相关内容
Recall	尽量不漏掉相关资料
Precision	尽量减少无关资料
Rerank	对候选检索结果再排序
Tool Calling	模型调用外部工具能力
Function Calling	以结构化方式调用函数
API	软件对外提供的标准调用接口
Structured Output	按固定格式输出结果
Skill	把某类任务经验和工具封装成可复用能力模块
Harness	把模型、工具、权限和执行规则接成稳定系统的支架层
Workflow	预先设计好的任务流程
Agent	能拆任务、调用工具并推进目标的系统
Sub-agent	被主 Agent 拆分出去处理子任务的子智能体
Planning	对任务先做步骤规划
Memory	系统对用户与任务信息的记忆能力
Reflection	回看并检查自己输出的过程
Self-Correction	发现问题后再修正
Multi-Agent	多个智能体分工协作
Copilot	以“副驾辅助”为定位的 AI 产品
Reasoning Model	更擅长多步分析和复杂求解的模型
Chain of Thought	分步骤展开推理的方式
Latency	响应延迟
Throughput	单位时间处理请求的能力
Evals	AI 系统评测机制
Benchmark	标准化基准测试
Guardrails	防止系统越界的护栏机制
Human in the Loop	关键步骤保留人工参与
AI Native	从产品底层就围绕 AI 重构的形态

第十二部分：如果你是初学者，最值得先搞懂的是哪几个词

虽然这篇文章尽量覆盖得很全，但如果你今天只想先抓住骨架，最建议优先理解这 10 个词：

LLM
Prompt
Token
Context
Hallucination
RAG
Embedding
Tool Calling
Workflow
Agent

为什么是这 10 个？

因为它们几乎能解释今天 80% 的 AI 产品讨论。

很多“新概念”其实只是这几件事的不同组合：

模型更强一点
检索更准一点
工具更多一点
流程更复杂一点
自主性更高一点

只要你先把这个骨架搭起来，后面再看别的词，比如：

MCP
Browser Agent
Code Agent
AI Search
AI Workspace
Deep Research

你都能迅速判断：
哦，它本质上是在“给模型加知识”“给模型加工具”“给模型加流程”“给模型加记忆”中的哪一种，或者是哪几种的组合。

最后总结：今天最火的 AI 词，真正该怎么理解

如果让我把全文压缩成几句话，我会这样说：

第一，LLM 是今天这波 AI 应用的核心大脑，但它不是万能的。
它擅长语言和泛化，不代表它天然掌握实时信息，也不代表它能直接操作现实世界。

第二，RAG 解决的是“去哪里拿知识”的问题。
它让模型从闭卷答题，变成开卷答题。

第三，Tool Calling 解决的是“怎么接外部能力”的问题。
它让模型不只是会说，还能查、能调、能执行。

第四，Agent 解决的是“怎么把任务推进下去”的问题。
它让 AI 从一句一句回复，升级为围绕目标连续行动。

第五，今天很多看起来很新的 AI 产品，本质上都不是单个神奇模型，而是：

模型 + 检索 + 工具 + 流程 + 记忆 + 评测

也就是说，AI 真正走向可用，从来不是靠一个热词单打独斗，而是靠整套系统协同。

如果你读到这里，已经不只是“认识几个词”了。
你其实已经搭起了一张理解当下 AI 产品世界的地图。

后面再看到什么新名词，不必先慌。
先问它三个问题就够了：

它是在解决“模型本身”的问题吗？
它是在解决“知识获取”的问题吗？
它是在解决“任务执行”的问题吗？

大多数答案，都会慢慢清楚起来。

AI 这波浪潮里，最容易让人焦虑的不是技术更新太快，而是名词更新太快。今天一个 Agent，明天一个 RAG，后天又来一个 Tool Calling，仿佛你只要没跟上词汇，就已经被时代甩下了。但现实是，绝大多数热门词并不是彼此割裂的新大陆，而是在描述同一套系统的不同部件。把这张地图看清之后，你会发现：AI 并没有想象中那么玄，它只是把“会说”“会查”“会调工具”“会分步骤做事”这些能力，一层一层叠加了起来。对初学者来说，真正重要的不是一次记住所有名词，而是先建立一套能不断吸收新概念的理解框架。