两万字AI热门词汇大扫盲:从 LLM 到 Agent,一篇讲透今天最常见的 AI 术语
本文系统梳理了AI领域的核心概念,通过"AI助手如何完成任务"的主线,将高频术语分为6大类:模型本质、工作原理、训练方法、外部连接、知识获取和任务执行。文章从基础概念(AI/机器学习/大模型)入手,逐步解析Prompt、Token、Context等关键要素,并深入介绍RAG、Tool Calling、Agent等进阶技术。通过类比公司架构(大脑-任务说明-工具权限-执行规则),帮助读者建立完整的认
如果你最近在看 AI 相关内容,大概率会被一堆词砸脸:
LLM、Prompt、Token、RAG、Embedding、Tool Calling、Skill、Harness、Agent、Sub-agent、Workflow、Fine-tuning、Multi-Agent……问题不在于这些词有多难,而在于它们总是被混着说。很多文章默认你已经懂一半,于是你越看越像在“听懂了每个字,但没听懂整句话”。
这篇文章想做的,就是把这些高频 AI 词汇放回同一张地图里。我们不搞一上来就堆定义,而是顺着一条主线来理解:一个 AI 助手到底是怎么一步步完成任务的。只要这条主线清楚了,今天最热门的大多数 AI 词,你都会知道它们分别是什么、为什么会出现、彼此是什么关系。
目录
- 先别急着背词:AI 词汇其实可以分成 6 大类
- 第一部分:AI、机器学习、大模型,这几个词到底是什么关系
- 第二部分:一个 AI 回答你问题时,内部大概发生了什么
- 第三部分:从“会聊天”到“会做事”,AI 系统中间多了什么
- 第四部分:RAG 是什么,为什么几乎所有 AI 产品都在讲它
- 第五部分:Tool Calling 是什么,为什么说它让 AI 从“嘴强王者”变成“能动手的人”
- 第六部分:Agent 到底是什么,它和普通聊天机器人有什么区别
- 第七部分:训练相关词汇,一次讲清大模型是怎么“学成”的
- 第八部分:为什么大家都在说 Reasoning Model、推理模型、思维链
- 第九部分:AI 产品和工程里最常见的那些词
- 第十部分:把今天最常见的 AI 词串成一条完整主线
- 第十一部分:高频 AI 词汇速查表
- 第十二部分:如果你是初学者,最值得先搞懂的是哪几个词
- 最后总结:今天最火的 AI 词,真正该怎么理解
先别急着背词:AI 词汇其实可以分成 6 大类
很多初学者会有一种错觉:AI 领域的新词是不是每天都在重新发明世界?
其实没有那么夸张。你看到的大部分热门词,基本都能塞进 6 个篮子里:
模型是什么:AI、机器学习、深度学习、神经网络、大模型、LLM、多模态。模型怎么工作:Token、Prompt、Context、Inference、Temperature、Reasoning。模型怎么学来的:Pretraining、Fine-tuning、SFT、RLHF、Distillation。模型怎么连接外部世界:Tool Calling、Function Calling、API、Browser Use、Skill、Harness。模型怎么获得额外知识:RAG、Embedding、Chunking、Vector Database、Rerank。模型怎么从会回答变成会做事:Workflow、Memory、Planning、Agent、Sub-agent、Multi-Agent、Automation。
你也可以把这 6 类想成一家公司:模型是“大脑”,Prompt 和 Context 是任务说明,RAG 是临时调资料,Tool Calling 是开工具权限,Skill 和 Harness 是把做事方法和执行规则稳定下来,而 Agent 则让它不仅会说,还能把事情一步步做下去。
接下来,我们就从最底层开始,一层一层往上走。
第一部分:AI、机器学习、大模型,这几个词到底是什么关系
1. AI:一个最大的总称
AI,人工智能,英文是 Artificial Intelligence。
它本质上不是某一种具体技术,而是一个很大的总称:让机器表现出某种“像人一样会判断、会学习、会处理任务”的能力,都可以被归到 AI 这个大伞下面。
比如,会识别人脸的系统是 AI,会自动推荐短视频的系统是 AI,会和你聊天写文案的系统是 AI,会下围棋的系统当然也是 AI。
所以如果你把 AI 理解成“智能机器的总称”,一般不会错。
2. 机器学习:让机器从数据里学规律
机器学习(Machine Learning,ML),是 AI 里最重要的一条技术路线。
它的核心思想其实很朴素:
不再让程序员把所有规则一条条写死,而是让机器从大量数据中自己总结规律。
举个生活化的例子。
传统编程像什么?
像你写一套明确规则:
- 如果邮件里出现“中奖”“转账”“链接”
- 并且发件人陌生
- 那么大概率是垃圾邮件
机器学习更像什么?
像你直接喂给系统几十万封“这是垃圾邮件”“这不是垃圾邮件”的样本,让它自己学出判断模式。
所以机器学习的关键词不是“规则”,而是“数据、训练、模式、预测”这四件事。
3. 深度学习:机器学习里最火的一支
深度学习(Deep Learning,DL),可以理解成机器学习中的一个分支,而且是这几年最推动 AI 爆发的那一支。
它的核心是 神经网络(Neural Network)。
之所以叫“神经网络”,是因为它的灵感来自人脑神经元的连接方式,但你不用把它想得太玄。更容易理解的方式是:
神经网络像一个层层传递、层层提取特征的巨大函数系统。
比如识别一张猫的图片:
- 第一层可能先识别边缘
- 第二层识别局部形状
- 第三层识别耳朵、眼睛、胡须等组合特征
- 更深层再综合判断“这像一只猫”
“深度”指的就是层很多、结构很深。
4. 大模型:参数规模特别大的神经网络模型
大模型,通常指参数量非常大的模型。
参数你可以粗略理解为模型内部“记住规律”的旋钮数量。旋钮越多,模型通常越有能力容纳更复杂的模式。
但注意,大模型不等于什么都懂。它只是:
- 见过更多数据
- 容量更大
- 泛化能力更强
- 更可能具备通用任务处理能力
很多年以前,AI 模型往往是“一模型一用途”:
- 一个模型专门识别图片
- 一个模型专门做翻译
- 一个模型专门做推荐
现在的大模型开始变成“一个底座,很多任务都能做”。
5. LLM:大语言模型
LLM 是 Large Language Model,也就是 大语言模型。
它本质上是一类特别擅长处理语言的大模型。这里的“语言”不只指中文英文,也包括对话、写作、总结、翻译、分类、代码、表格理解,甚至一部分结构化推理。
为什么 LLM 这么火?
因为它第一次让普通人直观感受到:
机器不只是会执行命令,而是开始能“理解你的自然语言,再生成看起来像样的回应”。
你今天接触到的 ChatGPT、Claude、Gemini、通义、豆包、Kimi 这类聊天式 AI,背后通常都建立在 LLM 的能力之上。
6. 多模态:不只会看文字
多模态(Multimodal),指模型不只处理文字,还能处理多种输入输出形式,比如文本、图片、音频、视频、文档、表格。
如果说 LLM 原本更像“会读会写”的大脑,
那么多模态模型更像是给这个大脑又加上了眼睛、耳朵,甚至一部分“看图说话”和“听音理解”的能力。
第二部分:一个 AI 回答你问题时,内部大概发生了什么
现在我们已经知道:大模型像一个很强的语言大脑。
那下一步问题是:当你给它一句话时,它到底是怎么开始工作的?
这一部分会带出很多你最常见的高频词。
1. Prompt:你给 AI 的任务说明
Prompt,通常翻译成 提示词,但这个翻译有时候会让人误会,觉得它只是“给一句提示”。
更准确地说,Prompt 是:
你输入给模型的任务描述、上下文说明、约束条件和输出要求的总和。
比如下面这句:
请用面向零基础读者的方式,解释什么是 RAG,并举一个电商客服场景的例子。
这就是一个 Prompt。
很多人把 Prompt 理解成“魔法咒语”,好像只要掌握几个神秘模板,AI 就会突然变强十倍。其实更接近事实的说法是:
- Prompt 不是玄学
- 它更像“跟一个强但不读心的实习生下任务”
你说得越清楚,它通常做得越稳。
2. Token:模型不是按“字数”理解世界
Token 是理解大模型时非常关键的一个词,现在被官方翻译为词元。
很多人以为模型按“字”或者“词”处理文本,其实更准确地说,它处理的是 Token。
Token 可以粗略理解为模型切分文本后的最小处理单元。
它不一定等于一个汉字,也不一定等于一个英文单词或一个标点。不同模型的切分方式并不一样。
为什么 Token 这么重要?
因为它直接关系到三件事:
- 上下文能装多少内容
- 调用成本有多高
- 生成速度会不会变慢
你可以把上下文窗口想成一个会议桌,Token 就是桌上能摆的纸张数量。
桌子再大,也不是无限大。你给模型塞的系统提示、聊天历史、知识库片段、工具返回结果、用户问题,全都要占 Token。
3. Context:模型当前这一轮能看到的全部信息
Context,也就是 上下文。
它指的是模型在当前响应时,能够“看见”的全部信息,包括你的当前问题、前面的聊天记录、系统提示词、开发者设置的规则、临时注入的资料,以及工具调用返回的数据。
这点特别重要,因为大模型并不是像人一样拥有一个无限的长时记忆。
对它来说,“看见什么”决定了它“能基于什么作答”。
所以很多看起来像“模型突然变笨了”的情况,本质上往往是:它没看到关键资料、上下文太长导致关键信息被挤掉、指令彼此冲突,或者历史信息太乱。
4. Context Window:上下文窗口
Context Window,就是模型一次性能处理的上下文容量上限。
如果你把模型比作一个考试中的学生,那么:
- Prompt 是考题
- RAG 是老师临时发给他的参考资料
- Context Window 是他的桌面大小
桌面太小,资料摆不下,就只能删掉一部分,或者先压缩再摆。
所以为什么很多 AI 应用会做历史摘要、分段检索、Chunking、对话记忆压缩?说到底,都是在给有限的上下文窗口腾地方。
5. Inference:模型开始“出答案”的过程
Inference,通常翻译成 推理,但这里的“推理”更偏工程含义,指的是:
模型在接收到输入之后,实际生成输出结果的运行过程。
注意,这里的 inference 不一定等于“像人那样深度思考”。
它更多是在说模型开始工作、开始出结果这个阶段。
所以很多系统里会有两个大阶段:
Training:训练阶段Inference:使用阶段
训练像上学,推理像考试答题。
6. Temperature:控制输出有多发散
Temperature 是一个常见参数。
它会影响模型输出的随机性和发散程度。
你可以简单理解成:温度低时,输出更稳、更保守、更像标准答案;温度高时,输出更活、更发散、更有创造性,但也更可能跑偏。所以写代码、抽取信息、结构化输出时,通常希望温度低一点;写文案、头脑风暴、故事创作时,则可能会放高一点。
它不是“智商开关”,更像“风格松紧旋钮”。
7. Hallucination:AI 一本正经胡说八道
Hallucination,中文常叫 幻觉。
它指的是模型生成了听起来合理、语气很自信、但事实不对或凭空编造的内容。
为什么会这样?
因为大语言模型本质上是在“根据上下文预测下一个更可能出现的 Token”。
它擅长生成“像答案的文字”,但并不天然等于“在调用一个真实世界事实数据库”。
这就是为什么它会编不存在的论文、编不存在的接口参数、编错日期数字和引用,或者在信息不够时强行补全。
这也是后面 RAG 和 Tool Calling 会变得特别重要的原因:
它们都在试图让模型少靠“猜”,多靠“查”和“拿”。
第三部分:从“会聊天”到“会做事”,AI 系统中间多了什么
如果只有一个裸的大模型,它最擅长的往往是:
- 回答
- 改写
- 总结
- 解释
- 生成文本
但现实世界里的任务很少只是“回一句话”。
比如你说:
帮我查一下最近三个月销量下滑最明显的商品,并生成一份复盘建议。
这件事靠模型自己“脑补”肯定不行。
它需要访问真实数据,可能还需要调用数据库、分析工具、图表工具、文档工具。
于是,AI 应用开始往三个方向进化:
- 给模型更多外部知识
- 给模型调用工具的能力
- 让模型可以分步骤执行任务
这正好对应三组热门词:RAG、Tool Calling、Agent。
第四部分:RAG 是什么,为什么几乎所有 AI 产品都在讲它
1. RAG:不是给模型“补脑”,而是让它在生成时接入外部资料
RAG 是 Retrieval-Augmented Generation,中文一般叫 检索增强生成。
这个名字第一次看非常拗口,但你只要记住一句大白话:
RAG = 在回答问题时,先检索外部资料,再让模型结合这些资料生成答案。
它特别像什么?
像 开卷考试。
裸模型回答问题,像闭卷考试。
它只能依赖自己训练时学过的东西。
RAG 回答问题,像老师允许学生先翻讲义、翻笔记、翻公司知识库,再开始答题。
这样模型就不需要死记所有信息,而是可以在作答时先去“拿相关资料”。
如果你想说得稍微专业一点,RAG 本质上是在把两类记忆拼起来:
- 模型参数里原本“学会的东西”
- 外部知识库里“临时检索到的东西”
所以它不是把知识重新训练进模型,而是在生成阶段把外部证据接进来。
2. 为什么 RAG 会火
因为企业和产品团队很快发现一个现实:
用户问的很多问题,不是“互联网公共知识”,而是“你们自己的私有知识”。
比如:
- 公司的制度文档
- 客服 FAQ
- 医院内部流程
- 法务模板
- 产品说明书
- 项目历史记录
- 代码仓库文档
这些东西大模型训练时未必见过,就算见过也可能早就过时。
于是最实用的办法不是重训一个模型,而是:
- 把自己的资料接进来
- 用户提问时先检索相关内容
- 再把检索结果塞给模型回答
这就是 RAG 的基本逻辑。
3. RAG 的典型流程
一个常见的 RAG 系统,大概会经过这些步骤:
- 收集资料
- 清洗资料
- 切分资料
- 转成向量
- 存入向量数据库
- 用户提问
- 检索最相关片段
- 把片段连同问题一起发给模型
- 模型生成最终答案
看起来步骤很多,所以 RAG 相关词也会特别多。下面我们逐个拆。
4. Embedding:把文本变成可计算“相似度”的向量
Embedding 常被翻译成 向量化表示 或 嵌入表示。
如果直接说定义,会很抽象。更容易理解的说法是:
Embedding 是把一句话、一段话、一个文档,转换成一串数字坐标,让机器可以计算“谁和谁更像”。
比如:
- “苹果手机怎么换电池”
- “iPhone 电池维修流程”
这两句话表面写法不一样,但语义很接近。
Embedding 模型会尽量把它们映射到“距离比较近”的向量位置上。
为什么这很重要?
因为普通关键词搜索只会看字面重合,
而向量检索更有机会看“意思接不接近”。
5. Vector Database:向量数据库
Vector Database,就是专门用来存储和检索向量的数据库。
你可以把它理解成一个很擅长回答这类问题的仓库:
“跟用户这个问题语义最接近的资料片段有哪些?”
常见向量数据库包括 Pinecone、Weaviate、Milvus、Qdrant、Chroma 等。
但对初学者来说,名字不是重点,重点是理解它的职责:
- 存文档片段对应的向量
- 支持相似度搜索
- 快速返回最相关的若干条结果
6. Chunking:为什么文档要切块
Chunking,就是 分块 或 切片。
为什么不把整本手册直接塞给模型?
因为:
- 上下文窗口有限
- 整篇文档里只有少量内容和当前问题相关
- 整篇塞进去会增加成本和噪音
所以 RAG 常常会先把文档切成一个个片段,也就是 chunk。
这就像图书馆管理员不会每次把整本百科全书搬给你,
而是先找到最相关的几页。
Chunk 切得太大,容易噪音多。
切得太小,可能上下文不完整。
所以“怎么切”本身就是 RAG 里很关键的工程细节。
7. Retrieval:检索
Retrieval,就是从知识库里把相关内容找出来。
它是 RAG 的前半段。
如果检索阶段拿错资料,后面的模型再聪明也容易答歪。
所以很多 RAG 项目里,问题不在“生成模型不够强”,反而在:
- 没检索到正确资料
- 检索结果排序太差
- 切块策略不合理
- 文档清洗不干净
8. Recall 和 Precision:找得全,还是找得准
这两个词在检索里常出现:
Recall(召回率):相关内容有没有尽可能找全Precision(准确率):找出来的内容里有多少是真的相关
你可以简单理解成:
- Recall 高:宁可多捞一点,别漏掉关键内容
- Precision 高:宁可少一点,也尽量别捞进无关内容
很多系统需要在这两者之间找平衡。
9. Rerank:二次排序
Rerank 就是 重排序。
一个常见做法是:
- 先从向量数据库里粗筛出一批候选片段
- 再用一个更精细的模型,对这些候选结果重新排序
这像什么?
像你先从 100 本书里粗筛出 10 本可能相关的,
再认真翻一下目录,决定最该先看的 3 本。
Rerank 的价值在于,它能让最终送进模型的资料更相关、更干净。
10. RAG 和 Fine-tuning 很容易混:一个是“临时查”,一个是“直接改模型”
这是初学者最容易混淆的一组词。
你可以这样区分:
RAG:不改模型本身,回答时临时去查外部资料Fine-tuning:直接继续训练模型,让模型本身更适合某类任务
举个例子:
- 如果你想让 AI 回答“你们公司 2026 年最新报销制度”,更适合用
RAG - 如果你想让 AI 整体学会“像专业法律顾问一样说话”,更可能涉及
Fine-tuning
所以最简单的记法是:
RAG 更像开卷考试,Fine-tuning 更像重新培训这个人。
11. RAG 的边界:它不是万能外挂
很多人把 RAG 当成“只要接知识库就无敌”。这也不对。
RAG 擅长解决的是:
- 补充外部知识
- 减少事实性胡编
- 接入私有文档
- 让答案更可追溯
但它不直接解决:
- 模型逻辑推理弱
- 工作流设计混乱
- 工具调用错误
- 原始文档本身有误
所以你可以把 RAG 理解为:
它解决的是“知道什么”的问题,不完全解决“怎么做事”的问题。
第五部分:Tool Calling 是什么,为什么说它让 AI 从“嘴强王者”变成“能动手的人”
1. Tool Calling:给模型一个“调用外部能力”的接口
Tool Calling,常常也会看到 Function Calling 这个词。
最简单的理解是:
模型发现“这件事不能只靠嘴回答”,于是它发出结构化的工具调用请求,由外部系统执行工具,再把结果回传给模型继续完成任务。
这很像一个聪明助理的工作方式:
- 你问“今天上海天气怎样”
- 他不会闭眼瞎猜
- 他会打开天气软件查一下,再回复你
这里“打开天气软件查一下”的动作,就是 Tool Calling 的直觉。
要注意一个容易误解的点:
- 不是模型自己真的“伸手点开了天气 App”
- 而是模型先判断“现在该查天气了”
- 再按规定格式说出“我要调用哪个工具、参数是什么”
- 最后由外部程序真正执行
2. 为什么需要 Tool Calling
因为很多任务,模型自己并不具备直接完成的能力。比如查询实时天气、查询数据库、发邮件、下单、调日历、生成图表、调用搜索引擎、运行代码、操作浏览器,这些都需要外部工具。
所以很多 AI 产品的核心不只是“有一个模型”,而是“让模型接上工具生态”。
3. Function Calling 和 Tool Calling 有什么区别
实际使用里,两者经常被混用。
粗略理解:
Tool Calling是更宽泛的说法,泛指模型调用外部能力Function Calling通常是其中一种更具体的实现方式:工具被定义成函数,模型按约定格式给出参数
比如系统提前告诉模型,它可以调用 get_weather(city)、search_docs(query)、create_ticket(title, priority) 这些函数。
模型在对话中判断:该什么时候调用哪个函数、填什么参数。
它本身不一定真的执行代码,但会输出结构化调用意图,由外部系统去执行。
比如用户说:
帮我查一下明天下午北京会不会下雨。
模型内部更接近做的是:
- 判断这个问题需要实时信息
- 选择天气工具
- 生成类似
city=Beijing, date=tomorrow afternoon的参数 - 等工具返回天气结果
- 再把结果组织成人能读懂的话
4. API:工具连接的常见方式
API 是 Application Programming Interface。
如果你完全零基础,可以把 API 想成:
一个软件对外开放的“标准接口”,别人按这个接口规则,就可以调用它的能力。
比如地图 API、支付 API、翻译 API、搜索 API、企业内部工单 API。
Tool Calling 背后很多时候接的就是 API。
5. Structured Output:为什么要让模型按格式输出
当模型要调用工具时,最怕的是它输出一段模糊自然语言,例如:
我建议调用天气接口,城市应该是上海。
这对程序来说不好接。
程序更希望拿到的是结构化内容,比如:
{
"tool": "get_weather",
"arguments": {
"city": "Shanghai"
}
}
所以 Structured Output、JSON Output、Schema 这些词也常一起出现。
意思是:让模型输出符合约定格式的数据,而不是松散文字。
6. Tool Use 的风险
给模型开工具权限,不等于万事大吉。
因为一旦它能动手,风险也随之增加:可能调错工具、填错参数、重复执行、误删数据,甚至越权访问。
所以这时又会出现几个常见词:Permission 是权限控制,Approval 是关键步骤需要人工确认,Guardrails 是防护规则,Sandbox 则是受限执行环境。
你会发现,AI 工程越往后走,越像“产品、工程、安全”一起上场,而不是只有模型本身。
7. Skill:把一类能力封装成可复用的“专长”
Skill 这个词现在越来越常见,尤其是在 AI 助手、Agent 框架、插件系统里。
你可以先把它理解成:
Skill = 把某类任务的做法、规则、工具用法和输出要求,打包成一个可重复调用的能力模块。
比如写周报的 skill、做代码审查的 skill、处理 PDF 的 skill、做竞品调研的 skill、生成 SQL 的 skill。
为什么 skill 会火?
因为大家很快发现,单靠一个裸模型,每次都从零开始理解任务,太不稳定。
而 skill 的作用就是把“这类任务应该怎么做”提前沉淀下来。
它通常会包含一套专门提示词、一组可调用工具、明确的执行步骤、特定输出模板,以及针对某场景的规则约束。
如果你把模型理解成一个通用大脑,
那 skill 就像这个大脑后来学会的一门门“专门手艺”。
不过这里要补一个更准确的提醒:
Skill不是像RAG、Token那样全行业边界完全统一的标准基础词,它更像一个平台和工程实践里越来越常见的概念。
在一些具体产品体系里,skill 会被定义得更明确,甚至就是一个可以被加载、复用、共享的能力包。
但在更泛的行业讨论里,大家说 skill,通常就是在说“把一类经验沉淀成可复用能力”。
举个贴近工作的例子,“把法务审合同的检查步骤写成一套 agent 可复用流程”,或者“把运营周报的数据整理方式固定成一个模板化能力”,这些都更像是在做 skill 沉淀。
8. Harness:把模型能力真正接成“可运行系统”的支架
Harness 这个词,中文不太好直译。你可以把它理解成 支架、封装层,或者更口语一点,叫 把模型套进可控执行框架里的那一层。
这里要特别说明一下:Harness 现在虽然越来越常见,但它还不像 RAG、Embedding 这样边界特别稳定。不同语境下,它可能指 agent 的运行时控制层、模型与工具之间的编排层、一套测试或评估支架,或者一个可重复执行的任务外壳。
它要解决的问题是:
模型会说,不等于系统能稳定跑。谁来负责把提示词、工具、权限、输入输出格式、错误处理、重试机制这些东西拢在一起?
这时 harness 就出现了。
一个 harness 可能负责给模型喂固定系统提示、约束它只能调用哪些工具、校验工具参数、处理超时和报错、记录日志、决定失败后要不要重试,并把最后结果整理成产品能接住的格式。
如果说 Tool Calling 是“模型能伸手拿工具”,
那 Harness 更像“工具台和安全规程”。
它不一定聪明,但它决定整个系统是不是稳定、可控、可上线。
比如在一个“自动生成销售复盘”的系统里,harness 可能会先拉 CRM 数据,再调用模型总结;如果字段缺失就回退到人工确认,如果输出格式不对就自动重试,最后再把结果写回系统。
所以 harness 不是“某个单独的 AI 能力”,而更像让这套能力能稳定跑起来的执行外壳。
第六部分:Agent 到底是什么,它和普通聊天机器人有什么区别
1. Chatbot 只是会聊,Agent 更像会办事
Chatbot,就是聊天机器人。
它的核心是“你说一句,我回一句”。
Agent,通常翻译成智能体。
虽然现在这个词被用得很泛,但如果你想抓住核心,可以记一句:
Agent = 由模型、指令和工具组成,能够围绕一个目标进行多步决策、执行和反馈推进的 AI 系统。
也就是说,Agent 不只是回答,它还会先理解任务目标,再判断要不要查资料、要不要调用工具,执行一步之后还会看结果对不对,并决定下一步怎么推进。
这就从“对话”升级成了“任务执行”。
所以严格一点说,Agent 不是“一个更聪明的聊天框”,而是一个有目标、有可用工具、有执行循环,并且能根据中间结果继续往下走的系统。
2. 一个直观例子:订机票这件事
普通聊天机器人面对“帮我找下周去北京最便宜的机票”时,可能只能告诉你:
- 你可以去某某平台搜索
- 买机票时注意时间、价格、退改规则
而一个更完整的 Agent 可能会:
- 问你出发地、时间偏好、预算
- 调用航班搜索工具
- 对结果做筛选
- 比较价格和起飞时段
- 给你推荐几个选项
- 在确认后继续下单
差别就在于:
前者主要是“提供建议”,后者是在“推进任务”。
3. Planning:先想步骤,再行动
Planning,就是 规划。
它指 Agent 在开始执行前,先形成一个任务分解过程,例如:
- 第一步:理解用户目标
- 第二步:确认缺失信息
- 第三步:调用搜索工具
- 第四步:整理结果
- 第五步:生成最终输出
不是所有系统都会显式展示 planning,但很多 Agent 框架都在强调它。
原因很简单:复杂任务如果不拆,模型很容易一步走歪。
4. Workflow:预先设计好的流程
Workflow,就是 工作流。
它和 Agent 很容易混。
一个简单区分方式是:Workflow 更像提前编排好的固定流程,Agent 更像带一定自主决策能力的执行者。
比如一个固定客服流程:
- 识别用户意图
- 检索知识库
- 生成回复
- 敏感问题转人工
这更像 workflow。
但如果系统能根据不同情况自己决定要不要先追问、要不要查外部资料、要不要调用不同工具、要不要拆成多个子任务,那它就更接近 agent。
你也可以这样记:
Workflow 更强调“流程图”,Agent 更强调“自主性”。
5. Memory:记忆
Memory 在 Agent 里也很常见。
这里的“记忆”可以分两种:
短期记忆
主要指当前会话中的上下文。
比如你前面说过你是做电商的、你想要表格输出、你偏好中文回答,系统在后续轮次里继续记住这些,这就是短期记忆的直觉。
长期记忆
指跨会话保留的用户信息、偏好、历史任务经验等。
比如它记得你的常用写作风格、记得你所在团队的项目背景、记得你上次没做完的任务,这些都更像长期记忆。
Memory 为什么重要?
因为没有记忆的 Agent 每次都像第一次见你,执行连续任务会非常笨。
6. Reflection / Self-Correction:自我检查
这两个词常出现在更高级一点的 Agent 讨论里。
Reflection:先回看自己刚才的结果,判断有没有问题Self-Correction:发现问题后再修正
这有点像人做题时:
- 先写答案
- 再检查一遍
- 发现错了就修改
注意,这不代表模型真的拥有“意识”。
它更多是通过额外一轮提示和流程,让系统表现得更会复核。
7. Multi-Agent:多个 Agent 协作
Multi-Agent,就是多个智能体协作。
比如把一个复杂任务拆给不同角色:一个负责搜索资料,一个负责分析数据,一个负责写报告,一个负责审核输出。这有点像小团队分工。
它听起来很酷,但并不是越多 Agent 越高级。
在很多真实产品里,多智能体往往也会带来更高的成本、更复杂的协调、更长的延迟,以及更多的出错路径。
所以很多时候,能用简单 workflow 做好的事,不一定非要堆 multi-agent。
8. Sub-agent:大任务里被拆出来的“子执行者”
Sub-agent,就是 子智能体。
它通常出现在这样一种场景里:一个主 Agent 发现任务太复杂,于是把其中某一部分拆出去,交给更专门的执行者处理。
你可以把它想成团队分工:主 Agent 像项目经理,Sub-agent 像被拉来处理专项任务的同事。
比如用户说:
帮我做一份竞品分析,最后输出成演示稿。
主 Agent 可能会把它拆成三段:一个 sub-agent 去搜集竞品资料,一个 sub-agent 去提炼卖点和差异点,另一个 sub-agent 去整理成演示提纲。
为什么这个词现在会火?
因为很多复杂任务并不适合一个 Agent 从头干到尾。
拆成 sub-agent 之后,系统可以让不同子任务各自使用不同的 skill、不同的工具、不同的模型,甚至不同的输出格式。
更准确一点说,sub-agent 往往还意味着它有自己独立的一段上下文、有自己独立的指令边界,而且可能只被授权使用某些特定工具。
但它的代价也很明显:协调更复杂、成本更高、错误链条也更长。
所以 Sub-agent 可以理解成 Multi-Agent 的一个更具体落地形态:
不是抽象地说“多个智能体协作”,而是明确有主从关系、有任务拆分、有责任边界。
9. Copilot:副驾,而不是全自动驾驶
Copilot 这个词也很常见。它直译是 副驾驶。
为什么很多 AI 产品爱叫自己 copilot?
因为这个词传递的是一种产品定位:它不是完全替你做决定,而是更像辅助你完成工作,你仍然是主驾驶。
比如代码助手、办公助手、销售助手、设计助手,都常走 copilot 路线。
这通常意味着:AI 提建议、做初稿、帮执行部分动作,但关键决策仍由人把关。
第七部分:训练相关词汇,一次讲清大模型是怎么“学成”的
前面讲的更多是“模型怎么用”。
现在我们讲“模型怎么练出来”。
1. Training:训练
Training,训练,就是让模型通过大量数据不断调整参数的过程。
如果说使用阶段像考试答题,
那训练阶段就像长时间刷题、背知识、调方法。
2. Pretraining:预训练
Pretraining 是 预训练。
它指模型先在海量通用数据上进行大规模学习,形成一个通用底座。
这一步让模型获得语言模式、常识、基础知识、表达能力,以及某种泛化能力。
你可以把预训练理解成“先读完一整个巨型图书馆”。
3. Base Model:基础模型
Base Model 是基础模型。
它通常指刚完成预训练、但还没有被进一步“调教成适合对话和指令执行”的模型。
基础模型往往续写能力强、语言知识多,但不一定特别听话。
比如你问它一个问题,它可能继续补全文字,而不是规规矩矩回答。
4. Instruct Model:指令模型
Instruct Model,就是经过进一步训练后,更擅长“按人类指令做事”的模型。
它和 base model 的差别,可以理解为:base model 更像一个读书很多但不一定懂面试礼仪的人,instruct model 更像接受过任务表达训练、知道该怎么回应用户需求的人。
5. Fine-tuning:微调
Fine-tuning,微调,是在已有大模型基础上,用更具体的数据进一步训练,让它更适合某类任务或风格。
比如法律问答微调、医疗术语微调、某企业客服风格微调、某类代码任务微调。
这有点像一个已经受过通识教育的人,再去读某个专业方向。
6. SFT:监督微调
SFT 是 Supervised Fine-Tuning,监督微调。
简单说,就是拿一批“问题-好答案”示例继续训练模型,让它学会更符合预期的响应方式。
比如给它大量这样的示范:用户怎么问、理想答案怎么写、风格要怎样、输出格式怎么控制。
SFT 是很多对话模型走向“更好用”的关键一步。
7. RLHF:基于人类反馈的强化学习
RLHF 是 Reinforcement Learning from Human Feedback。
这个名字很长,但它的目标可以说得很直白:
不只是让模型会答,还要让它更符合人类偏好。
比如两段回答都不算错,但人通常会更喜欢更有帮助、更安全、更不冒犯、也更清楚的那一段。
那就可以通过人类反馈,逐渐把模型往这个方向推。
所以 RLHF 更像是在训练“回答风格、对齐方式、帮助程度”,而不只是训练事实知识。
8. Alignment:对齐
Alignment,对齐,是一个更大的概念。
它指的是:让模型的行为更符合人类意图、价值约束和使用目标。
所以你会看到很多讨论,比如模型有没有对齐、对齐得够不够、会不会太保守、会不会太容易被诱导。
对齐本质上是在回答一个问题:
这个强大的模型,最终会按什么方式来帮助人?
9. Distillation:蒸馏
Distillation,蒸馏,是把一个更大、更强的模型的能力,压缩迁移给一个更小、更便宜、更快的模型。
你可以把它想成“高手带徒弟”:大模型负责给出高质量示范,小模型学习这些示范,最终得到一个更轻量但还不错的版本。
这在端侧部署、低成本服务、特定场景优化里很常见。
这里特别要和一个很容易混淆的意思区分开:
很多人会把“把某个专家的经验、某个岗位的流程、某类重复工作的套路,整理成 AI 可以复用的能力”也直觉地叫成“蒸馏”。
这个说法在口语里能听懂,但如果按现在更主流的技术共识,它通常不算严格意义上的模型蒸馏。
更贴切地说,那种过程更像是在做 knowledge capture,也就是把人的经验捕捉下来;或者做 workflow abstraction,把流程抽象出来;再或者做 skill 沉淀,把做事方法打包成可复用能力;也可能是在做 prompt / system design,把规则写进提示和系统逻辑。
举个例子:
- “把一个资深客服的话术和判断步骤整理进客服助手里”
这更像经验沉淀、skill 封装或 workflow 设计 - “让一个 70B 大模型教一个 7B 小模型学会更像样地回答问题”
这才更接近技术上说的distillation
10. Open-source 和 Closed-source
这两个词几乎所有 AI 讨论里都会出现。
Open-source:开源,通常意味着模型权重、代码或相关组件开放程度更高Closed-source:闭源,通常由公司私有控制,外界只能通过产品或 API 使用
初学者常把“开源”误解成“免费”或“能力一定更弱”,这都不准确。
它主要是生态和开放方式的区别,不是单纯的强弱标签。
第八部分:为什么大家都在说 Reasoning Model、推理模型、思维链
1. Reasoning:这里说的不是数学定义,而是“更会分步骤思考”
这几年一个很热的词是 Reasoning Model,也就是大家常说的“推理模型”。
它通常指模型在复杂任务上更擅长分解问题、延迟下结论、多步分析、权衡不同条件,以及进行更长链条的任务求解。
你可以把它理解成:
不是只会快速接话,而是更擅长“把题目慢慢做出来”。
2. Chain of Thought:思维链
Chain of Thought,常缩写为 CoT。
最初它更准确地说,是一种 prompting 方法:
通过给模型示范中间推理步骤,诱导它也按步骤展开思考。
后来这个词被用得越来越广,很多人也会把它泛指为“分步骤思考”的方式。
所以在日常讨论里,你听到 CoT,大概率都可以先理解成“别急着直接下结论,先把推理步骤展开”。
它指的是让模型以分步骤的方式展开中间推理过程。
比如不是直接回答“结果是 A”,而是:
- 先分析条件一
- 再分析条件二
- 再比较选项
- 最后得出结论
这在复杂推理、数学、规划任务里常有帮助。
不过在实际产品里,用户不一定总会看到完整思维链。
因为很多系统会基于安全、效率、产品策略,只暴露结果或摘要,而不是全部中间过程。
3. Test-time Compute:把更多算力花在回答时
这个词近来很热。
它指的是在模型真正作答的时候,愿意投入更多计算资源,让它“多想一会儿”。
这背后的直觉很简单:不是所有问题都要秒回;对复杂问题,多花一点推理时间,可能会明显提升质量。
所以今天很多高阶模型的竞争,不只是“谁训练得大”,也包括“谁在回答时更会分配思考资源”。
第九部分:AI 产品和工程里最常见的那些词
前面你理解了模型、RAG、Tool、Agent,已经能看懂大部分讨论了。
但如果你继续往产品和工程方向走,还会常见下面这些词。
1. Latency:延迟
Latency 指用户发出请求到收到结果的耗时。
AI 产品里延迟特别关键,因为用户对“智能”的感知,很大程度也取决于“它到底等多久”。
一个再强的系统,如果每次都要等 30 秒,体验也会非常差。
2. Throughput:吞吐量
Throughput,吞吐量,指单位时间内系统能处理多少请求。
如果一个 AI 应用面向大量用户,就必须关注吞吐量。
不然模型再好,也可能一高峰就崩。
3. Cost:成本
AI 系统很多时候不是“能不能做”,而是“值不值这样做”。
成本来自很多地方,比如模型调用费用、向量检索费用、存储费用、工具调用费用,以及推理时长。
所以你会看到很多产品团队不断在平衡:到底要用更强模型还是更便宜模型,要全量长上下文还是分步检索,要单 Agent 还是多 Agent,要实时算还是预计算。
4. Evals:评测
Evals,评测,是 AI 产品里非常重要但经常被低估的一环。
因为 AI 不是传统程序,不是说“输出 1 就一定对,输出 0 就一定错”。
很多任务有模糊地带,所以你需要一套评估方法。
常见评测维度包括准确性、相关性、完整性、格式正确率、工具调用成功率、幻觉率,以及用户满意度。
一个 AI 产品做得稳不稳,很大程度看它有没有持续 eval。
5. Benchmark:基准测试
Benchmark 是 基准测试。
它通常指一套标准化任务集,用来比较不同模型或系统的表现。
比如:
- 数学能力 benchmark
- 代码能力 benchmark
- 多轮对话 benchmark
- 检索问答 benchmark
但要小心:benchmark 成绩高,不代表你的真实业务场景一定好用。
它更像标准化考试分数,不等于真实工作表现。
6. Guardrails:护栏
Guardrails,护栏,可以理解成 AI 系统的行为边界控制。
比如不允许回答违法内容,不允许执行高风险操作,输出前做敏感审查,或者要求金融、医疗建议必须加免责声明。
它就像高速公路边上的护栏,不负责帮你开车,但负责防止系统冲出边界。
7. Human in the Loop:人在回路中
这个词非常重要。
Human in the Loop 指的是:
系统不是完全自动化,而是在关键节点保留人的审核、确认、修改或接管。
很多成熟 AI 产品都不会追求“彻底无人值守”,而是会设计成:草稿由 AI 生成,关键动作由人确认,高风险输出由人审核。
这通常比“全自动”更现实,也更容易落地。
8. AI Native:AI 原生
AI Native 这几年很流行。
它通常不是说“产品里加了个聊天框”,而是:
这个产品从底层体验和核心价值上,就是围绕 AI 能力重新设计的。
比如它不是在传统文档软件里硬塞个“帮我润色”,而是让整个写作流程、检索方式、协作方式都围绕 AI 重构。
所以 AI Native 更像一种产品方法论,而不是单一功能标签。
第十部分:把今天最常见的 AI 词串成一条完整主线
现在我们把前面的词汇全连起来。
假设你正在使用一个“企业知识助手”,问它:
帮我总结一下公司报销制度里,出差住宿费用的最新标准,并给我列成三条要点。
背后可能发生的是:
- 你输入问题
- 这形成了一个
Prompt
- 这形成了一个
- 系统整理上下文
- 把系统规则、聊天历史、你的当前问题放进
Context
- 把系统规则、聊天历史、你的当前问题放进
- 系统判断要不要查知识库
- 因为这是公司内部制度,所以启动
RAG
- 因为这是公司内部制度,所以启动
- 知识库检索
- 先把问题做
Embedding - 去
Vector Database检索相关Chunk - 再用
Rerank选最相关片段
- 先把问题做
- 模型拿到资料开始回答
- 进入
Inference
- 进入
- 如果需要更多动作
- 模型可能触发
Tool Calling - 比如调用企业搜索、附件解析、表格工具
- 模型可能触发
- 如果系统把一些高频能力提前打包好
- 那你可以把这些模块理解成
Skill
- 那你可以把这些模块理解成
- 如果系统还负责权限、格式、重试、日志这些工程细节
- 那背后通常有一层
Harness
- 那背后通常有一层
- 如果这是一个更复杂任务
- 比如不只是总结,还要生成审批建议、拉取历史报销记录、生成邮件
- 那系统就更像一个
Agent
- 如果主 Agent 又把某个子任务拆给更专门的执行者
- 那这个子执行者就可以叫
Sub-agent
- 那这个子执行者就可以叫
- 如果它会长期记住你的岗位和偏好
- 那就涉及
Memory
- 那就涉及
- 如果整个过程分固定步骤编排
- 那就是
Workflow
- 那就是
- 如果多个角色分工协作
- 那就是
Multi-Agent
- 那就是
看到这里你会发现:
很多热门 AI 词其实不是互相替代,而是互相拼装。
LLM是大脑RAG是找资料Tool Calling是用工具Skill是打包好的专门能力Harness是把模型和工具接成稳定系统的执行支架Workflow是流程图Agent是带自主性的执行者Sub-agent是主 Agent 拆出去的子执行者Memory是持续记住事
一旦你有了这张地图,看到行业文章就不会再像看天书。
第十一部分:高频 AI 词汇速查表
下面给你一个适合收藏的简明版速查表。
如果前面是“故事版理解”,这里就是“复习版记忆”。
| 词汇 | 一句话解释 |
|---|---|
| AI | 人工智能的总称 |
| ML | 让机器从数据中学习规律 |
| DL | 以神经网络为核心的机器学习分支 |
| Neural Network | 模拟神经连接方式的模型结构 |
| Foundation Model | 通用能力很强的大底座模型 |
| LLM | 大语言模型,擅长处理和生成语言 |
| Multimodal | 能处理文本、图像、音频等多种模态 |
| Prompt | 给模型的任务说明 |
| Token | 模型处理文本的最小单元 |
| Context | 模型当前能看到的全部信息 |
| Context Window | 模型一次能容纳的上下文上限 |
| Inference | 模型接收输入后生成输出的过程 |
| Temperature | 控制输出随机性和发散度的参数 |
| Hallucination | 模型一本正经地编错内容 |
| Pretraining | 在海量通用数据上的预训练 |
| Base Model | 只完成基础训练的模型 |
| Instruct Model | 更会按人类指令响应的模型 |
| Fine-tuning | 在通用模型基础上进一步微调 |
| SFT | 用标注好的问答样本做监督微调 |
| RLHF | 基于人类反馈优化模型行为 |
| Alignment | 让模型更符合人类目标与约束 |
| Distillation | 把大模型能力压缩给小模型 |
| RAG | 先检索资料,再结合资料作答 |
| Embedding | 把文本变成可算相似度的向量 |
| Vector Database | 存储和检索向量的数据库 |
| Chunking | 把文档切成小片段用于检索 |
| Retrieval | 从知识库中检索相关内容 |
| Recall | 尽量不漏掉相关资料 |
| Precision | 尽量减少无关资料 |
| Rerank | 对候选检索结果再排序 |
| Tool Calling | 模型调用外部工具能力 |
| Function Calling | 以结构化方式调用函数 |
| API | 软件对外提供的标准调用接口 |
| Structured Output | 按固定格式输出结果 |
| Skill | 把某类任务经验和工具封装成可复用能力模块 |
| Harness | 把模型、工具、权限和执行规则接成稳定系统的支架层 |
| Workflow | 预先设计好的任务流程 |
| Agent | 能拆任务、调用工具并推进目标的系统 |
| Sub-agent | 被主 Agent 拆分出去处理子任务的子智能体 |
| Planning | 对任务先做步骤规划 |
| Memory | 系统对用户与任务信息的记忆能力 |
| Reflection | 回看并检查自己输出的过程 |
| Self-Correction | 发现问题后再修正 |
| Multi-Agent | 多个智能体分工协作 |
| Copilot | 以“副驾辅助”为定位的 AI 产品 |
| Reasoning Model | 更擅长多步分析和复杂求解的模型 |
| Chain of Thought | 分步骤展开推理的方式 |
| Latency | 响应延迟 |
| Throughput | 单位时间处理请求的能力 |
| Evals | AI 系统评测机制 |
| Benchmark | 标准化基准测试 |
| Guardrails | 防止系统越界的护栏机制 |
| Human in the Loop | 关键步骤保留人工参与 |
| AI Native | 从产品底层就围绕 AI 重构的形态 |
第十二部分:如果你是初学者,最值得先搞懂的是哪几个词
虽然这篇文章尽量覆盖得很全,但如果你今天只想先抓住骨架,最建议优先理解这 10 个词:
LLMPromptTokenContextHallucinationRAGEmbeddingTool CallingWorkflowAgent
为什么是这 10 个?
因为它们几乎能解释今天 80% 的 AI 产品讨论。
很多“新概念”其实只是这几件事的不同组合:
- 模型更强一点
- 检索更准一点
- 工具更多一点
- 流程更复杂一点
- 自主性更高一点
只要你先把这个骨架搭起来,后面再看别的词,比如:
- MCP
- Browser Agent
- Code Agent
- AI Search
- AI Workspace
- Deep Research
你都能迅速判断:
哦,它本质上是在“给模型加知识”“给模型加工具”“给模型加流程”“给模型加记忆”中的哪一种,或者是哪几种的组合。
最后总结:今天最火的 AI 词,真正该怎么理解
如果让我把全文压缩成几句话,我会这样说:
第一,LLM 是今天这波 AI 应用的核心大脑,但它不是万能的。
它擅长语言和泛化,不代表它天然掌握实时信息,也不代表它能直接操作现实世界。
第二,RAG 解决的是“去哪里拿知识”的问题。
它让模型从闭卷答题,变成开卷答题。
第三,Tool Calling 解决的是“怎么接外部能力”的问题。
它让模型不只是会说,还能查、能调、能执行。
第四,Agent 解决的是“怎么把任务推进下去”的问题。
它让 AI 从一句一句回复,升级为围绕目标连续行动。
第五,今天很多看起来很新的 AI 产品,本质上都不是单个神奇模型,而是:
模型 + 检索 + 工具 + 流程 + 记忆 + 评测
也就是说,AI 真正走向可用,从来不是靠一个热词单打独斗,而是靠整套系统协同。
如果你读到这里,已经不只是“认识几个词”了。
你其实已经搭起了一张理解当下 AI 产品世界的地图。
后面再看到什么新名词,不必先慌。
先问它三个问题就够了:
- 它是在解决“模型本身”的问题吗?
- 它是在解决“知识获取”的问题吗?
- 它是在解决“任务执行”的问题吗?
大多数答案,都会慢慢清楚起来。
AI 这波浪潮里,最容易让人焦虑的不是技术更新太快,而是名词更新太快。今天一个 Agent,明天一个 RAG,后天又来一个 Tool Calling,仿佛你只要没跟上词汇,就已经被时代甩下了。但现实是,绝大多数热门词并不是彼此割裂的新大陆,而是在描述同一套系统的不同部件。把这张地图看清之后,你会发现:AI 并没有想象中那么玄,它只是把“会说”“会查”“会调工具”“会分步骤做事”这些能力,一层一层叠加了起来。对初学者来说,真正重要的不是一次记住所有名词,而是先建立一套能不断吸收新概念的理解框架。
更多推荐



所有评论(0)