文章摘要:本文系统梳理了AI Agent领域的42个核心概念,构建了从基础到进阶的完整知识框架。全文分为八大模块:一、核心基础架构(Model、Scaffolding、Harness等7个组件)定义了Agent的构成要素;二、执行流程与决策范式(ReAct、Plan-and-Execute等4种模式)揭示了Agent的思考方式;三、上下文、知识与记忆(Context、Memory、RAG等6个概念)构建了Agent的信息底盘;四、RAG与检索技术细节(Query改写、混合检索等6项技术)深入知识检索工程;五、工具、协议与技能(MCP、Skill等4个接口)标准化了Agent的外部能力接入;六、工程方法与系统设计(Agent Engineering、Loop Engineering等6个工程学科)确保Agent稳定运行;七、评估与度量(评价标准、SWE-bench等3个维度)量化Agent性能;八、演进方向与高级能力(Agentic AI、自我进化等6个前沿方向)展望Agent未来形态。本文旨在为读者提供结构化的AI Agent知识地图,帮助快速掌握这一领域的核心概念与技术脉络。

一、核心基础架构(从 Model 到 Agent)

这一层解释 Agent 由哪些“零件”构成,以及这些零件如何一层层组装起来。

1. Model(模型)

  • 解释:指裸的大语言模型本身,如 Claude、GPT、Qwen、DeepSeek 等。它只负责“文本进、文本出”,本身没有记忆、没有循环、不会主动行动。
  • 大白话:Model 就是那个“光动嘴不动手”的大脑。它能表达意图,但真正去执行需要别人帮它。

2. Scaffolding(脚手架)

  • 解释:指模型在推理时所“看到”的一切,包括系统提示词、工具描述、输出格式约束等。它塑造了模型的行为边界,但不负责运行逻辑。
  • 大白话:Scaffolding 就是给模型看的“剧本”和“道具清单”。告诉它“你是谁、你能用什么、你要怎么回答”。

3. Harness(驾驭引擎)

  • 解释:Harness 是真正让模型“跑起来”的执行引擎。它负责循环调用模型、处理模型返回的工具调用请求、判断任务是否完成、控制停止条件。
  • 大白话:Harness 就是那个“喊 Action 的导演”。整个 Agent 的“发动机”就是 Harness。
  • 精确公式:Agent = Model + Scaffolding + Harness。

4. Tools(工具)

  • 解释:Agent 的外部执行能力封装。LLM 只负责“说要做什么”,Tools 负责“真正去做”。包括查询数据库、调用接口、读写文件、执行代码等。

5. Orchestrator(编排器 / 指挥家)

  • 解释:负责把多个 Agent 当作单元来调度的更高层级组件。它解决的核心问题是:如何拆解顶层任务、决定下一个该哪个 Agent 行动、并把结果组合成连贯输出。
  • 大白话:如果说 Harness 是一个“单兵作战系统”,那 Orchestrator 就是“指挥官”——它不自己打仗,而是决定派哪个兵、用什么战术。

6. Agent(智能体)

  • 解释:由 Model、Scaffolding、Harness 和 Tools 共同构成的完整系统。它能够理解目标、拆解任务、调用工具、观察结果、持续修正,并最终完成任务。

7. Chatbot(聊天机器人)

  • 解释:主要基于上下文生成回答的系统,不具备主动任务执行能力。
  • 与 Agent 的区别:Agent 围绕目标进行任务执行,Chatbot 围绕对话进行回复生成。

二、执行流程与决策范式(Agent 如何思考与行动)

这一层解释 Agent 内部的工作模式:是“边想边做”还是“先想后做”?如何反思和纠错?

8. Agent Loop(智能体循环)

  • 解释:Agent 的核心运行机制,是一个不断重复的“思考 → 行动 → 观察 → 修正”循环,直到任务完成。

9. ReAct(推理-行动模式)

  • 解释:全称 Reasoning + Acting。流程是:思考(Reasoning)→ 行动(Action)→ 观察(Observation)→ 重复。Agent 在每一步都先想清楚再动手。

10. Plan-and-Execute(规划-执行模式)

  • 解释:先将任务分解为规划阶段和执行阶段。planner agent 生成详细任务规划,executor agent 逐步执行。
  • 大白话:ReAct 像“摸着石头过河”,走一步看一步;Plan-and-Execute 像“先看地图再出发”。

11. Reflection(反思模式)

  • 解释:Agent 在完成任务后或执行过程中,对自身行为进行自我评估和修正的模式。它会检查自己的输出、发现错误、调整策略,然后重新执行。
  • 大白话:让 Agent 有“复盘”能力——做完后自己检查“我做对了吗?有没有更好的做法?”

三、上下文、知识与记忆(Agent 的信息底盘)

这一层解释 Agent “知道什么”以及“怎么记住”:从短期会话到长期画像,从向量检索到知识图谱。

12. Context(上下文)

  • 解释:本轮真正喂给模型的信息,包括系统规则、用户任务、对话历史、工具结果、RAG 检索内容等。Memory 只有经过检索、筛选、压缩后,才会成为本轮 Context。

13. Context Engineering(上下文工程)

  • 解释:系统性地管理和优化模型在决策时所能“看到”的全部信息。包括动态管理系统提示词、工具描述、对话历史、检索到的知识等。
  • 大白话:Prompt Engineering 是“写好这一句指令”,Context Engineering 是“管好模型每一步能看到的所有信息”。

14. Memory(记忆)

  • 总体解释:Agent 的外部信息存储系统,独立于当前会话存在。
  • 工作记忆:保存当前任务目标、任务计划、当前步骤、中间结果、错误信息(存 Redis 或 DB)。
  • 会话记忆:保存当前会话中的对话历史、工具调用记录(存 DB,可压缩为摘要)。
  • 长期记忆:保存用户画像、项目背景、历史决策、业务规则(存 DB + 向量库)。
  • 用户画像:长期记忆的一部分,保存用户基本信息、长期目标、偏好、专业方向。

15. RAG(检索增强生成)

  • 解释:在 Agent 中负责外部知识补充,让 Agent 在回答或决策前先检索可靠资料,解决模型知识不足、过时或缺乏企业内部数据的问题。
  • 核心流程:查询理解 → 检索 → 重排 → 上下文组装 → LLM 生成。

16. 知识图谱(Knowledge Graph)

  • 解释:用图结构组织知识的方式,核心由实体、关系、属性和来源证据组成。适合做关系查询、多跳推理和可解释问答。

17. World Model(世界模型)

  • 解释:试图让 AI 理解物理世界运行规律(如物体交互、因果关系)的模型。它让 AI 不仅能理解语言,还能“想象”和“预测”世界的状态。
  • 大白话:LLM 是“读过很多书的理论家”,World Model 是“亲自观察过世界运行的实验家”。

四、RAG 与检索技术细节(让知识找得到、用得好)

这一层专门展开 RAG 内部的工程细节,属于 Context Engineering 在知识检索维度的具体落地。

18. Query 改写(Query Rewriting)

  • 解释:在检索前对用户问题做预处理,包括意图识别、问题补全、指代消解、同义词扩展、多 Query 生成。
  • 稳妥做法:保留 original query 与 rewritten query 做多路召回,避免改写跑偏。

19. 混合检索(Hybrid Search / Mixed Retrieval)

  • 解释:向量检索(语义匹配)+ 关键词检索(BM25,精确匹配)结合。工具名、参数名、错误码等依赖精确匹配,自然语言问题依赖语义匹配,两者互补。

20. Rerank(重排)

  • 解释:召回阶段尽量找全(TopN 较大),重排阶段把最相关的内容排到前面(TopK 较小)。
  • 工程权衡:会增加延迟,可通过控制 TopN、缓存、轻量规则排序等方式优化。

21. 切片策略(Chunking Strategy)

  • 常见策略:固定长度切片(带 overlap)、标题/章节切片、递归切片、语义切片、父子切片(小 Chunk 检索,大 Chunk 提供上下文)。

22. Embedding 与向量数据库(Vector DB)

  • Embedding:将文本转换成向量,让语义相近的内容在向量空间中距离更近。
  • 向量数据库选型建议:中小规模用 pgvector(与 PostgreSQL 集成简单,成本低);大规模高并发用 Milvus(检索性能强,扩展性好)。

23. HyDE(假设文档嵌入)

  • 解释:一种 query 改写技术,先让 LLM 生成一个“假设答案”,再用这个假设答案去做向量检索。
  • 大白话:不知道该怎么搜时,先猜答案可能长什么样,拿猜的内容去搜。

五、工具、协议与技能(Agent 的手脚和接口)

这一层解释 Agent 如何“动手”做事,以及如何标准化地接入外部能力。

24. MCP(模型上下文协议)

  • 解释:基于 JSON-RPC 的一套标准化接入规范,将工具、数据源和服务统一封装成 MCP Server,让 Agent 通过 MCP Client 统一发现和调用。
  • 传输方式:stdio(本地)、SSE(早期远程)、HTTP(现代远程)。

25. Skill(技能)

  • 解释:把流程固定、重复性强的一类任务封装起来的“任务方法包”。包含 SKILL.md(元数据+执行流程)、scripts、templates 等。
  • 加载方式:渐进式加载,启动时只加载名称和描述,命中后再加载完整内容。

26. A2A(代理间协议)

  • 解释:由 Google 提出,定义不同 Agent 之间如何通信和协作的开放标准,实现跨平台、跨组织的 Agent 互联互通。

27. OpenClaw

  • 解释:基于 MCP 协议的具体应用,能听懂自然语言指令、自主学习和执行任务的“数字员工”。
  • 大白话:如果说 MCP 是“万能插座”标准,那 OpenClaw 就是“插上就能用的家电”。

六、工程方法与系统设计(让 Agent 稳定跑起来)

这一层从软件工程视角出发,解释如何将不稳定的 LLM 系统构建为可靠的生产级产品。

28. Agent Engineering(智能体工程)

  • 解释:将非确定性的 LLM 系统迭代优化为可靠的生产体验的过程。循环为:构建 → 测试 → 上线 → 观测 → 优化 → 重复。

29. Harness Engineering(驾驭工程)

  • 解释:区别于具体的 Harness 引擎,Harness Engineering 是构建这个引擎的工程学科,关注如何设计让模型安全、稳定、可控地运行的系统外壳。

30. Loop Engineering(循环工程)

  • 解释:专注于设计 Agent 执行循环的进入条件、退出条件、错误恢复、循环次数控制,避免陷入“死循环”(doom loop)。
  • 大白话:设计这个循环怎么开始、怎么结束、卡住了怎么办。

31. Environment Engineering(环境工程)

  • 解释:通过将系统的“环境接口”重写为对 Agent 友好的结构化形态,使 Agent 更容易成功。
  • 大白话:与其费力训练一个司机在烂路上开车,不如先把路修好。修路的收益大于训练司机。

32. Workflow(工作流)

  • 解释:一种预定义的、确定性的自动化流程,所有执行路径在设计阶段就已固定,适合标准化业务流程。

33. Agentic Workflow(代理式工作流)

  • 解释:由 Agent 自主驱动的工作流。执行路径由 Agent 在运行时根据目标动态生成和调整,而非预先固定。

七、评估与度量(怎么判断 Agent 好不好)

这一层解释评价标准:从传统的 AI 指标到面向业务和规模的新度量。

34. Agent 评价标准(Evaluation Metrics)

  • 六个核心维度
    1. 任务完成率
    2. 准确性
    3. 稳定性
    4. 安全可控性
    5. 效率与成本
    6. 用户体验

35. SWE-bench

  • 解释:一个评估 Agent 编程能力的基准测试。给 Agent 一个真实开源项目的 issue,Agent 分析仓库并生成 patch,在 Docker 隔离环境中运行测试,通过则视为 resolved。

36. DAA(日活智能体数)

  • 解释:由百度创始人李彦宏提出,认为这是衡量 AI 时代产品价值的核心指标,类似于互联网时代的 DAU(日活跃用户数)。
  • 大白话:互联网时代比“每天有多少用户在用”;AI 时代比“每天有多少 AI 智能体在跑”。

八、演进方向与高级能力(Agent 的未来形态)

这一层讨论 Agent 正在向什么方向进化:更自主、更聪明、能自己付钱、能自我进化。

37. Agentic AI(代理式人工智能)

  • 解释:比单个 AI Agent 更高阶的概念,指具备目标驱动、自主决策、长期规划和持续学习能力的 AI 系统。
  • 大白话:AI Agent 是“能干活的数字员工”,Agentic AI 是“能自己定 KPI、自己拆任务、自己复盘”的数字高管。

38. Self-Improving / Learning Agent(自我进化/学习型智能体)

  • 解释:能够通过与环境和用户的持续交互,总结经验、反思失败、更新自身策略,从而不断提升能力的 Agent。

39. Agentic Memory(智能体记忆)

  • 解释:为了进行长期规划和个性化服务而具备的持久化记忆能力,超越简单对话历史,能存储和调用用户偏好、任务状态、历史经验等。

40. Agentic Payment Protocol(智能体支付协议)

  • 解释:由中国信通院提出,旨在解决 Agent 在自主执行任务(如代表用户购物、订票)时,如何进行授权、支付和结算的问题。

41. MIA(记忆智能体)

  • 解释:Memory Intelligence Agent,面向深度研究场景,是一个持续运行的 Planning–Execution–Memory 闭环系统,任务经验会不断沉淀反哺后续决策。
  • 大白话:普通 Agent 是“做完就忘”,MIA 是“越做越聪明”。

42. Token(词元)

  • 解释:AI 处理信息的最小计量单位。国家数据局已将其官方中文译名定为“词元”。
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐