【Agents篇】02:Agent 的大脑——LLM 如何成为智能核心
LLM 是 Agent 的核心:提供语言理解、知识存储、推理规划等关键能力六大核心能力🗣️ 自然语言交互📚 知识存储与利用💾 记忆机制🤔 推理能力📋 规划能力🔄 泛化能力关键技术思维链(CoT)提升推理RAG 增强知识MemGPT 管理记忆ReAct 融合推理与行动Reflexion 实现自我改进。
在上一篇文章中,我们从宏观视角认识了 AI Agent 的整体架构。本文将深入 Agent 最核心的组件——大脑(Brain),探索大型语言模型(LLM)如何赋予 Agent 智能,成为驱动感知、决策、行动的核心引擎。
📑 文章目录
- 一. 引言:为什么 LLM 能成为 Agent 的大脑?
- 二. 自然语言交互能力
- 三. 知识存储与利用
- 四. 记忆机制
- 五. 推理与规划能力
- 六. 泛化与迁移能力
- 七. 主流 LLM 作为 Agent 大脑的对比
- 八. 总结与展望
- 参考文献
一. 引言:为什么 LLM 能成为 Agent 的大脑? 🧠
1.1 从"工具"到"大脑"的转变

在 AI Agent 的架构中,大脑(Brain) 是最核心的组件。它负责:
- 🗣️ 理解用户意图
- 📚 调用存储的知识
- 🤔 进行推理和规划
- 📝 生成行动指令
传统的 AI 系统通常针对特定任务设计专用算法,而 大型语言模型(LLM) 的出现带来了革命性的变化——它不仅是一个文本生成工具,更是一个通用的"认知引擎"。
┌─────────────────────────────────────────────────────────────────┐
│ Agent 的大脑架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 🧠 大脑 (Brain) │ │
│ │ 基于 LLM 构建 │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ │ │
│ │ ┌───────────┐ ┌───────────┐ ┌───────────┐ │ │
│ │ │ 🗣️ 语言 │ │ 📚 知识 │ │ 💾 记忆 │ │ │
│ │ │ 交互 │ │ 存储 │ │ 系统 │ │ │
│ │ └───────────┘ └───────────┘ └───────────┘ │ │
│ │ │ │
│ │ ┌───────────┐ ┌───────────┐ ┌───────────┐ │ │
│ │ │ 🤔 推理 │ │ 📋 规划 │ │ 🔄 泛化 │ │ │
│ │ │ 能力 │ │ 能力 │ │ 能力 │ │ │
│ │ └───────────┘ └───────────┘ └───────────┘ │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↕ │
│ ┌──────────┐ ┌──────────┐ │
│ │ 👁️ 感知 │ │ 🦾 行动 │ │
│ └──────────┘ └──────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
1.2 LLM 的涌现能力
LLM 之所以能够成为 Agent 的大脑,是因为它在大规模训练过程中展现出了多种涌现能力(Emergent Abilities)[1]:
| 涌现能力 | 描述 | 对 Agent 的意义 |
|---|---|---|
| 上下文学习 | 从少量示例中学习新任务 | 快速适应新环境 |
| 指令遵循 | 理解并执行复杂指令 | 精确完成用户任务 |
| 思维链推理 | 逐步推理复杂问题 | 处理多步骤任务 |
| 代码生成 | 生成可执行代码 | 使用工具和 API |
| 多语言理解 | 理解多种语言 | 跨语言交互 |
💡 思考:为什么模型规模增大后会出现这些涌现能力?
🤔 这与**相变(Phase Transition)**现象类似。当模型参数量达到某个临界点时,量变引发质变。就像水在100°C时突然沸腾,LLM 在参数量达到一定规模(通常是 100B+)后,突然展现出之前不具备的能力。这些能力并非显式编程实现,而是从海量数据中自然涌现。
二. 自然语言交互能力 🗣️
2.1 高质量生成
LLM 的核心能力之一是生成流畅、连贯、高质量的自然语言。这使得 Agent 能够:
- 与用户进行自然对话
- 生成报告、文档、代码
- 翻译和改写内容
评估维度[2]:
| 维度 | 描述 | 评估指标 |
|---|---|---|
| 流畅性 | 语言是否通顺自然 | Perplexity, 人工评分 |
| 连贯性 | 上下文是否一致 | 对话一致性得分 |
| 相关性 | 回复是否切题 | BLEU, ROUGE |
| 信息量 | 内容是否丰富有用 | 信息熵, 人工评分 |
# 示例:LLM 作为 Agent 大脑的文本生成
def agent_generate_response(user_input, context):
"""
Agent 大脑处理用户输入并生成响应
"""
prompt = f"""
你是一个智能助手。根据以下上下文和用户输入生成回复。
上下文: {context}
用户输入: {user_input}
请生成一个有帮助的回复:
"""
response = llm.generate(prompt)
return response
2.2 深度理解
除了生成能力,LLM 还具备深度理解能力,包括:
意图识别
用户: "帮我订一张明天去北京的机票"
↓ LLM 理解
意图: 预订机票
实体:
- 目的地: 北京
- 时间: 明天
- 数量: 1张
情感分析
用户: "这个产品太让我失望了!"
↓ LLM 理解
情感: 负面
强度: 强烈
原因: 产品不满意
隐含推理
用户: "外面在下雨,我要出门"
↓ LLM 推理
隐含需求: 可能需要雨伞
建议行动: 提醒用户带伞
2.3 心智理论(Theory of Mind)
更高级的 LLM 还展现出一定的心智理论能力——理解他人的信念、意图和情感状态[3]:
【场景】
小明告诉小红,他把礼物藏在了柜子里。
小红不在时,小明把礼物移到了抽屉里。
【问题】小红会去哪里找礼物?
【LLM 回答】
小红会去柜子里找,因为她不知道礼物已经被移动了。
这是基于她的信念(礼物在柜子里),而非实际情况。
⚠️ 注意:虽然 LLM 在某些心智理论测试中表现不错,但这种能力还不够稳健,可能只是模式匹配而非真正的心智理解[3]。
三. 知识存储与利用 📚
3.1 预训练知识
LLM 通过在海量文本上预训练,将知识"压缩"到模型参数中。这些知识包括:
┌─────────────────────────────────────────────────────────────────┐
│ LLM 中的知识类型 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 📖 语言知识 │ │ 🌍 常识知识 │ │ 🔧 操作知识 │ │
│ ├─────────────┤ ├─────────────┤ ├─────────────┤ │
│ │ • 语法规则 │ │ • 物理规律 │ │ • 编程技能 │ │
│ │ • 词义关系 │ │ • 社会常识 │ │ • 数学计算 │ │
│ │ • 句法结构 │ │ • 因果关系 │ │ • API 使用 │ │
│ │ • 语用习惯 │ │ • 时空概念 │ │ • 任务流程 │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │
│ ┌─────────────┐ ┌─────────────┐ │
│ │ 🏛️ 事实知识 │ │ 🎓 专业知识 │ │
│ ├─────────────┤ ├─────────────┤ │
│ │ • 历史事件 │ │ • 医学知识 │ │
│ │ • 地理信息 │ │ • 法律条文 │ │
│ │ • 人物关系 │ │ • 科学原理 │ │
│ │ • 当前事实 │ │ • 行业经验 │ │
│ └─────────────┘ └─────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
3.2 知识的局限性
尽管 LLM 存储了大量知识,但也存在明显局限[4]:
| 问题 | 描述 | 解决方案 |
|---|---|---|
| 知识截止 | 训练数据有时间截止点 | RAG、实时搜索 |
| 幻觉现象 | 生成看似合理但错误的内容 | 事实核查、引用来源 |
| 知识遗忘 | 难以更新或删除特定知识 | 知识编辑、微调 |
| 偏见问题 | 继承训练数据中的偏见 | 对齐、过滤 |
3.3 知识增强策略
为了克服这些局限,研究者提出了多种知识增强策略:
检索增强生成(RAG)[5]
┌──────────────────────────────────────────────────────────────┐
│ RAG 工作流程 │
├──────────────────────────────────────────────────────────────┤
│ │
│ 用户问题 │
│ │ │
│ ▼ │
│ ┌─────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Encoder │ ──▶ │ 向量数据库 │ ──▶ │ 相关文档 │ │
│ └─────────┘ │ (检索) │ │ Top-K │ │
│ └─────────────┘ └─────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ 用户问题 + ────▶ │ LLM │ │
│ 相关文档 │ (生成) │ │
│ └─────────────┘ │
│ │ │
│ ▼ │
│ 最终回答 │
│ │
└──────────────────────────────────────────────────────────────┘
工具调用
# Agent 通过工具获取实时知识
def get_current_weather(location):
"""调用天气 API 获取实时天气"""
response = weather_api.get(location)
return response
# LLM 识别需要调用工具
user_query = "今天北京天气怎么样?"
# LLM 输出: {"tool": "get_current_weather", "args": {"location": "北京"}}
知识编辑[6]
原始知识: 美国总统是特朗普
↓ 知识编辑
更新知识: 美国总统是拜登
四. 记忆机制 💾
4.1 记忆的必要性
人类的智能离不开记忆,Agent 同样需要记忆来:
- 保持对话连贯性
- 积累经验避免重复错误
- 建立用户偏好模型
- 存储长期知识
4.2 记忆类型
根据认知科学,我们可以将 Agent 的记忆分为几类[7]:
┌─────────────────────────────────────────────────────────────────┐
│ Agent 记忆系统 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 短期记忆 (Short-term Memory) │ │
│ │ ───────────────────────────── │ │
│ │ • 当前对话上下文 │ │
│ │ • 通过 LLM 的上下文窗口实现 │ │
│ │ • 容量有限 (4K - 200K tokens) │ │
│ │ • 会话结束后清空 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↕ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 长期记忆 (Long-term Memory) │ │
│ │ ───────────────────────────── │ │
│ │ • 持久化存储的历史信息 │ │
│ │ • 通过向量数据库 + RAG 实现 │ │
│ │ • 需要检索机制 │ │
│ │ • 跨会话保持 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↕ │
│ ┌───────────────────────────┐ ┌───────────────────────────┐ │
│ │ 情景记忆 (Episodic) │ │ 程序记忆 (Procedural) │ │
│ │ ──────────── │ │ ────────────── │ │
│ │ • 特定事件的记录 │ │ • 学到的技能和流程 │ │
│ │ • "上周二的会议内容" │ │ • "如何预订机票" │ │
│ └───────────────────────────┘ └───────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
4.3 扩展上下文长度
LLM 的上下文窗口是短期记忆的物理限制。研究者提出了多种扩展方法:
| 方法 | 描述 | 代表工作 |
|---|---|---|
| 位置编码改进 | 使用 RoPE、ALiBi 等 | LongT5, LLaMA |
| 稀疏注意力 | 只关注关键位置 | Longformer, BigBird |
| 记忆压缩 | 将历史压缩为摘要 | MemGPT[8], RecurrentGPT |
| 分层记忆 | 多层级记忆管理 | Generative Agents[9] |
4.4 MemGPT:将 LLM 当作操作系统
MemGPT[8] 是一个创新的记忆管理方案,它把 LLM 当作操作系统来设计:
┌─────────────────────────────────────────────────────────────────┐
│ MemGPT 架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 主上下文窗口 │ │
│ │ (类似 CPU 寄存器) │ │
│ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ │ │系统提示 │ │工作记忆 │ │ FIFO队列│ │ │
│ │ └─────────┘ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↑↓ 页面调度 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 外部记忆存储 (类似 RAM/Disk) │ │
│ │ ┌─────────────────┐ ┌─────────────────┐ │ │
│ │ │ 回忆存储 │ │ 档案存储 │ │ │
│ │ │ (对话历史) │ │ (长期知识) │ │ │
│ │ └─────────────────┘ └─────────────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
│ 核心操作: memory_search() | memory_insert() | memory_update() │
│ │
└─────────────────────────────────────────────────────────────────┘
代码示例:
# MemGPT 风格的记忆管理
class AgentMemory:
def __init__(self, llm, context_limit=8000):
self.llm = llm
self.context_limit = context_limit
self.working_memory = [] # 工作记忆
self.long_term_db = VectorDB() # 长期记忆
def process_message(self, user_message):
# 1. 检索相关长期记忆
relevant_memories = self.long_term_db.search(user_message)
# 2. 组装上下文
context = self.build_context(relevant_memories)
# 3. 生成回复
response = self.llm.generate(context + user_message)
# 4. 更新记忆
self.update_memories(user_message, response)
return response
def update_memories(self, user_msg, response):
# 添加到工作记忆
self.working_memory.append((user_msg, response))
# 如果工作记忆过长,压缩并存入长期记忆
if self.get_context_length() > self.context_limit * 0.8:
summary = self.llm.summarize(self.working_memory[:5])
self.long_term_db.insert(summary)
self.working_memory = self.working_memory[5:]
五. 推理与规划能力 🤔
5.1 推理能力
推理是 Agent 解决复杂问题的关键能力。LLM 展现出多种推理能力:
思维链(Chain-of-Thought)[10]
【问题】
一家商店有 127 个苹果。卖掉了 45 个后,又进货了 38 个。
现在商店有多少个苹果?
【普通回答】
120 个。(错误)
【思维链回答】
让我一步步计算:
1. 初始数量:127 个苹果
2. 卖掉后:127 - 45 = 82 个
3. 进货后:82 + 38 = 120 个
所以现在有 120 个苹果。
自我一致性(Self-Consistency)[11]
┌─────────────────────────────────────────────────────────────────┐
│ 自我一致性推理 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 问题 │
│ │ │
│ ┌───────┼───────┐ │
│ ▼ ▼ ▼ │
│ 路径1 路径2 路径3 ... (采样多条推理路径) │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ 答案A 答案A 答案B │
│ │ │ │ │
│ └───────┼───────┘ │
│ ▼ │
│ 多数投票 → 最终答案A │
│ │
└─────────────────────────────────────────────────────────────────┘
思维树(Tree-of-Thoughts)[12]
[问题]
│
┌─────────────┼─────────────┐
▼ ▼ ▼
[思路A] [思路B] [思路C]
│ │ │
评估:0.3 评估:0.8 评估:0.5
│ │ │
× ┌────┴────┐ │
▼ ▼ ▼
[B-1] [B-2] [C-1]
│ │ │
评估:0.9 评估:0.4 评估:0.6
│ │ │
▼ × ×
[最终答案]
5.2 规划能力
规划是将复杂任务分解为可执行步骤的能力。
ReAct:推理与行动的交织[13]
【任务】帮我查一下特斯拉最新的股价,并分析近期走势
思考(Thought): 用户想了解特斯拉股价,我需要先获取实时数据
行动(Action): search_stock("TSLA")
观察(Observation): TSLA 当前价格 $245.32,今日涨幅 +2.1%
思考(Thought): 获取了当前价格,还需要查看近期走势
行动(Action): get_stock_history("TSLA", days=30)
观察(Observation): 近30天走势:最高$268,最低$220,波动较大
思考(Thought): 数据已获取完整,可以生成分析报告
行动(Action): generate_report(current_price, history)
观察(Observation): 报告生成完成
最终回答: 特斯拉(TSLA)当前股价为$245.32,今日上涨2.1%...
Plan-and-Execute 模式
┌─────────────────────────────────────────────────────────────────┐
│ Plan-and-Execute 模式 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 【用户任务】帮我写一篇关于量子计算的博客 │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 规划阶段 (Planner) │ │
│ │ 1. 搜索量子计算基础知识 │ │
│ │ 2. 整理知识框架 │ │
│ │ 3. 查找最新研究进展 │ │
│ │ 4. 撰写博客初稿 │ │
│ │ 5. 润色和发布 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 执行阶段 (Executor) │ │
│ │ 步骤1 ──▶ 步骤2 ──▶ 步骤3 ──▶ 步骤4 ──▶ 步骤5 │ │
│ │ │ │ │
│ │ └──── 如果失败,反馈给 Planner 重新规划 ──────────── │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
5.3 自我反思与改进
高级 Agent 还具备自我反思能力,能从错误中学习[14]:
# Reflexion 机制示例
class ReflexionAgent:
def solve_task(self, task):
for attempt in range(max_attempts):
# 尝试解决任务
solution = self.attempt_solution(task)
# 评估结果
result = self.evaluate(solution)
if result.success:
return solution
# 反思失败原因
reflection = self.reflect(task, solution, result.feedback)
# 将反思存入记忆,下次避免同样错误
self.memory.add_reflection(reflection)
return None
六. 泛化与迁移能力 🔄
6.1 零样本泛化
经过指令微调的 LLM 能够在没有任何示例的情况下完成新任务[15]:
【指令微调效果】
训练任务:翻译、摘要、问答...
↓
测试任务(从未见过):写诗
用户: 请写一首关于春天的五言绝句
LLM: 春风拂绿柳,
细雨润红花。
燕舞莺啼处,
人间四月家。
6.2 上下文学习(In-Context Learning)
LLM 能够从提示中的少量示例学习新任务[16]:
【Few-shot 学习示例】
输入: 将以下句子翻译成文言文
示例1:
现代文: 我今天很高兴
文言文: 吾今日甚悦
示例2:
现代文: 你在做什么
文言文: 汝何为
问题:
现代文: 明天我要去北京
文言文: ?
LLM输出: 明日吾将往京师
6.3 持续学习
Agent 需要在部署后不断学习新知识,而不遗忘旧知识[17]:
┌─────────────────────────────────────────────────────────────────┐
│ 持续学习的挑战 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 任务1 ──▶ 学习 ──▶ 任务2 ──▶ 学习 ──▶ 任务3 ──▶ 学习 │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ [灾难性遗忘] [知识干扰] [能力退化] │
│ │
│ 解决方案: │
│ • 弹性权重巩固 (EWC) │
│ • 渐进式提示 (Progressive Prompts) │
│ • 经验回放 (Experience Replay) │
│ • 技能库 (Skill Library) - 如 Voyager │
│ │
└─────────────────────────────────────────────────────────────────┘
七. 主流 LLM 作为 Agent 大脑的对比 📊
不同的 LLM 在作为 Agent 大脑时各有优劣:
| 模型 | 参数量 | 上下文长度 | 推理能力 | 工具调用 | 适用场景 |
|---|---|---|---|---|---|
| GPT-4o | ~1.8T | 128K | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 复杂推理、多模态 |
| Claude 3.5 | ~175B | 200K | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 长文档、安全场景 |
| Gemini 1.5 | ~1T | 1M | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 超长上下文 |
| Llama 3.1 | 8B-405B | 128K | ⭐⭐⭐⭐ | ⭐⭐⭐ | 本地部署、定制化 |
| DeepSeek | 67B | 64K | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 性价比、中文 |
| Qwen 2.5 | 0.5B-72B | 128K | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 中文、多尺寸 |
选择建议
┌─────────────────────────────────────────────────────────────────┐
│ 如何选择 Agent 的大脑? │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 复杂推理任务 ────────▶ GPT-4o / Claude 3.5 Opus │
│ │
│ 长文档处理 ──────────▶ Claude 3.5 / Gemini 1.5 │
│ │
│ 预算有限 ────────────▶ DeepSeek / Qwen 2.5 │
│ │
│ 本地部署 ────────────▶ Llama 3.1 / Qwen 2.5 │
│ │
│ 中文场景 ────────────▶ DeepSeek / Qwen 2.5 / GLM-4 │
│ │
│ 多模态需求 ──────────▶ GPT-4o / Gemini 1.5 / Qwen-VL │
│ │
└─────────────────────────────────────────────────────────────────┘
八. 总结与展望 🚀
8.1 核心要点回顾
-
LLM 是 Agent 的核心:提供语言理解、知识存储、推理规划等关键能力
-
六大核心能力:
- 🗣️ 自然语言交互
- 📚 知识存储与利用
- 💾 记忆机制
- 🤔 推理能力
- 📋 规划能力
- 🔄 泛化能力
-
关键技术:
- 思维链(CoT)提升推理
- RAG 增强知识
- MemGPT 管理记忆
- ReAct 融合推理与行动
- Reflexion 实现自我改进
8.2 当前挑战
| 挑战 | 描述 | 研究方向 |
|---|---|---|
| 幻觉问题 | 生成错误但自信的内容 | 事实核查、RLHF |
| 推理不稳定 | 同一问题不同答案 | 自我一致性、验证器 |
| 长期记忆 | 难以有效管理大量记忆 | 分层记忆、压缩技术 |
| 复杂规划 | 多步骤任务易出错 | 分层规划、反思机制 |
| 成本与延迟 | API 调用成本高、响应慢 | 模型蒸馏、缓存 |
8.3 未来展望
- 更强的推理能力:通过强化学习和自我对弈提升
- 更长的记忆:突破上下文限制,实现真正的长期记忆
- 更好的泛化:少样本甚至零样本完成新任务
- 更低的成本:小模型通过蒸馏获得大模型能力
- 更安全可控:更好的对齐和安全机制
💡 思考:LLM 作为 Agent 大脑的终极形态是什么?
🤔 或许是一个能够像人类大脑一样,持续学习、自主推理、具备常识和情感理解的通用智能系统。我们正在这条道路上不断前进。
参考文献
[1] Wei, J., et al. “Emergent Abilities of Large Language Models.” TMLR, 2022. [paper]
[2] Lin, Y.T., et al. “LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models.” arXiv, 2023. [paper]
[3] Shapira, N., et al. “Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models.” arXiv, 2023. [paper]
[4] AlKhamissi, B., et al. “A Review on Language Models as Knowledge Bases.” arXiv, 2022. [paper]
[5] Lewis, P., et al. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” NeurIPS, 2020. [paper]
[6] De Cao, N., et al. “Editing Factual Knowledge in Language Models.” arXiv, 2021. [paper]
[7] Xi, Z., et al. “The Rise and Potential of Large Language Model Based Agents: A Survey.” arXiv, 2023. [paper]
[8] Packer, C., et al. “MemGPT: Towards LLMs as Operating Systems.” arXiv, 2023. [paper]
[9] Park, J.S., et al. “Generative Agents: Interactive Simulacra of Human Behavior.” arXiv, 2023. [paper]
[10] Wei, J., et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” NeurIPS, 2022. [paper]
[11] Wang, X., et al. “Self-Consistency Improves Chain of Thought Reasoning in Language Models.” arXiv, 2022. [paper]
[12] Yao, S., et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models.” arXiv, 2023. [paper]
[13] Yao, S., et al. “ReAct: Synergizing Reasoning and Acting in Language Models.” arXiv, 2022. [paper]
[14] Shinn, N., et al. “Reflexion: Language Agents with Verbal Reinforcement Learning.” arXiv, 2023. [paper]
[15] Sanh, V., et al. “Multitask Prompted Training Enables Zero-Shot Task Generalization.” ICLR, 2022. [paper]
[16] Brown, T., et al. “Language Models are Few-Shot Learners.” NeurIPS, 2020. [paper]
[17] Wang, L., et al. “A Comprehensive Survey of Continual Learning: Theory, Method and Application.” arXiv, 2023. [paper]
📌 下一篇预告:【Agents篇】03:Agent 的记忆系统——从短期到长期记忆的实现
我们将深入探讨 Agent 如何构建和管理记忆系统,包括向量数据库、RAG、记忆检索等关键技术。
本文是「Agents 专栏」系列的第 2 篇,欢迎关注专栏获取更新!
更多推荐

所有评论(0)