在上一篇文章中,我们从宏观视角认识了 AI Agent 的整体架构。本文将深入 Agent 最核心的组件——大脑(Brain),探索大型语言模型(LLM)如何赋予 Agent 智能,成为驱动感知、决策、行动的核心引擎。

📑 文章目录


一. 引言:为什么 LLM 能成为 Agent 的大脑? 🧠

1.1 从"工具"到"大脑"的转变

在这里插入图片描述

在 AI Agent 的架构中,大脑(Brain) 是最核心的组件。它负责:

  • 🗣️ 理解用户意图
  • 📚 调用存储的知识
  • 🤔 进行推理和规划
  • 📝 生成行动指令

传统的 AI 系统通常针对特定任务设计专用算法,而 大型语言模型(LLM) 的出现带来了革命性的变化——它不仅是一个文本生成工具,更是一个通用的"认知引擎"。

┌─────────────────────────────────────────────────────────────────┐
│                    Agent 的大脑架构                               │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                    🧠 大脑 (Brain)                        │   │
│   │                    基于 LLM 构建                          │   │
│   ├─────────────────────────────────────────────────────────┤   │
│   │                                                           │   │
│   │  ┌───────────┐  ┌───────────┐  ┌───────────┐            │   │
│   │  │ 🗣️ 语言   │  │ 📚 知识   │  │ 💾 记忆   │            │   │
│   │  │   交互    │  │   存储    │  │   系统    │            │   │
│   │  └───────────┘  └───────────┘  └───────────┘            │   │
│   │                                                           │   │
│   │  ┌───────────┐  ┌───────────┐  ┌───────────┐            │   │
│   │  │ 🤔 推理   │  │ 📋 规划   │  │ 🔄 泛化   │            │   │
│   │  │   能力    │  │   能力    │  │   能力    │            │   │
│   │  └───────────┘  └───────────┘  └───────────┘            │   │
│   │                                                           │   │
│   └─────────────────────────────────────────────────────────┘   │
│                              ↕                                    │
│         ┌──────────┐                ┌──────────┐                 │
│         │ 👁️ 感知 │                │ 🦾 行动  │                 │
│         └──────────┘                └──────────┘                 │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

1.2 LLM 的涌现能力

LLM 之所以能够成为 Agent 的大脑,是因为它在大规模训练过程中展现出了多种涌现能力(Emergent Abilities)[1]:

涌现能力 描述 对 Agent 的意义
上下文学习 从少量示例中学习新任务 快速适应新环境
指令遵循 理解并执行复杂指令 精确完成用户任务
思维链推理 逐步推理复杂问题 处理多步骤任务
代码生成 生成可执行代码 使用工具和 API
多语言理解 理解多种语言 跨语言交互

💡 思考:为什么模型规模增大后会出现这些涌现能力?

🤔 这与**相变(Phase Transition)**现象类似。当模型参数量达到某个临界点时,量变引发质变。就像水在100°C时突然沸腾,LLM 在参数量达到一定规模(通常是 100B+)后,突然展现出之前不具备的能力。这些能力并非显式编程实现,而是从海量数据中自然涌现。


二. 自然语言交互能力 🗣️

2.1 高质量生成

LLM 的核心能力之一是生成流畅、连贯、高质量的自然语言。这使得 Agent 能够:

  • 与用户进行自然对话
  • 生成报告、文档、代码
  • 翻译和改写内容

评估维度[2]:

维度 描述 评估指标
流畅性 语言是否通顺自然 Perplexity, 人工评分
连贯性 上下文是否一致 对话一致性得分
相关性 回复是否切题 BLEU, ROUGE
信息量 内容是否丰富有用 信息熵, 人工评分
# 示例:LLM 作为 Agent 大脑的文本生成
def agent_generate_response(user_input, context):
    """
    Agent 大脑处理用户输入并生成响应
    """
    prompt = f"""
    你是一个智能助手。根据以下上下文和用户输入生成回复。
    
    上下文: {context}
    用户输入: {user_input}
    
    请生成一个有帮助的回复:
    """
    
    response = llm.generate(prompt)
    return response

2.2 深度理解

除了生成能力,LLM 还具备深度理解能力,包括:

意图识别

用户: "帮我订一张明天去北京的机票"
↓ LLM 理解
意图: 预订机票
实体: 
  - 目的地: 北京
  - 时间: 明天
  - 数量: 1张

情感分析

用户: "这个产品太让我失望了!"
↓ LLM 理解
情感: 负面
强度: 强烈
原因: 产品不满意

隐含推理

用户: "外面在下雨,我要出门"
↓ LLM 推理
隐含需求: 可能需要雨伞
建议行动: 提醒用户带伞

2.3 心智理论(Theory of Mind)

更高级的 LLM 还展现出一定的心智理论能力——理解他人的信念、意图和情感状态[3]:

【场景】
小明告诉小红,他把礼物藏在了柜子里。
小红不在时,小明把礼物移到了抽屉里。

【问题】小红会去哪里找礼物?

【LLM 回答】
小红会去柜子里找,因为她不知道礼物已经被移动了。
这是基于她的信念(礼物在柜子里),而非实际情况。

⚠️ 注意:虽然 LLM 在某些心智理论测试中表现不错,但这种能力还不够稳健,可能只是模式匹配而非真正的心智理解[3]。


三. 知识存储与利用 📚

3.1 预训练知识

LLM 通过在海量文本上预训练,将知识"压缩"到模型参数中。这些知识包括:

┌─────────────────────────────────────────────────────────────────┐
│                    LLM 中的知识类型                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  ┌─────────────┐   ┌─────────────┐   ┌─────────────┐           │
│  │ 📖 语言知识 │   │ 🌍 常识知识 │   │ 🔧 操作知识 │           │
│  ├─────────────┤   ├─────────────┤   ├─────────────┤           │
│  │ • 语法规则  │   │ • 物理规律  │   │ • 编程技能  │           │
│  │ • 词义关系  │   │ • 社会常识  │   │ • 数学计算  │           │
│  │ • 句法结构  │   │ • 因果关系  │   │ • API 使用  │           │
│  │ • 语用习惯  │   │ • 时空概念  │   │ • 任务流程  │           │
│  └─────────────┘   └─────────────┘   └─────────────┘           │
│                                                                   │
│  ┌─────────────┐   ┌─────────────┐                              │
│  │ 🏛️ 事实知识 │   │ 🎓 专业知识 │                              │
│  ├─────────────┤   ├─────────────┤                              │
│  │ • 历史事件  │   │ • 医学知识  │                              │
│  │ • 地理信息  │   │ • 法律条文  │                              │
│  │ • 人物关系  │   │ • 科学原理  │                              │
│  │ • 当前事实  │   │ • 行业经验  │                              │
│  └─────────────┘   └─────────────┘                              │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

3.2 知识的局限性

尽管 LLM 存储了大量知识,但也存在明显局限[4]:

问题 描述 解决方案
知识截止 训练数据有时间截止点 RAG、实时搜索
幻觉现象 生成看似合理但错误的内容 事实核查、引用来源
知识遗忘 难以更新或删除特定知识 知识编辑、微调
偏见问题 继承训练数据中的偏见 对齐、过滤

3.3 知识增强策略

为了克服这些局限,研究者提出了多种知识增强策略:

检索增强生成(RAG)[5]

┌──────────────────────────────────────────────────────────────┐
│                    RAG 工作流程                               │
├──────────────────────────────────────────────────────────────┤
│                                                                │
│  用户问题                                                      │
│      │                                                         │
│      ▼                                                         │
│  ┌─────────┐     ┌─────────────┐     ┌─────────────┐         │
│  │ Encoder │ ──▶ │ 向量数据库  │ ──▶ │ 相关文档    │         │
│  └─────────┘     │ (检索)      │     │ Top-K      │          │
│                  └─────────────┘     └─────────────┘         │
│                                              │                 │
│                                              ▼                 │
│                                      ┌─────────────┐         │
│                     用户问题 + ────▶ │    LLM      │         │
│                     相关文档         │  (生成)     │          │
│                                      └─────────────┘         │
│                                              │                 │
│                                              ▼                 │
│                                         最终回答              │
│                                                                │
└──────────────────────────────────────────────────────────────┘

工具调用

# Agent 通过工具获取实时知识
def get_current_weather(location):
    """调用天气 API 获取实时天气"""
    response = weather_api.get(location)
    return response

# LLM 识别需要调用工具
user_query = "今天北京天气怎么样?"
# LLM 输出: {"tool": "get_current_weather", "args": {"location": "北京"}}

知识编辑[6]

原始知识: 美国总统是特朗普
          ↓ 知识编辑
更新知识: 美国总统是拜登

四. 记忆机制 💾

4.1 记忆的必要性

人类的智能离不开记忆,Agent 同样需要记忆来:

  • 保持对话连贯性
  • 积累经验避免重复错误
  • 建立用户偏好模型
  • 存储长期知识

4.2 记忆类型

根据认知科学,我们可以将 Agent 的记忆分为几类[7]:

┌─────────────────────────────────────────────────────────────────┐
│                    Agent 记忆系统                                │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │              短期记忆 (Short-term Memory)                 │   │
│  │              ─────────────────────────────               │   │
│  │  • 当前对话上下文                                         │   │
│  │  • 通过 LLM 的上下文窗口实现                              │   │
│  │  • 容量有限 (4K - 200K tokens)                           │   │
│  │  • 会话结束后清空                                         │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              ↕                                    │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │              长期记忆 (Long-term Memory)                  │   │
│  │              ─────────────────────────────               │   │
│  │  • 持久化存储的历史信息                                   │   │
│  │  • 通过向量数据库 + RAG 实现                              │   │
│  │  • 需要检索机制                                           │   │
│  │  • 跨会话保持                                             │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              ↕                                    │
│  ┌───────────────────────────┐  ┌───────────────────────────┐  │
│  │ 情景记忆 (Episodic)       │  │ 程序记忆 (Procedural)     │  │
│  │ ────────────              │  │ ──────────────            │  │
│  │ • 特定事件的记录          │  │ • 学到的技能和流程        │  │
│  │ • "上周二的会议内容"      │  │ • "如何预订机票"          │  │
│  └───────────────────────────┘  └───────────────────────────┘  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

4.3 扩展上下文长度

LLM 的上下文窗口是短期记忆的物理限制。研究者提出了多种扩展方法:

方法 描述 代表工作
位置编码改进 使用 RoPE、ALiBi 等 LongT5, LLaMA
稀疏注意力 只关注关键位置 Longformer, BigBird
记忆压缩 将历史压缩为摘要 MemGPT[8], RecurrentGPT
分层记忆 多层级记忆管理 Generative Agents[9]

4.4 MemGPT:将 LLM 当作操作系统

MemGPT[8] 是一个创新的记忆管理方案,它把 LLM 当作操作系统来设计:

┌─────────────────────────────────────────────────────────────────┐
│                    MemGPT 架构                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │                    主上下文窗口                           │   │
│  │                (类似 CPU 寄存器)                          │   │
│  │  ┌─────────┐  ┌─────────┐  ┌─────────┐                 │   │
│  │  │系统提示 │  │工作记忆 │  │ FIFO队列│                 │   │
│  │  └─────────┘  └─────────┘  └─────────┘                 │   │
│  └─────────────────────────────────────────────────────────┘   │
│                    ↑↓ 页面调度                                   │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │              外部记忆存储 (类似 RAM/Disk)                 │   │
│  │  ┌─────────────────┐  ┌─────────────────┐              │   │
│  │  │ 回忆存储        │  │ 档案存储        │              │   │
│  │  │ (对话历史)      │  │ (长期知识)      │              │   │
│  │  └─────────────────┘  └─────────────────┘              │   │
│  └─────────────────────────────────────────────────────────┘   │
│                                                                   │
│  核心操作: memory_search() | memory_insert() | memory_update()  │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

代码示例

# MemGPT 风格的记忆管理
class AgentMemory:
    def __init__(self, llm, context_limit=8000):
        self.llm = llm
        self.context_limit = context_limit
        self.working_memory = []  # 工作记忆
        self.long_term_db = VectorDB()  # 长期记忆
    
    def process_message(self, user_message):
        # 1. 检索相关长期记忆
        relevant_memories = self.long_term_db.search(user_message)
        
        # 2. 组装上下文
        context = self.build_context(relevant_memories)
        
        # 3. 生成回复
        response = self.llm.generate(context + user_message)
        
        # 4. 更新记忆
        self.update_memories(user_message, response)
        
        return response
    
    def update_memories(self, user_msg, response):
        # 添加到工作记忆
        self.working_memory.append((user_msg, response))
        
        # 如果工作记忆过长,压缩并存入长期记忆
        if self.get_context_length() > self.context_limit * 0.8:
            summary = self.llm.summarize(self.working_memory[:5])
            self.long_term_db.insert(summary)
            self.working_memory = self.working_memory[5:]

五. 推理与规划能力 🤔

5.1 推理能力

推理是 Agent 解决复杂问题的关键能力。LLM 展现出多种推理能力:

思维链(Chain-of-Thought)[10]
【问题】
一家商店有 127 个苹果。卖掉了 45 个后,又进货了 38 个。
现在商店有多少个苹果?

【普通回答】
120 个。(错误)

【思维链回答】
让我一步步计算:
1. 初始数量:127 个苹果
2. 卖掉后:127 - 45 = 82 个
3. 进货后:82 + 38 = 120 个

所以现在有 120 个苹果。
自我一致性(Self-Consistency)[11]
┌─────────────────────────────────────────────────────────────────┐
│                    自我一致性推理                                │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│          问题                                                     │
│            │                                                      │
│    ┌───────┼───────┐                                             │
│    ▼       ▼       ▼                                             │
│  路径1   路径2   路径3   ... (采样多条推理路径)                  │
│    │       │       │                                              │
│    ▼       ▼       ▼                                             │
│  答案A   答案A   答案B                                           │
│    │       │       │                                              │
│    └───────┼───────┘                                             │
│            ▼                                                      │
│      多数投票 → 最终答案A                                        │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘
思维树(Tree-of-Thoughts)[12]
                    [问题]
                       │
         ┌─────────────┼─────────────┐
         ▼             ▼             ▼
      [思路A]       [思路B]       [思路C]
         │             │             │
      评估:0.3      评估:0.8      评估:0.5
         │             │             │
         ×        ┌────┴────┐        │
                  ▼         ▼        ▼
              [B-1]      [B-2]    [C-1]
                 │          │        │
              评估:0.9   评估:0.4  评估:0.6
                 │          │        │
                 ▼          ×        ×
            [最终答案]

5.2 规划能力

规划是将复杂任务分解为可执行步骤的能力。

ReAct:推理与行动的交织[13]
【任务】帮我查一下特斯拉最新的股价,并分析近期走势

思考(Thought): 用户想了解特斯拉股价,我需要先获取实时数据
行动(Action): search_stock("TSLA")
观察(Observation): TSLA 当前价格 $245.32,今日涨幅 +2.1%

思考(Thought): 获取了当前价格,还需要查看近期走势
行动(Action): get_stock_history("TSLA", days=30)
观察(Observation): 近30天走势:最高$268,最低$220,波动较大

思考(Thought): 数据已获取完整,可以生成分析报告
行动(Action): generate_report(current_price, history)
观察(Observation): 报告生成完成

最终回答: 特斯拉(TSLA)当前股价为$245.32,今日上涨2.1%...
Plan-and-Execute 模式
┌─────────────────────────────────────────────────────────────────┐
│                    Plan-and-Execute 模式                         │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  【用户任务】帮我写一篇关于量子计算的博客                         │
│                         │                                         │
│                         ▼                                         │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │                 规划阶段 (Planner)                        │   │
│  │  1. 搜索量子计算基础知识                                  │   │
│  │  2. 整理知识框架                                          │   │
│  │  3. 查找最新研究进展                                      │   │
│  │  4. 撰写博客初稿                                          │   │
│  │  5. 润色和发布                                            │   │
│  └─────────────────────────────────────────────────────────┘   │
│                         │                                         │
│                         ▼                                         │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │                 执行阶段 (Executor)                       │   │
│  │  步骤1 ──▶ 步骤2 ──▶ 步骤3 ──▶ 步骤4 ──▶ 步骤5          │   │
│  │     │                                                     │   │
│  │     └──── 如果失败,反馈给 Planner 重新规划 ────────────  │   │
│  └─────────────────────────────────────────────────────────┘   │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

5.3 自我反思与改进

高级 Agent 还具备自我反思能力,能从错误中学习[14]:

# Reflexion 机制示例
class ReflexionAgent:
    def solve_task(self, task):
        for attempt in range(max_attempts):
            # 尝试解决任务
            solution = self.attempt_solution(task)
            
            # 评估结果
            result = self.evaluate(solution)
            
            if result.success:
                return solution
            
            # 反思失败原因
            reflection = self.reflect(task, solution, result.feedback)
            
            # 将反思存入记忆,下次避免同样错误
            self.memory.add_reflection(reflection)
        
        return None

六. 泛化与迁移能力 🔄

6.1 零样本泛化

经过指令微调的 LLM 能够在没有任何示例的情况下完成新任务[15]:

【指令微调效果】

训练任务:翻译、摘要、问答...
↓
测试任务(从未见过):写诗

用户: 请写一首关于春天的五言绝句
LLM: 春风拂绿柳,
     细雨润红花。
     燕舞莺啼处,
     人间四月家。

6.2 上下文学习(In-Context Learning)

LLM 能够从提示中的少量示例学习新任务[16]:

【Few-shot 学习示例】

输入: 将以下句子翻译成文言文

示例1:
现代文: 我今天很高兴
文言文: 吾今日甚悦

示例2:
现代文: 你在做什么
文言文: 汝何为

问题:
现代文: 明天我要去北京
文言文: ?

LLM输出: 明日吾将往京师

6.3 持续学习

Agent 需要在部署后不断学习新知识,而不遗忘旧知识[17]:

┌─────────────────────────────────────────────────────────────────┐
│                    持续学习的挑战                                │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  任务1 ──▶ 学习 ──▶ 任务2 ──▶ 学习 ──▶ 任务3 ──▶ 学习        │
│              │                    │                    │         │
│              ▼                    ▼                    ▼         │
│         [灾难性遗忘]         [知识干扰]          [能力退化]      │
│                                                                   │
│  解决方案:                                                       │
│  • 弹性权重巩固 (EWC)                                            │
│  • 渐进式提示 (Progressive Prompts)                              │
│  • 经验回放 (Experience Replay)                                  │
│  • 技能库 (Skill Library) - 如 Voyager                          │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

七. 主流 LLM 作为 Agent 大脑的对比 📊

不同的 LLM 在作为 Agent 大脑时各有优劣:

模型 参数量 上下文长度 推理能力 工具调用 适用场景
GPT-4o ~1.8T 128K ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 复杂推理、多模态
Claude 3.5 ~175B 200K ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 长文档、安全场景
Gemini 1.5 ~1T 1M ⭐⭐⭐⭐ ⭐⭐⭐⭐ 超长上下文
Llama 3.1 8B-405B 128K ⭐⭐⭐⭐ ⭐⭐⭐ 本地部署、定制化
DeepSeek 67B 64K ⭐⭐⭐⭐ ⭐⭐⭐⭐ 性价比、中文
Qwen 2.5 0.5B-72B 128K ⭐⭐⭐⭐ ⭐⭐⭐⭐ 中文、多尺寸

选择建议

┌─────────────────────────────────────────────────────────────────┐
│                    如何选择 Agent 的大脑?                       │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  复杂推理任务 ────────▶ GPT-4o / Claude 3.5 Opus               │
│                                                                   │
│  长文档处理 ──────────▶ Claude 3.5 / Gemini 1.5                │
│                                                                   │
│  预算有限 ────────────▶ DeepSeek / Qwen 2.5                     │
│                                                                   │
│  本地部署 ────────────▶ Llama 3.1 / Qwen 2.5                    │
│                                                                   │
│  中文场景 ────────────▶ DeepSeek / Qwen 2.5 / GLM-4             │
│                                                                   │
│  多模态需求 ──────────▶ GPT-4o / Gemini 1.5 / Qwen-VL          │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

八. 总结与展望 🚀

8.1 核心要点回顾

  1. LLM 是 Agent 的核心:提供语言理解、知识存储、推理规划等关键能力

  2. 六大核心能力

    • 🗣️ 自然语言交互
    • 📚 知识存储与利用
    • 💾 记忆机制
    • 🤔 推理能力
    • 📋 规划能力
    • 🔄 泛化能力
  3. 关键技术

    • 思维链(CoT)提升推理
    • RAG 增强知识
    • MemGPT 管理记忆
    • ReAct 融合推理与行动
    • Reflexion 实现自我改进

8.2 当前挑战

挑战 描述 研究方向
幻觉问题 生成错误但自信的内容 事实核查、RLHF
推理不稳定 同一问题不同答案 自我一致性、验证器
长期记忆 难以有效管理大量记忆 分层记忆、压缩技术
复杂规划 多步骤任务易出错 分层规划、反思机制
成本与延迟 API 调用成本高、响应慢 模型蒸馏、缓存

8.3 未来展望

  1. 更强的推理能力:通过强化学习和自我对弈提升
  2. 更长的记忆:突破上下文限制,实现真正的长期记忆
  3. 更好的泛化:少样本甚至零样本完成新任务
  4. 更低的成本:小模型通过蒸馏获得大模型能力
  5. 更安全可控:更好的对齐和安全机制

💡 思考:LLM 作为 Agent 大脑的终极形态是什么?

🤔 或许是一个能够像人类大脑一样,持续学习、自主推理、具备常识和情感理解的通用智能系统。我们正在这条道路上不断前进。


参考文献

[1] Wei, J., et al. “Emergent Abilities of Large Language Models.” TMLR, 2022. [paper]

[2] Lin, Y.T., et al. “LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models.” arXiv, 2023. [paper]

[3] Shapira, N., et al. “Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models.” arXiv, 2023. [paper]

[4] AlKhamissi, B., et al. “A Review on Language Models as Knowledge Bases.” arXiv, 2022. [paper]

[5] Lewis, P., et al. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” NeurIPS, 2020. [paper]

[6] De Cao, N., et al. “Editing Factual Knowledge in Language Models.” arXiv, 2021. [paper]

[7] Xi, Z., et al. “The Rise and Potential of Large Language Model Based Agents: A Survey.” arXiv, 2023. [paper]

[8] Packer, C., et al. “MemGPT: Towards LLMs as Operating Systems.” arXiv, 2023. [paper]

[9] Park, J.S., et al. “Generative Agents: Interactive Simulacra of Human Behavior.” arXiv, 2023. [paper]

[10] Wei, J., et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” NeurIPS, 2022. [paper]

[11] Wang, X., et al. “Self-Consistency Improves Chain of Thought Reasoning in Language Models.” arXiv, 2022. [paper]

[12] Yao, S., et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models.” arXiv, 2023. [paper]

[13] Yao, S., et al. “ReAct: Synergizing Reasoning and Acting in Language Models.” arXiv, 2022. [paper]

[14] Shinn, N., et al. “Reflexion: Language Agents with Verbal Reinforcement Learning.” arXiv, 2023. [paper]

[15] Sanh, V., et al. “Multitask Prompted Training Enables Zero-Shot Task Generalization.” ICLR, 2022. [paper]

[16] Brown, T., et al. “Language Models are Few-Shot Learners.” NeurIPS, 2020. [paper]

[17] Wang, L., et al. “A Comprehensive Survey of Continual Learning: Theory, Method and Application.” arXiv, 2023. [paper]


📌 下一篇预告:【Agents篇】03:Agent 的记忆系统——从短期到长期记忆的实现

我们将深入探讨 Agent 如何构建和管理记忆系统,包括向量数据库、RAG、记忆检索等关键技术。


本文是「Agents 专栏」系列的第 2 篇,欢迎关注专栏获取更新!

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐