【AI Agent的应用--OPEN CLAW 龙虾的原理】

OpenClaw标志着人工智能从“对话式交互”迈入“自主行动”的第三阶段，是一个“本地优先、隐私至上、多渠道集成”的自托管AI助手平台。以ReAct循环为执行范式，以解耦的“大脑+躯干”为架构基础，以丰富的技能插件为执行手段，以多层次的记忆系统为上下文支撑。通过极低的部署门槛，OpenClaw正在推动自主Agent的平民化，让用户仅凭自然语言就能实现轻量化自动化工作（如文件整理、日程管理、跨工具协

y_dd

626人浏览 · 2026-04-07 10:42:50

y_dd · 2026-04-07 10:42:50 发布

OpenClaw（龙虾）AI Agent 原理深度解析

一、概述

OpenClaw（社区俗称“龙虾”）是一个本地自主智能体调度框架，其核心价值在于充当“物理网关”，将大语言模型的推理能力转化为对本地操作系统、文件系统及应用接口的真实执行动作。与ChatGPT、豆包等传统大模型不同，后者只能“回答问题”，而龙虾可以“执行任务”。

OpenClaw的本质是“一个可持久运行的Agent调度框架”，它解决的不是“生成内容”，而是如何组织多步骤任务、如何调用外部工具、如何管理上下文以及如何长期运行等工程化问题。它不是简单的聊天机器人封装，而是一个将大型语言模型的认知能力与真实世界数字工具进行可靠、安全、可扩展桥接的完整基础设施平台。

二、核心原理

2.1 “大脑”与“躯干”的解耦架构

OpenClaw在底层设计上实现了“大脑”与“躯干”的解耦，确保逻辑与执行的物理分离：

大脑（LLM） ：负责语义解析与任务拆解，这是真正的人工智慧层，可用的大预言模型，可以是云端的DeepSeek、Kimi，也可以是本地部署的Ollama服务。
躯干（OpenClaw Gateway） ：守护进程，负责接收和执行大脑传来的指令。

2.2 五大核心能力引擎

OpenClaw集成了目标导向、步骤规划、工具调用、任务执行和反馈迭代五大核心能力。这些能力共同构成了Agent引擎的完整闭环：

目标导向（Goal-Oriented） ：Agent能够理解用户意图，将模糊的自然语言指令转化为明确的可执行目标。
步骤规划（Step Planning） ：将复杂任务拆解为有序的子任务序列。
工具调用（Tool Use） ：Agent可以自主调用外部API（如邮件、CRM、代码解释器等），从“说客”变成“创作者”。
任务执行（Task Execution） ：通过技能（Skills）模块将指令转化为实际的系统操作。
反馈迭代（Feedback Iteration） ：执行后观察结果，判断是否需要进入下一轮循环。

2.3 ReAct模式：思考-行动-观察循环

OpenClaw的Agent遵循经典的ReAct模式运行，即“思考-行动-观察”循环。这是龙虾智能体实现自主性的核心机制，具体流程如下：

思考（Reasoning） ：Agent接收用户输入后，进行意图识别，分析当前上下文，决定采取何种行动策略。
行动（Acting） ：根据思考结果，调用相应的工具或技能执行具体操作。
观察（Observation） ：获取工具执行后的反馈结果，判断行动是否达成预期目标。

若任务未完成，则进入下一轮ReAct循环，直至任务终结。这种模式确保了Agent能够自主地进行多步推理和行动，并具备错误自我修正的能力。

📌 核心原理流程图 —— ReAct 模式工作循环

图1：OpenClaw Agent 遵循的 ReAct（Reasoning + Acting）范式完整循环流程图。

┌─────────────────────────────────────────────────────────────────┐
│                         ReAct 模式循环                            │
│  (Reasoning → Acting → Observation — 迭代直至任务完成)            │
└─────────────────────────────────────────────────────────────────┘

                               ┌──────────┐
                               │  开始    │
                               └────┬─────┘
                                    ▼
                         ┌──────────────────────┐
                         │   1. 接收用户输入     │
                         │  （自然语言指令）      │
                         └──────────┬───────────┘
                                    ▼
                         ╔══════════════════════╗
                         ║   🔄 THINK（思考）   ║
                         ║  ┌────────────────┐  ║
                         ║  │ • 意图识别     │  ║
                         ║  │ • 上下文检索   │  ║
                         ║  │ • 任务拆解规划 │  ║
                         ║  └────────────────┘  ║
                         ╚══════════╤═══════════╝
                                    ▼
                         ╔══════════════════════╗
                         ║   ⚡ ACT（行动）     ║
                         ║  ┌────────────────┐  ║
                         ║  │ • 工具调用     │  ║
                         ║  │ • 技能执行     │  ║
                         ║  │ • 系统操作     │  ║
                         ║  └────────────────┘  ║
                         ╚══════════╤═══════════╝
                                    ▼
                         ╔══════════════════════╗
                         ║   👁 OBSERVE（观察） ║
                         ║  ┌────────────────┐  ║
                         ║  │ • 获取执行结果 │  ║
                         ║  │ • 判断是否达成 │  ║
                         ║  │ • 更新会话状态 │  ║
                         ║  └────────────────┘  ║
                         ╚══════════╤═══════════╝
                                    ▼
                        ┌───────────────────────┐
                        │     任务是否完成？     │
                        └───────────┬───────────┘
                                    │
                    ┌───────────────┴───────────────┐
                    │                               │
                    ▼                               ▼
           ┌──────────────┐                  ┌──────────────┐
           │   ❌ 未完成   │                  │   ✅ 完成    │
           └──────┬───────┘                  └──────┬───────┘
                  │                                 │
                  │  (返回THINK)                     │
                  ▼                                 ▼
         （进入下一轮循环）                    ┌──────────────┐
                                                │  返回用户结果 │
                                                └──────────────┘

图示说明：

阶段	核心动作	说明
THINK	意图识别、上下文检索、任务拆解规划	LLM 推理，决定行动策略
ACT	工具调用、技能执行、系统操作	将推理转化为实际行动
OBSERVE	获取执行结果、判断完成状态、更新会话	获取反馈，决定是否继续迭代

OpenClaw严格遵循ReAct范式，通过思考-行动-观察循环实现智能决策，确保Agent能够自主进行多步推理和行动，并具备错误自我修正的能力。

三、详细工作流程

3.1 完整执行链路

📌 整体架构构成图 —— OpenClaw 五层架构全景图

图：OpenClaw 整体架构分层构成图，展示从用户交互到基础设施的完整层次关系。

┌─────────────────────────────────────────────────────────────────────────────┐
│                           🌐 渠道接入层                                      │
│  ┌──────────┬──────────┬──────────┬──────────┬──────────┬──────────┐      │
│  │    │Telegram  │WhatsApp  │  CLI     │      │
│  └──────────┴──────────┴──────────┴──────────┴──────────┴──────────┘      │
│  ┌─────────────────────────────────────────────────────────────────┐    │
│  │                    📋 消息标准化引擎（统一消息格式）                   │   
│  └─────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────┬───────────────────────────────────────┘
                                      │ (标准化后的消息)
                                      ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                           ⚙️ 网关调度层（Gateway）                          │
│  ┌──────────────┬──────────────┬──────────────┬──────────────┬───────────┐ │
│  │   请求路由   │   身份鉴权   │   流量管控   │   消息队列   │  日志审计 │ │
│  │ (按用户分发) │ (Token/RBAC) │ (限流/熔断)  │ (异步解耦)   │ (全链路)  │ │
│  └──────────────┴──────────────┴──────────────┴──────────────┴───────────┘ │
│  ┌────────────────────────────────────────────────────────────────────┐    │
│  │              🔌 WebSocket 控制平面（127.0.0.1:18789）              │    │
│  └────────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────┬───────────────────────────────────────┘
                                      │ (WebSocket/HTTP 通信)
                                      ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                           🧠 Agent 核心层                                   │
│  ┌───────────────────┬───────────────────┬───────────────────────────────┐ │
│  │   Agent 运行时    │     上下文管理     │         会话管理             │ │
│  │  (pi-mono衍生)    │  (ContextEngine)  │    (Session Storage)         │ │
│  ├───────────────────┼───────────────────┼───────────────────────────────┤ │
│  │    意图理解       │     任务编排       │         模型调度             │ │
│  │  (NLP解析)        │   (任务拆解/依赖)  │   (多模型/故障转移)          │ │
│  └───────────────────┴───────────────────┴───────────────────────────────┘ │
│  ┌────────────────────────────────────────────────────────────────────┐    │
│  │                    📝 记忆系统（Memory System）                     │    │
│  │      SOUL.md │ USER.md │ MEMORY.md │ 向量检索 │ 语义索引           │    │
│  └────────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────┬───────────────────────────────────────┘
                                      │ (调用工具/技能)
                                      ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                           🔧 能力扩展层（Skills & Tools）                   │
│  ┌─────────────┬─────────────┬─────────────┬─────────────┬─────────────┐   │
│  │ 文件操作    │ 浏览器自动化│   命令行    │   GitHub    │   邮件      │   │
│  │ (读写/管理) │  (Chrome)   │  (exec)     │   (PR/Issue)│  (Gmail)    │   │
│  ├─────────────┼─────────────┼─────────────┼─────────────┼─────────────┤   │
│  │   Notion    │   Obsidian  │   日历      │   翻译      │  .....更多工具  │   │
│  │  (笔记同步) │  (知识库)   │  (日程管理) │  (多语言)   │  ....  │   │
│  └─────────────┴─────────────┴─────────────┴─────────────┴─────────────┘   │
│  ┌────────────────────────────────────────────────────────────────────┐    │
│  │            📦 ClawHub 技能市场（5700+ 社区技能 / 插件）            │    │
│  └────────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────┬───────────────────────────────────────┘
                                      │ (底层支撑)
                                      ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                           🖥️ 基础设施层                                    │
│  ┌─────────────┬─────────────┬─────────────┬─────────────┬─────────────┐   │
│  │   Node.js   │   SQLite    │    Redis    │   Milvus    │   Docker    │   │
│  │  (≥22.12.0) │  (会话存储) │  (短期记忆) │  (长期记忆) │  (容器化)   │   │
│  └─────────────┴─────────────┴─────────────┴─────────────┴─────────────┘   │
│  ┌────────────────────────────────────────────────────────────────────┐    │
│  │               🔐 安全沙箱 + 审计日志 + 权限控制                     │    │
│  └────────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────────────────┘

数据流向: 渠道接入层 → 网关调度层 → Agent核心层 → 能力扩展层 → 基础设施层

架构设计遵循三大核心理念：

设计理念	说明
本地优先	数据与执行默认在内网/本地完成，保障安全合规
模型无关	兼容所有主流大模型，自由切换、混合调度
插件化扩展	技能、渠道、工具均可热插拔，平滑升级

一次典型的任务执行流程包含以下步骤：

Step 1：接收用户输入
用户通过Telegram、Discord、Slack、微信、飞书等即时通讯平台或Web控制面板发送自然语言指令。

Step 2：意图识别与上下文检索
Agent对用户输入进行语义解析，识别用户的核心意图，并利用RAG（检索增强生成）从记忆系统中检索相关的历史上下文信息。

Step 3：任务拆解与规划
Agent将复杂任务拆解为有序的子任务计划。例如，当用户说“整理今天收到的邮件并按重要性排序”时，Agent会拆解为：访问邮箱→获取邮件列表→识别邮件重要性→排序→生成报告。

Step 4：工具调用与执行
根据规划，Agent调用具体的工具执行行动。工具层是Agent的“手脚”，包括内置基础工具和通过ClawHub市场安装的社区技能，支持超过10,700个技能插件。

Step 5：观察执行结果
Agent获取工具执行后的反馈，判断操作是否成功。

Step 6：结果汇总与循环判断
Agent汇总执行结果，判断任务是否完成。若未完成，则回到Step 3继续下一轮ReAct循环；若完成，则向用户反馈最终结果。

3.2 Gateway核心交互流程

Gateway是OpenClaw的控制平面，本质上是一个HTTP和WebSocket服务，负责保持与所有消息渠道的长连接、管理会话状态、响应客户端请求以及处理定时任务。

以Telegram渠道为例，一次完整的消息处理流程如下：

Telegram机器人通过grammY框架注册监听事件。
Gateway启动时与Telegram机器人建立WebSocket连接，随时准备接收消息。
当用户发送消息后，分发消息。
消息经分发后进入Agent运行时执行。
Agent执行完成后，通过回调函数将回复发送回用户。

3.3 多模态交互流程

OpenClaw的多模态能力核心在于“跨模态信息理解与转换”，通过集成专业工具与模型，实现“语音→文本→图像→视频→文档”的全链路交互。其核心逻辑可概括为四步流程：

输入解析：通过专用工具将语音、视频、图像、文档等非文本信息转换为AI可理解的结构化数据（如语音转文字、视频抽帧、文档提取文本）。
语义理解：调用大模型解析结构化数据，明确用户核心需求。
任务执行：根据需求调用对应技能完成操作（如生成摘要、分析内容、创建图像）。
多模态输出：支持以文本、语音、图像、文档等多种形式返回结果。

四、实现方式

4.1 技术架构层次

OpenClaw的技术架构可拆解为以下几个核心层次：

层级	功能	实现方式
通道层	与用户交互	集成飞书、钉钉、微信、Telegram等主流IM平台，提供Web控制面板和管理API
网关层	控制平面	运行在127.0.0.1:18789端口的Gateway，作为WebSocket控制平面协调各组件通信
Agent运行时层	核心执行引擎	使用Pi Agent Runtime作为核心执行引擎，通过RPC模式与网关交互
记忆系统层	上下文存储与检索	基于本地Markdown文件的混合方案，支持向量检索、关键词匹配及时间衰减因子
工具层	执行手脚	包括内置基础工具和通过ClawHub市场安装的社区技能，支持超过10,700个技能插件
大模型层	认知大脑	灵活接入云端API模型或本地私有模型，支持混合调度

4.2 记忆系统实现

OpenClaw的记忆系统是其特色设计之一，采用基于本地Markdown文件的混合方案，所有记忆以纯文本形式存储。核心文件包括：

SOUL.md：定义Agent性格的系统提示词
USER.md：记录用户偏好
MEMORY.md：存储长期关键事实
AGENTS.md：定义多Agent协作角色

系统支持“脑内笔记”机制和通过向量检索、关键词匹配及时间衰减因子实现的混合检索，增强了决策过程的可解释性。

在更高级的版本中，记忆模块采用三级存储架构：

短期记忆：Redis集群存储最近200条交互上下文
长期记忆：Milvus向量数据库实现语义检索
结构化记忆：PostgreSQL存储实体关系图谱

关键技术突破在于记忆蒸馏算法，可将对话历史压缩为知识图谱节点，使长期记忆检索效率提升40%。

4.3 技能（Skills）机制

Skills机制是OpenClaw赋予Agent“手脚”的关键。其核心理念是将“某件事的完整流程”封装成一个可触发的能力模块。

实现方式：

物理路径：有各种能力的脚步，默认存储在目录下。
执行逻辑：开发者将编写好的Python脚本（如读取Excel、控制浏览器、发送邮件）放入该目录。当LLM判定需要执行某项任务时，OpenClaw会自动调用对应的脚本。

目前OpenClaw生态已支持超过10,700个技能插件，覆盖从代码开发到工作流自动化的全流程操作。

4.4 模型路由与配置

OpenClaw本身不具备智力，其推理能力取决于配置文件中注入的模型变量。配置文件路径为~/.openclaw/config.yaml。配置示例：

llm:
  provider: "openai"                    # 维持标准协议
  base_url: "https://api.deepseek.com/v1"   # 算力来源地址
  api_key: "sk-xxxxxx"                 # 鉴权凭证
  model: "deepseek-chat"               # 模型名称