OpenClaw 工作的基本机制

简单来说，OpenClaw 就像一个住在您电脑里的私人秘书。当您说话时，它先“查笔记”（检索记忆），再“想方案”（LLM 规划），然后“动手做”（调用本地工具/脚本），最后“汇报工作”（返回结果）。整个过程自动化闭环，无需人工干预中间步骤。

dingyuana · 2026-03-06 09:25:59 发布

OpenClaw（曾用名 Clawdbot、Moltbot）是一个自托管的、常驻后台的 AI 智能体（Agent）系统。它的核心理念是“The AI that actually does things”（真正能做事的 AI），不仅仅是对话，还能执行文件操作、调用工具、管理日程等复杂任务。

以下是 OpenClaw 后台工作的基本机制，以及当用户下发命令后，后台如何响应的详细流程：

OpenClaw 的后台运行基于一个模块化的三层架构（根据 2026 年最新版本架构）：

接入层 (Gateway/Connectors)：
- 负责监听来自不同渠道的消息。支持飞书、Telegram、Slack、WhatsApp、钉钉等 IM 平台，也提供 Web 仪表盘。
- 它像一个“前台接待”，将不同平台的消息格式统一转换为 OpenClaw 内部的标准事件格式。
核心引擎 (Core Engine)：
- 这是大脑部分，基于 Node.js/TypeScript 运行。
- 负责意图识别、上下文管理、记忆检索和任务规划。
- 它维护着“混合记忆系统”，包括短期对话记忆和长期知识库（如 MEMORY.md, USER.md 以及 Skills 文件夹）。
执行层 (Plugins/Tools/Skills)：
- 这是“手脚”部分。包含各种预置或自定义的插件（Plugins）和技能（Skills）。
- Skills 是以文件夹为单位的可移植能力包，包含指令定义 (SKILL.md)、参考文档、资产和可执行脚本。
- 负责实际执行操作，如读写文件、运行 Shell 命令、搜索网络、调用 API 等。

当用户在飞书或 Telegram 中输入一条指令（例如：“帮我总结上周的销售数据并生成报表”）时，后台的处理流程如下：

监听：Gateway 服务（通常运行在本地端口，如 3000）接收到来自 IM 平台的 Webhook 回调或轮询消息。
鉴权：验证消息来源的 Token 是否合法。
标准化：将不同平台的消息格式（如飞书的富文本、Telegram 的 Markdown）清洗为 OpenClaw 内部统一的 JSON 对象，提取出用户 ID、会话 ID、原始文本内容等信息。

这是 OpenClaw 区别于普通聊天机器人的关键步骤，旨在解决“上下文爆炸”问题：

用户画像加载：根据用户 ID 加载 USER.md 中的个性化偏好设置。
相关记忆检索 (RAG)：
- 系统不会把所有历史对话都塞给大模型。
- 它会分析当前指令的关键词，在本地知识库（Markdown 文件或向量数据库）中进行语义搜索。
- 只提取与“销售数据”、“报表”最相关的历史片段和知识条目。
技能匹配：扫描已安装的 Skills，判断是否有专门处理“数据分析”或“文件生成”的技能包需要激活。

Prompt 构建：核心引擎将以下信息组装成一个庞大的 Prompt 发送给大语言模型（LLM）：
- 系统指令（System Prompt）：定义 AI 的角色和行为准则。
- 用户当前指令。
- 检索到的相关背景知识。
- 可用工具列表（Tools Definition）。
LLM 推理：
- LLM 分析意图，决定是否需要调用工具。
- 如果需要多步操作，LLM 会生成一个执行计划（Chain of Thought）。
- 示例输出：Thought: 用户需要销售数据。我需要先读取 ./data/sales_last_week.csv 文件，然后使用 python 脚本进行汇总，最后生成 markdown 报表。Action: read_file(...)

解析动作：OpenClaw 解析 LLM 返回的动作指令。
沙箱/本地执行：
- 如果是读文件：直接在本地文件系统读取。
- 如果是运行脚本：在受限的子进程环境中执行代码（确保安全性）。
- 如果是联网搜索：调用内置的搜索插件。
结果反馈：将工具执行的结果（成功或报错信息）再次反馈给 LLM。
多轮迭代：如果任务未完成（例如脚本报错需要修正），LLM 会根据错误信息重新规划，再次调用工具，直到任务完成或达到最大尝试次数。

最终总结：当所有子任务完成后，LLM 生成最终的自然语言回复（例如：“报表已生成，保存在 /reports/summary.md，主要内容如下...”）。
记忆更新：将本次交互的关键结果写入长期记忆文件（如更新 MEMORY.md），以便未来参考。
消息回传：Gateway 将最终回复格式化为目标平台支持的样式，发送回用户的聊天窗口。

常驻后台 (Daemon Mode)：
- 通过 openclaw start 启动后，它以守护进程形式运行（类似 systemd 服务），随时待命，无需每次手动启动。
本地优先 (Local-First)：
- 核心逻辑、记忆数据、文件操作均在用户本地机器（或用户控制的服务器）上运行，保障数据隐私。
- 只有具体的 LLM 推理请求会发送到云端模型提供商（如 Claude, GPT-4 等），且可以通过配置优化 Token 消耗。
模块化技能 (Skills System)：
- 功能扩展不依赖硬编码，而是通过加载不同的 Skills 文件夹实现。用户可以像安装插件一样安装新的能力。
降本增效机制：
- 通过渐进式信息披露和精准的记忆检索，大幅减少发送给 LLM 的无效上下文 Token，从而降低 API 成本并提高响应速度（据实测可提升 20 倍速度，降低 90% Token 消耗）。