龙虾AI（OpenClaw）超精细图片式架构图（带模块细节+数据流+技术栈详解）

你再猜

685人浏览 · 2026-03-25 11:06:55

你再猜 · 2026-03-25 11:06:55 发布

─────────────────────────────────────────────────────────────────────────────────────

┌─────────────────────────────────────────────────────────────────────────────────┐

│ 第一层：用户交互层（接入层） │

│ 作用：用户通过各种方式发指令，所有入口统一汇总，转换成龙虾能识别的格式 │

│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │

│ │ 命令行（CLI）│ │ Web UI界面 │ │ 企业办公软件 │ │ 社交软件 │ │

│ │ （技术党用） │ │ （可视化用） │ │ （飞书/钉钉）│ │ （微信/QQ） │ │

│ │ 输入指令执行 │ │ 点击操作、输指令 │ │ 集成机器人 │ │ 小程序/机器人│ │

│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ ┌────────────────────────────────────────────────────────────────────────┐ │

│ │ 消息适配器模块：统一所有入口的消息格式，转换成系统通用的Message对象 │ │

│ │ （比如：把微信消息、CLI指令，都变成一样的格式，让后续层能看懂） │ │

│ └───────────────────────────────┬──────────────────────────────────────┘ │

└───────────────────────────────────┼─────────────────────────────────────────────┘

↓

│ 第二层：网关接入层（中枢枢纽） │

│ 作用：所有数据必经之路，管安全、管调度、管会话，避免系统混乱 │

│ │ 会话管理模块 │ │ 安全鉴权模块 │ │ 流量控制模块 │ │ 日志审计模块 │ │

│ │ - 维护用户会话│ │ - 验证用户权限│ │ - 限流（防卡死）│ │ - 记录所有操作│ │

│ │ - 保存上下文 │ │ - 高危操作审批│ │ - 排队处理任务│ │ - 出错可追溯 │ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ │ 消息路由模块：把统一格式的指令，分发到对应的智能体（Agent） │ │

│ │ （比如：办公任务分给办公Agent，开发任务分给开发Agent） │ │

↓

│ 第三层：智能体核心层（龙虾大脑） │

│ 作用：真正“思考”，理解指令、拆任务、调工具、纠错，是龙虾AI的核心灵魂 │

│ │ 意图理解模块 │ │ 任务规划模块 │ │ 工具调度模块 │ │ 反思纠错模块 │ │

│ │ - 听懂用户需求│ │ - 拆成多步骤 │ │ - 选对应工具 │ │ - 检查结果对错│ │

│ │ - 识别核心目标│ │ - 排执行顺序 │ │ - 传执行参数 │ │ - 错了就重试 │ │

│ │ - 区分任务类型│ │ - 处理异常步骤│ │ - 监控工具状态│ │ - 优化执行步骤│ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ │ 三级记忆系统（龙虾的“记性”）：存储上下文、偏好、历史，越用越顺手 │ │

│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │

│ │ │ 短期记忆 │ │ 近端记忆 │ │ 长期记忆 │ │ │

│ │ │ （当日日志）│ │ （会话存档）│ │ （用户偏好）│ │ │

│ │ └──────────┘ └──────────┘ └──────────┘ │ │

│ ↓ │

│ │ 模型调度模块：调用大模型（本地/云端），辅助思考、理解指令 │ │

│ │ - 支持Ollama（本地）、OpenAI、Claude等 │ │

│ │ - 动态切换模型，适配不同任务难度 │ │

↓

│ 第四层：工具能力层（龙虾的手脚眼睛） │

│ 作用：接收大脑指令，执行具体动作，相当于龙虾的“手脚”，还有“眼睛” │

│ │ 屏幕视觉工具 │ │ 键鼠模拟工具 │ │ 浏览器工具 │ │ 系统操作工具 │ │

│ │ （龙虾的眼睛）│ │ （龙虾的手） │ │ （自动上网） │ │ （操作电脑） │ │

│ │ - 截图、OCR识别│ │ - 移动鼠标 │ │ - Playwright │ │ - 读写文件 │ │

│ │ - 识别界面元素│ │ - 点击、输入 │ │ - 自动点击/输入│ │ - 运行命令行 │ │

│ │ - 读取屏幕内容│ │ - 快捷键操作 │ │ - 爬取网页数据│ │ - 调用系统API│ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

│ │ 工具管理模块：加载/卸载工具、监控工具状态、处理工具异常 │ │

│ │ - 支持自定义工具（自己写插件，让龙虾学新技能） │ │

│ │ - 工具故障时自动切换备用工具 │ │

↓

│ 第五层：系统执行层（底层驱动） │

│ 作用：连接工具和电脑硬件，真正执行动作，同时保障安全，不搞乱电脑 │

│ │ 系统接口适配 │ │ Docker沙箱 │ │ 节点管理模块 │ │ 错误处理模块 │ │

│ │ - 对接Windows/ │ │ - 隔离工具执行│ │ - 管理本地/远端│ │ - 捕获执行错误│ │

│ │ Mac/Linux │ │ - 防止乱改系统│ │ 执行节点 │ │ - 返回错误信息│ │

│ │ - 调用系统驱动 │ │ - 限制工具权限│ │ - 节点心跳检测│ │ - 触发重试机制│ │

│ │ │ │ │ │

│ └─────────────────┼─────────────────┼─────────────────┘ │

│ ↓ │

└───────────────────────────────────┬─────────────────────────────────────────────┘

↓

│ 第六层：设备硬件层（最终执行端） │

│ 作用：接收底层指令，完成物理/虚拟操作，是所有动作的最终落地端 │

│ │ 显示设备 │ │ 输入设备 │ │ 存储设备 │ │ 网络设备 │ │

│ │ （屏幕：显示操作）│ │ （鼠标/键盘） │ │ （硬盘/U盘） │ │ （联网操作） │ │

│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │

└─────────────────────────────────────────────────────────────────────────────────┘

补充1：关键数据流（白话文版，看懂数据怎么跑）

1. 用户 → 交互层：发指令（比如“整理桌面文件”）；

2. 交互层 → 网关层：指令转统一格式，带用户会话信息；

3. 网关层 → 智能体层：指令分发到对应Agent，带上历史会话；

4. 智能体层 → 工具层：大脑拆解任务，调用对应工具（比如“文件操作工具”）；

5. 工具层 → 系统执行层：工具请求执行动作（比如“删除冗余文件”）；

6. 系统执行层 → 硬件层：底层驱动调用硬件，完成实际操作；

7. 反向反馈：操作结果从硬件层→系统层→工具层→智能体层→网关层→交互层，最终反馈给用户。

补充2：额外细节（比上一版新增，更贴近真实架构）

1. 新增「三级记忆系统」：解释龙虾“记东西”的方式，为什么能越用越顺手；

2. 新增「安全组件」：沙箱、鉴权、日志，解释龙虾为什么不会乱搞电脑；

3. 新增「工具管理模块」：说明龙虾怎么加载新技能、处理工具故障；

4. 新增「节点管理」：支持本地+远端执行，解释龙虾怎么跨设备干活；

5. 每个模块都补充「具体功能」，不是只写名字，小白也能看懂每个模块干嘛用。

补充3：详细技术栈拆解（按层对应，白话文+无黑话，新增技术解释+细化特点）

核心说明：龙虾AI的技术栈核心是「轻量、本地优先、可扩展」，所有技术栈都围绕“让AI自主操作电脑”展开，以下按每层对应模块，详细说明“技术基础解释、用在哪里、核心特点”，全程小白易懂，无专业黑话。

一、用户交互层对应技术栈（每款技术均补充解释+细化特点）

1. 命令行（CLI）：Node.js + TypeScript（底层支撑）

- 技术解释：Node.js是基于Chrome V8引擎的JavaScript运行环境，能让JavaScript脱离浏览器运行；TypeScript是JavaScript的超集，增加了类型校验，让代码更规范、不易出错，两者结合是OpenClaw的核心底层开发组合。

- 应用位置：用户通过PowerShell（Windows）、终端（Mac/Linux）输入指令的入口，是技术党最常用的操作方式，无需图形界面，直接通过命令驱动龙虾AI执行任务。

- 核心特点：① 轻量无依赖，启动速度快，占用系统资源少，即使低配电脑也能流畅运行；② 无需图形界面，适合远程操作（比如通过SSH远程控制电脑运行龙虾AI）和批量任务执行；③ 搭配OpenClaw自定义指令，可快速执行复杂操作（如批量整理文件、批量运行脚本）；④ TypeScript的类型校验的，能减少代码报错，提升系统稳定性。

2. Web UI界面：Express（Web服务）+ 简单前端（HTML/CSS/JS）

- 技术解释：Express是基于Node.js的轻量级Web开发框架，主要用于搭建Web服务，接收用户请求、返回响应；HTML负责Web界面的结构（比如按钮、输入框），CSS负责界面样式（颜色、布局），JS负责界面交互（点击按钮、输入内容），三者结合实现可视化操作界面。

- 应用位置：龙虾AI的可视化操作界面（默认访问地址：http://127.0.0.1:18789），小白用户可通过点击按钮、输入文本的方式操作，无需记住复杂命令，同时可直观查看任务进度、会话记录、执行日志。

- 核心特点：① 操作简单，小白友好，降低使用门槛，无需具备技术基础；② 界面简洁，重点突出，可快速找到“发送指令”“查看日志”“管理工具”等核心功能；③ 支持管理员登录验证，防止未授权用户操作，保障系统安全；④ Express轻量高效，启动速度快，不会占用过多系统资源，与龙虾AI整体轻量定位契合。

3. 企业办公/社交软件集成：插件化适配（飞书/钉钉/微信/QQ等）+ libsignal-node（WhatsApp协议支撑）

- 技术解释：插件化适配是一种开发模式，为每个通讯平台（飞书、钉钉等）单独开发“插件”，实现与平台的对接，无需修改核心代码；libsignal-node是一款开源的信号处理库，主要用于适配WhatsApp的通信协议，让龙虾AI能接收、发送WhatsApp消息。

- 应用位置：消息适配器模块，实现多渠道接入，用户可在自己常用的聊天软件（飞书、钉钉、微信等）中给龙虾AI发指令，无需下载独立APP，降低使用成本。

- 核心特点：① 适配性极强，支持50+主流通讯平台，覆盖办公、社交场景，满足不同用户的使用习惯；② 插件化设计，新增通讯平台时，只需开发对应插件，无需重启核心系统，扩展方便；③ 消息格式自动归一化，无论用户在哪个平台发指令，都会转换成系统通用的Message对象，确保后续层能正常识别；④ libsignal-node保障WhatsApp协议的稳定对接，消息传输延迟低，同时支持加密传输，保障隐私安全；⑤ 可远程驱动本地机器，比如用户在微信上发指令，龙虾AI可在本地电脑执行操作，实现“远程控机”。

4. 消息适配器：TypeScript（自定义适配逻辑）

- 技术解释：TypeScript在这里用于编写“消息转换逻辑”，本质是一段自定义代码，专门处理不同渠道的消息格式差异，将各种格式的消息统一转换成系统能识别的标准格式。

- 应用位置：用户交互层的核心模块，对接所有入口（CLI、Web UI、聊天软件），是连接用户指令和网关层的“桥梁”。

- 核心特点：① 屏蔽不同渠道的消息差异，比如微信消息是JSON格式、CLI指令是纯文本格式，通过适配逻辑统一转成Message对象，让后续的网关层、智能体层无需关注“消息来自哪里”，只需专注于“消息是什么”；② 降低系统耦合度，后续新增通讯渠道，只需修改适配逻辑，无需修改核心系统代码；③ TypeScript编写的逻辑规范、易维护，后续可快速迭代优化，比如新增消息格式适配、优化转换效率。

二、网关接入层对应技术栈（每款技术均补充解释+细化特点）

1. 核心支撑：Node.js 22+ + TypeScript

- 技术解释：Node.js 22+是Node.js的最新稳定版本，相比旧版本，提升了异步性能、安全性和兼容性；TypeScript用于规范代码，增加类型校验，避免因类型错误导致的系统故障，两者结合是网关层所有模块的底层基础，也是整个OpenClaw的核心开发语言组合。

- 应用位置：整个网关层的底层支撑，会话管理、安全鉴权、流量控制、消息路由等所有模块，均基于Node.js 22+ + TypeScript开发，是网关层能正常运行的核心保障。

- 核心特点：① 异步性能极强，适合处理高并发的消息请求（比如多个用户同时发指令），不会出现卡顿、卡死的情况；② 开发效率高，TypeScript的类型提示的能减少开发错误，同时Node.js的丰富生态，可快速引入第三方依赖（如日志工具、消息队列），加快开发速度；③ 可快速迭代插件，网关层的所有功能均支持插件化扩展，无需重启系统即可新增功能；④ 支撑多节点分布式部署，可同时管理多个本地/远端执行节点，适配大规模使用场景；⑤ Node.js 22+的安全性提升，修复了旧版本的漏洞，保障网关层作为系统“中枢”的安全稳定。

2. 会话管理模块：SQLite（轻量数据库）

- 技术解释：SQLite是一款轻量级的关系型数据库，无需单独部署服务器（不同于MySQL、PostgreSQL），直接以文件形式存储数据，占用资源极少，适合存储轻量级数据，是开源项目中常用的本地数据库。

- 应用位置：存储用户会话信息、交互上下文、用户偏好等数据，维护每个用户的交互历史，确保用户在多次发指令时，龙虾AI能记住之前的对话内容（比如用户之前说“整理桌面”，后续说“删除冗余文件”，AI能知道是整理桌面的冗余文件）。

- 核心特点：① 轻量无依赖，无需单独部署数据库服务器，直接以文件形式存储，占用系统资源少，贴合龙虾AI“本地优先”的理念；② 读写速度快，会话数据属于轻量级数据，SQLite的读写延迟极低，能快速响应会话查询、存储请求；③ 支持会话持久化，即使龙虾AI重启，会话数据也不会丢失，用户无需重新输入上下文；④ 跨平台兼容，支持Windows/Mac/Linux三大系统，无需针对不同系统单独适配；⑤ 开源免费，无需支付数据库授权费用，降低项目开发成本。

3. 安全鉴权模块：Zod（参数校验）+ Token鉴权

- 技术解释：Zod是一款TypeScript优先的参数校验库，专门用于校验用户输入的指令参数、请求数据，确保数据格式正确、符合要求；Token鉴权是一种身份验证方式，用户登录后会获得一个唯一的Token，后续所有请求都需携带该Token，验证通过才能执行操作，防止未授权访问。

- 应用位置：验证用户身份、校验指令参数、审批高危操作（如删除系统文件、修改系统设置），是网关层的“安全防线”，确保系统不被非法操作、恶意请求攻击。

- 核心特点：① Zod参数校验严格，可自定义校验规则（比如限制指令长度、参数类型），能有效防止非法指令、恶意请求（如注入攻击），减少系统漏洞；② Token鉴权安全可靠，Token具有时效性，过期后需重新登录，同时支持权限分级（比如管理员可执行高危操作，普通用户不可）；③ 高危操作需人工审批，比如用户发“删除系统盘文件”的指令，系统会触发审批流程，确认无误后才执行，降低误操作风险；④ 支持自定义鉴权规则，可根据用户需求调整权限范围，适配不同使用场景（如个人使用、企业团队使用）；⑤ 与TypeScript完美兼容，校验逻辑可直接嵌入代码，易维护、易扩展。

4. 流量控制模块：BullMQ（消息队列）

- 技术解释：BullMQ是基于Redis的消息队列工具，主要用于处理异步任务、实现流量控制，将用户指令按顺序排队，避免多任务同时执行导致系统资源竞争、卡死，是高并发场景下的核心工具。

- 应用位置：对用户指令进行限流、排队，当多个用户同时发指令，或单个用户发多个复杂指令时，通过BullMQ按优先级排序，依次执行，防止系统卡死，保障系统稳定运行。

- 核心特点：① 支持任务优先级排序，可设置核心任务（如紧急文件处理）优先执行，非核心任务（如日志整理）延后执行；② 可实现同会话串行、异会话并行，同一用户的多个指令按顺序执行（避免上下文混乱），不同用户的指令可同时执行（提升效率）；③ 支持任务重试机制，若某条指令执行失败（如工具故障），可自动重试，确保指令不丢失；④ 适配多任务并发场景，即使同时接收几十条、上百条指令，也能稳定处理，不会出现卡顿；⑤ 与Node.js生态完美兼容，集成简单，可快速嵌入网关层，无需复杂配置。

5. 日志审计模块：tslog（日志工具）

- 技术解释：tslog是一款专门用于TypeScript/JavaScript项目的日志工具，支持按日志级别（错误、警告、信息、调试）分类，可自定义日志格式、输出位置，方便开发者排查故障、追溯操作记录。

- 应用位置：记录龙虾AI的所有操作，包括用户指令、工具调用、执行结果、错误信息、用户登录记录等，是系统故障排查、操作追溯的核心工具。

- 核心特点：① 日志分类清晰，可按级别（错误、警告、信息）筛选，比如只查看错误日志，快速定位故障原因；② 日志格式可自定义，包含时间戳、操作模块、操作内容、用户信息等，便于追溯操作记录；③ 支持本地文件存储，日志默认保存到本地，不依赖云端，保障隐私安全，符合OpenClaw“数据主权私有化”的理念；④ 轻量无依赖，占用系统资源少，不会影响系统运行速度；⑤ 支持日志轮转，可设置日志保存时间、文件大小，避免日志文件过大占用过多存储空间。

6. 消息路由模块：WebSocket JSON-RPC 2.0（通信协议）

- 技术解释：WebSocket是一种双向通信协议，能实现客户端与服务器的实时通信（无需频繁请求），适合实时指令下发、结果反馈；JSON-RPC 2.0是一种轻量级的远程调用协议，通过JSON格式传输数据，规范了请求、响应的格式，确保通信稳定、可解析。两者结合，是网关层与智能体层、执行节点之间的核心通信方式。

- 应用位置：将统一格式的用户指令，分发到对应的智能体（Agent），同时接收智能体、执行节点的反馈结果，再转发给用户，是系统数据传输的“中枢神经”。

- 核心特点：① 实时性强，WebSocket双向通信，指令下发、结果反馈无需频繁请求，延迟极低（毫秒级），适合实时操作场景（如实时控制鼠标、浏览器）；② 协议轻量，JSON-RPC 2.0的请求、响应格式简单，数据传输量小，节省带宽；③ 适配多智能体调度，可同时分发指令到多个智能体，实现多任务并行处理；④ 支持状态同步，网关层可实时获取智能体、执行节点的状态（如工具是否可用、节点是否在线），便于管理；⑤ 跨平台兼容，支持所有主流系统、浏览器，可适配本地、远端节点的通信需求。

三、智能体核心层对应技术栈（每款技术均补充解释+细化特点）

1. 核心支撑：Node.js + TypeScript + jiti（动态插件加载）

- 技术解释：Node.js + TypeScript是底层开发语言，保障代码规范、高效；jiti是一款轻量级的动态模块加载工具，无需重启系统，即可动态加载、卸载插件（如意图理解插件、模型调度插件），是OpenClaw插件化架构的核心支撑。

- 应用位置：整个智能体层的底层支撑，负责加载意图理解、任务规划、反思纠错、模型调度等所有模块，同时支持插件的动态扩展，是智能体层能灵活迭代、扩展功能的核心保障。

- 核心特点：① 支持动态加载插件，无需重启系统，即可新增、卸载功能（如新增意图理解规则、新增模型适配插件），迭代效率极高；② 核心框架体积轻量化，通过jiti的动态加载优化，核心框架体积从45MB压缩至8MB，占用系统资源少，适配低配电脑；③ 适配多模型调度，可通过动态插件加载不同的模型Provider（如OpenAI、Ollama），无需修改核心代码；④ 支撑复杂的Agentic Workflow编排，可灵活组合意图理解、任务规划、工具调度等模块，实现AI自主思考、自主执行；⑤ TypeScript的类型校验，减少代码报错，jiti的动态加载机制，提升系统灵活性，两者结合兼顾稳定性和扩展性。

2. 意图理解/任务规划/反思纠错模块：大模型API + 自定义Prompt工程

- 技术解释：大模型API是指调用大模型（如OpenAI的GPT-4、Claude 3、本地Ollama运行的Qwen2.5）的接口，获取大模型的推理能力；自定义Prompt工程是指通过编写精准的提示词（Prompt），引导大模型理解用户意图、拆解任务、检查错误，让大模型的输出更符合龙虾AI的需求，是AI“思考能力”的核心。

- 应用位置：智能体层的核心功能模块，负责理解用户指令（比如用户说“整理邮箱并生成周报”，AI能听懂核心需求）、拆解任务（拆成“打开邮箱→读取邮件→提取数据→生成周报”）、检查执行结果（比如生成的周报是否完整）、优化执行步骤（比如步骤不合理时调整顺序）。

- 核心特点：① 适配多模型，支持本地模型（Ollama运行的Qwen2.5、GLM-4）和云端模型（OpenAI、Claude）无缝切换，本地模型无需联网、隐私安全，云端模型推理能力强，可根据任务难度灵活选择；② 自定义Prompt经过多轮优化，能精准引导大模型拆解复杂任务、识别执行错误，避免大模型“答非所问”“步骤混乱”；③ 支撑“Observe-Think-Act-Reflect”龙虾循环（看屏幕→想步骤→动手操作→检查结果），实现AI自主思考和纠错，无需人工干预；④ 可根据任务类型调整Prompt，比如办公任务侧重“步骤清晰、高效”，开发任务侧重“精准、严谨”；⑤ 支持Prompt动态更新，可根据用户反馈、场景需求，优化Prompt逻辑，提升AI思考的准确性。

3. 三级记忆系统：本地文件（.md日志）+ SQLite + sqlite-vec（向量检索）

- 技术解释：本地.md文件用于存储短期记忆（当日操作日志），是纯文本格式，易读取、易维护；SQLite用于存储近端记忆（会话存档），保障会话上下文的持久化；sqlite-vec是SQLite的向量检索插件，可将文本（如用户偏好、会话内容）转换成向量，实现快速语义检索，是“记忆检索”的核心。三者结合，构成龙虾AI的三级记忆系统，让AI能“记住”用户偏好、历史操作。

- 应用位置：存储短期记忆（当日日志，如“今日10点执行整理桌面任务”）、近端记忆（会话存档，如用户与AI的对话记录）、长期记忆（用户偏好，如“用户喜欢将文件按日期分类”），支撑AI的上下文理解、个性化服务。

- 核心特点：① 混合检索机制（BM25+向量检索+RRF融合），BM25用于关键词检索（如检索“整理文件”相关操作），向量检索用于语义检索（如用户说“帮我整理一下资料”，AI能识别出是“整理文件”的意思），RRF融合两种检索结果，提升检索精准度；② 所有记忆本地存储，不依赖云端，隐私可控，符合OpenClaw“本地优先”的核心理念；③ 支持记忆压缩，可自动压缩长期未使用的记忆，避免占用过多本地存储空间；④ 记忆可追溯，用户可查看自己的历史记忆（如之前的对话、操作记录），同时支持手动删除记忆，保障隐私；⑤ 适配多场景，短期记忆保障当日操作的连贯性，近端记忆保障会话上下文的连贯性，长期记忆实现个性化服务，让AI越用越顺手。

4. 模型调度模块：Ollama（本地模型引擎）+ 多模型Provider插件

- 技术解释：Ollama是一款轻量级的本地大模型运行引擎，无需复杂配置，可快速部署本地大模型（如Qwen2.5、GLM-4、Llama 3），支持模型的下载、运行、调用；多模型Provider插件是针对不同云端模型（如OpenAI、Claude、Gemini）开发的适配插件，实现与云端模型的对接，可灵活切换模型。

- 应用位置：调用本地/云端大模型，为智能体的意图理解、任务规划、反思纠错提供推理能力，是AI“思考”的核心动力来源。

- 核心特点：① 支持本地与云端模型无缝切换，本地模型无需联网、隐私安全，适合处理敏感数据（如个人文件、企业机密），云端模型推理能力强，适合处理复杂任务（如复杂任务拆解、语义理解）；② Ollama轻量易用，无需专业技术，一键下载、运行本地模型，适配普通用户；③ 可自定义模型上下文长度，比如将模型上下文扩展至32k tokens，支撑超长对话、复杂任务拆解（如整理上千条邮件）；④ 适配不同任务场景，轻量任务（如简单文件操作）可调用小型模型（qwen2.5:0.5b），复杂任务（如周报生成、代码开发）可调用大型模型（glm-4.7-flash、GPT-4），兼顾效率和性能；⑤ 支持多模型并行调用，可同时调用多个模型处理不同任务，提升执行效率；⑥ 可通过配置文件快速对接新模型，新增云端/本地模型时，只需修改配置，无需修改核心代码，扩展方便。

四、工具能力层对应技术栈（每款技术均补充解释+细化特点）

1. 屏幕视觉工具：OCR识别库（如Tesseract）+ 截图工具（如sharp）

- 技术解释：OCR（光学字符识别）是将图片中的文字转换成可编辑文本的技术，Tesseract是一款开源的OCR识别库，支持多语言、高精度识别；sharp是一款基于Node.js的图片处理库，主要用于截图、图片压缩、格式转换，是龙虾AI“看屏幕”的核心工具组合。

- 应用位置：截图（捕获屏幕画面）、OCR识别（识别屏幕中的文字、按钮、输入框等元素）、读取屏幕内容（如读取网页文字、软件界面文字），模拟人类“看屏幕”的动作，是龙虾AI实现视觉感知的核心。

- 核心特点：① OCR识别准确率高，Tesseract支持多语言（中文、英文、日文等），可识别不同字体、不同大小的文字，同时支持识别界面元素（如按钮、输入框的位置、名称）；② sharp截图速度快，延迟低，可捕获整个屏幕、指定区域的画面，同时支持图片压缩，减少存储空间占用；③ 轻量无依赖，无需安装复杂的软件，可直接嵌入工具层，占用系统资源少；④ 适配多场景，支撑网页调研（识别网页文字）、界面操作（识别按钮位置）、文件识别（识别图片中的文字）等场景；⑤ 可自定义识别规则，比如重点识别某类元素（如输入框、按钮），提升识别效率。

2. 键鼠模拟工具：robotjs（桌面自动化库）

- 技术解释：robotjs是一款基于Node.js的桌面自动化库，可直接调用系统底层接口，模拟人类的鼠标、键盘操作，比如鼠标移动、点击、拖拽，键盘输入、快捷键操作，是龙虾AI“动手”的核心工具。

- 应用位置：模拟鼠标移动、点击（如点击软件图标、按钮）、键盘输入（如输入文字、快捷键），实现桌面自动化操作，无需人工干预，支撑文件操作、软件控制等基础执行任务。

- 核心特点：① 跨平台兼容，支持Windows/Mac/Linux三大系统，无需针对不同系统单独开发，适配多设备场景；② 操作精准，可精准控制鼠标的位置、点击力度（左键、右键），键盘输入的速度、字符，模拟人类的操作习惯，避免操作失误；③ 延迟低，操作响应速度快，模拟鼠标点击、键盘输入的延迟在毫秒级，适合实时操作场景；④ 支持快捷键操作，可模拟各种系统快捷键（如Ctrl+C复制、Ctrl+V粘贴），提升操作效率；⑤ 轻量无依赖，可直接嵌入工具层，占用系统资源少，不会影响其他工具、模块的运行。

3. 浏览器工具：Playwright（浏览器自动化库）

- 技术解释：Playwright是微软开源的浏览器自动化库，支持Chrome、Firefox、Edge等所有主流浏览器，可自动控制浏览器执行操作（如打开网页、点击元素、输入内容、爬取数据），相比传统的Selenium，更轻量、更稳定，支持动态网页（JS渲染的页面）。

- 应用位置：自动打开浏览器、访问指定网页、点击网页元素（如按钮、输入框）、输入内容（如搜索关键词、登录账号）、爬取网页数据（如新闻、表格），实现网页自动化操作，支撑网页调研、在线操作等场景。

- 核心特点：① 多浏览器支持，兼容Chrome、Firefox、Edge等主流浏览器，可根据需求选择浏览器，无需单独适配；② 稳定性强，相比Selenium，Playwright对动态网页（如JS渲染的页面、异步加载的内容）的支持更好，不会出现“元素找不到”的问题；③ 轻量高效，启动速度快，占用系统资源少，可同时控制多个浏览器窗口，实现多网页并行操作；④ 支持无头模式（无浏览器界面），可在后台执行网页操作，不影响用户正常使用电脑；⑤ 内置等待机制，可自动等待网页加载完成、元素出现，避免操作失误，提升自动化操作的成功率；⑥ 支持截图、录屏，可记录网页操作过程，便于排查故障。

4. 系统操作工具：Node.js内置fs模块（文件操作）+ child_process（命令行调用）

- 技术解释：fs模块是Node.js内置的文件系统模块，无需额外安装，可直接用于读写文件、创建文件夹、删除文件等操作；child_process是Node.js内置的子进程模块，可用于调用系统终端、执行命令行指令（如Windows的cmd命令、Mac/Linux的终端命令），是龙虾AI操作本地系统的核心工具。

- 应用位置：读写本地文件（如创建文档、修改文件内容）、管理文件夹（如创建文件夹、删除文件夹）、运行命令行指令（如执行脚本、安装软件）、调用系统API，实现本地系统的深度操作，支撑本地任务自动化。

- 核心特点：① 原生支持，无需额外安装依赖，直接嵌入Node.js环境，开发、集成简单；② 跨平台适配，fs模块、child_process模块可在Windows/Mac/Linux三大系统上运行，无需针对不同系统单独修改代码；③ 操作权限高，可直接操作本地文件系统、终端，实现深度系统交互（如修改系统配置、运行系统脚本），是龙虾AI具备系统级执行权限的核心支撑；④ 操作灵活，可实现复杂的文件操作（如批量复制、批量删除、文件重命名）、命令行操作（如批量执行脚本、查询系统状态）；⑤ 性能稳定，Node.js内置模块的运行效率高，不会出现卡顿、崩溃的情况，保障系统操作的稳定性。

5. 工具管理模块：TypeScript（插件管理逻辑）+ YAML（配置文件，claw.yaml）

- 技术解释：TypeScript用于编写工具管理的核心逻辑，包括工具的加载、卸载、状态监控、异常处理等；YAML是一种简洁的配置文件格式，claw.yaml是龙虾AI的核心配置文件，用于定义工具的依赖、权限、运行参数等，无需修改代码，即可配置工具。

- 应用位置：加载/卸载工具、监控工具状态（如工具是否可用、是否故障）、处理工具异常（如工具执行失败时切换备用工具）、配置工具权限（如限制工具的文件访问权限），是工具能力层的“管理中枢”。

- 核心特点：① 支持自定义工具，用户可通过TypeScript/Python/Shell编写工具插件，无需修改核心系统代码，即可让龙虾AI学新技能（如新增“操作Excel”“编辑图片”的工具）；② 工具可热重载，新增、卸载工具时，无需重启龙虾AI，直接生效，迭代效率高；③ 单个工具故障不影响整个系统，某一个工具出现故障（如键鼠模拟工具崩溃），系统会自动切换备用工具，或暂停该工具的使用，确保其他工具、模块正常运行；④ 通过claw.yaml配置工具，无需编写代码，即可调整工具的依赖、权限、运行参数（如限制工具只能访问指定文件夹），降低配置难度；⑤ 支持工具故障自动切换，系统实时监控工具状态，发现工具故障后，自动切换到备用工具，提升系统稳定性；⑥ 支撑龙虾AI的递归式技能进化机制，AI可自主封装新工具（如将“打开浏览器→搜索内容→保存文件”的步骤封装成一个新工具），提升执行效率。

五、系统执行层对应技术栈（每款技术均补充解释+细化特点）

1. 系统接口适配：Node.js跨平台API + 系统原生接口

- 技术解释：Node.js跨平台API是Node.js提供的、可在多系统（Windows/Mac/Linux）上运行的接口，用于对接不同系统的通用功能（如文件操作、进程管理）；系统原生接口是各个系统（Windows的Win32 API、Mac的Cocoa API、Linux的POSIX API）提供的底层接口，用于对接系统的专属功能（如Windows的注册表操作、Mac的桌面控制）。两者结合，实现龙虾AI与不同系统的深度对接。

- 应用位置：对接Windows/Mac/Linux三大系统，调用系统底层驱动，将工具层的操作请求（如鼠标点击、文件读写）转换成系统能识别的指令，实现与硬件的联动，是工具层与硬件层之间的“桥梁”。

- 核心特点：① 跨平台兼容性强，Node.js跨平台API保障通用功能的跨系统运行，系统原生接口保障专属功能的适配，无需针对不同系统单独开发核心代码，降低开发成本；② 可直接调用系统底层接口，实现深度系统交互（如控制桌面分辨率、修改系统设置），支撑复杂的系统操作；③ 适配本地和远端执行节点，无论是本地电脑还是远端服务器，都能通过接口适配，实现跨设备操作；④ 运行效率高，直接调用系统原生接口，操作延迟低，确保工具操作能快速落地；⑤ 可扩展性强，新增系统适配时，只需新增对应的系统原生接口调用逻辑，无需修改核心代码。

2. Docker沙箱：Docker（容器技术）

- 技术解释：Docker是一款轻量级的容器化技术，可将应用程序及其依赖打包成一个独立的容器，容器与宿主系统完全隔离，容器内的操作不会影响宿主系统，相当于一个“隔离的虚拟环境”，是保障系统安全的核心技术。

- 应用位置：隔离工具执行环境，所有工具（如键鼠模拟工具、浏览器工具、系统操作工具）都在Docker容器内执行，防止工具误操作、恶意操作修改宿主系统、泄露隐私，是系统执行层的“安全屏障”。

- 核心特点：① 完全隔离

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

AI Agent 面试题 720：如何实现Agent的安全日志的实时分析？

权限控制与沙箱是 AI Agent 技术体系中的重要组成部分。简单来说，它涉及到 Agent 如何在 Agent安全与对齐层面实现智能化的行为和决策。在实际应用中，权限控制与沙箱的核心目标是让 Agent 能够更加高效、准确地完成特定任务。这需要我们深入理解其底层原理和实现机制。从学术角度来看，权限控制与沙箱的研究可以追溯到人工智能的早期阶段。早在 1950 年代，Alan Turing

龙虾开发者社区

AI Agent 面试题 714：如何设计Agent的安全合规自动化检查流程？

对齐技术是 AI Agent 技术体系中的重要组成部分。简单来说，它涉及到 Agent 如何在 Agent安全与对齐层面实现智能化的行为和决策。在实际应用中，对齐技术的核心目标是让 Agent 能够更加高效、准确地完成特定任务。这需要我们深入理解其底层原理和实现机制。从学术角度来看，对齐技术的研究可以追溯到人工智能的早期阶段。早在 1950 年代，Alan Turing 就提出了关于机器智

龙虾开发者社区

AI Agent 面试题 726：如何设计Agent的安全事件的根因分析流程？

红队测试是 AI Agent 技术体系中的重要组成部分。简单来说，它涉及到 Agent 如何在 Agent安全与对齐层面实现智能化的行为和决策。在实际应用中，红队测试的核心目标是让 Agent 能够更加高效、准确地完成特定任务。这需要我们深入理解其底层原理和实现机制。从学术角度来看，红队测试的研究可以追溯到人工智能的早期阶段。早在 1950 年代，Alan Turing 就提出了关于机器智