龙虾AI(OpenClaw)超精细图片式架构图(带模块细节+数据流+技术栈详解)
龙虾 AI(OpenClaw)采用六层架构(用户交互层、网关接入层、智能体核心层、工具能力层、系统执行层、设备硬件层),以 Node.js+TypeScript 为核心开发语言,整合多类技术栈实现用户多渠道指令接入、AI 自主思考调度、工具执行及硬件落地,兼具轻量、本地优先、可扩展特性。
─────────────────────────────────────────────────────────────────────────────────────
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第一层:用户交互层(接入层) │
│ 作用:用户通过各种方式发指令,所有入口统一汇总,转换成龙虾能识别的格式 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 命令行(CLI)│ │ Web UI界面 │ │ 企业办公软件 │ │ 社交软件 │ │
│ │ (技术党用) │ │ (可视化用) │ │ (飞书/钉钉)│ │ (微信/QQ) │ │
│ │ 输入指令执行 │ │ 点击操作、输指令 │ │ 集成机器人 │ │ 小程序/机器人│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 消息适配器模块:统一所有入口的消息格式,转换成系统通用的Message对象 │ │
│ │ (比如:把微信消息、CLI指令,都变成一样的格式,让后续层能看懂) │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第二层:网关接入层(中枢枢纽) │
│ 作用:所有数据必经之路,管安全、管调度、管会话,避免系统混乱 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 会话管理模块 │ │ 安全鉴权模块 │ │ 流量控制模块 │ │ 日志审计模块 │ │
│ │ - 维护用户会话│ │ - 验证用户权限│ │ - 限流(防卡死)│ │ - 记录所有操作│ │
│ │ - 保存上下文 │ │ - 高危操作审批│ │ - 排队处理任务│ │ - 出错可追溯 │ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 消息路由模块:把统一格式的指令,分发到对应的智能体(Agent) │ │
│ │ (比如:办公任务分给办公Agent,开发任务分给开发Agent) │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第三层:智能体核心层(龙虾大脑) │
│ 作用:真正“思考”,理解指令、拆任务、调工具、纠错,是龙虾AI的核心灵魂 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 意图理解模块 │ │ 任务规划模块 │ │ 工具调度模块 │ │ 反思纠错模块 │ │
│ │ - 听懂用户需求│ │ - 拆成多步骤 │ │ - 选对应工具 │ │ - 检查结果对错│ │
│ │ - 识别核心目标│ │ - 排执行顺序 │ │ - 传执行参数 │ │ - 错了就重试 │ │
│ │ - 区分任务类型│ │ - 处理异常步骤│ │ - 监控工具状态│ │ - 优化执行步骤│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 三级记忆系统(龙虾的“记性”):存储上下文、偏好、历史,越用越顺手 │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │ 短期记忆 │ │ 近端记忆 │ │ 长期记忆 │ │ │
│ │ │ (当日日志)│ │ (会话存档)│ │ (用户偏好)│ │ │
│ │ └──────────┘ └──────────┘ └──────────┘ │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 模型调度模块:调用大模型(本地/云端),辅助思考、理解指令 │ │
│ │ - 支持Ollama(本地)、OpenAI、Claude等 │ │
│ │ - 动态切换模型,适配不同任务难度 │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第四层:工具能力层(龙虾的手脚眼睛) │
│ 作用:接收大脑指令,执行具体动作,相当于龙虾的“手脚”,还有“眼睛” │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 屏幕视觉工具 │ │ 键鼠模拟工具 │ │ 浏览器工具 │ │ 系统操作工具 │ │
│ │ (龙虾的眼睛)│ │ (龙虾的手) │ │ (自动上网) │ │ (操作电脑) │ │
│ │ - 截图、OCR识别│ │ - 移动鼠标 │ │ - Playwright │ │ - 读写文件 │ │
│ │ - 识别界面元素│ │ - 点击、输入 │ │ - 自动点击/输入│ │ - 运行命令行 │ │
│ │ - 读取屏幕内容│ │ - 快捷键操作 │ │ - 爬取网页数据│ │ - 调用系统API│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────────────────────────────┐ │
│ │ 工具管理模块:加载/卸载工具、监控工具状态、处理工具异常 │ │
│ │ - 支持自定义工具(自己写插件,让龙虾学新技能) │ │
│ │ - 工具故障时自动切换备用工具 │ │
│ └───────────────────────────────┬──────────────────────────────────────┘ │
└───────────────────────────────────┼─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第五层:系统执行层(底层驱动) │
│ 作用:连接工具和电脑硬件,真正执行动作,同时保障安全,不搞乱电脑 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 系统接口适配 │ │ Docker沙箱 │ │ 节点管理模块 │ │ 错误处理模块 │ │
│ │ - 对接Windows/ │ │ - 隔离工具执行│ │ - 管理本地/远端│ │ - 捕获执行错误│ │
│ │ Mac/Linux │ │ - 防止乱改系统│ │ 执行节点 │ │ - 返回错误信息│ │
│ │ - 调用系统驱动 │ │ - 限制工具权限│ │ - 节点心跳检测│ │ - 触发重试机制│ │
│ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ └───────┬──────┘ │
│ │ │ │ │ │
│ └─────────────────┼─────────────────┼─────────────────┘ │
│ ↓ │
└───────────────────────────────────┬─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────────────────┐
│ 第六层:设备硬件层(最终执行端) │
│ 作用:接收底层指令,完成物理/虚拟操作,是所有动作的最终落地端 │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 显示设备 │ │ 输入设备 │ │ 存储设备 │ │ 网络设备 │ │
│ │ (屏幕:显示操作)│ │ (鼠标/键盘) │ │ (硬盘/U盘) │ │ (联网操作) │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │
└─────────────────────────────────────────────────────────────────────────────────┘
─────────────────────────────────────────────────────────────────────────────────────
补充1:关键数据流(白话文版,看懂数据怎么跑)
1. 用户 → 交互层:发指令(比如“整理桌面文件”);
2. 交互层 → 网关层:指令转统一格式,带用户会话信息;
3. 网关层 → 智能体层:指令分发到对应Agent,带上历史会话;
4. 智能体层 → 工具层:大脑拆解任务,调用对应工具(比如“文件操作工具”);
5. 工具层 → 系统执行层:工具请求执行动作(比如“删除冗余文件”);
6. 系统执行层 → 硬件层:底层驱动调用硬件,完成实际操作;
7. 反向反馈:操作结果从硬件层→系统层→工具层→智能体层→网关层→交互层,最终反馈给用户。
补充2:额外细节(比上一版新增,更贴近真实架构)
1. 新增「三级记忆系统」:解释龙虾“记东西”的方式,为什么能越用越顺手;
2. 新增「安全组件」:沙箱、鉴权、日志,解释龙虾为什么不会乱搞电脑;
3. 新增「工具管理模块」:说明龙虾怎么加载新技能、处理工具故障;
4. 新增「节点管理」:支持本地+远端执行,解释龙虾怎么跨设备干活;
5. 每个模块都补充「具体功能」,不是只写名字,小白也能看懂每个模块干嘛用。
补充3:详细技术栈拆解(按层对应,白话文+无黑话,新增技术解释+细化特点)
核心说明:龙虾AI的技术栈核心是「轻量、本地优先、可扩展」,所有技术栈都围绕“让AI自主操作电脑”展开,以下按每层对应模块,详细说明“技术基础解释、用在哪里、核心特点”,全程小白易懂,无专业黑话。
一、用户交互层 对应技术栈(每款技术均补充解释+细化特点)
1. 命令行(CLI):Node.js + TypeScript(底层支撑)
- 技术解释:Node.js是基于Chrome V8引擎的JavaScript运行环境,能让JavaScript脱离浏览器运行;TypeScript是JavaScript的超集,增加了类型校验,让代码更规范、不易出错,两者结合是OpenClaw的核心底层开发组合。
- 应用位置:用户通过PowerShell(Windows)、终端(Mac/Linux)输入指令的入口,是技术党最常用的操作方式,无需图形界面,直接通过命令驱动龙虾AI执行任务。
- 核心特点:① 轻量无依赖,启动速度快,占用系统资源少,即使低配电脑也能流畅运行;② 无需图形界面,适合远程操作(比如通过SSH远程控制电脑运行龙虾AI)和批量任务执行;③ 搭配OpenClaw自定义指令,可快速执行复杂操作(如批量整理文件、批量运行脚本);④ TypeScript的类型校验的,能减少代码报错,提升系统稳定性。
2. Web UI界面:Express(Web服务)+ 简单前端(HTML/CSS/JS)
- 技术解释:Express是基于Node.js的轻量级Web开发框架,主要用于搭建Web服务,接收用户请求、返回响应;HTML负责Web界面的结构(比如按钮、输入框),CSS负责界面样式(颜色、布局),JS负责界面交互(点击按钮、输入内容),三者结合实现可视化操作界面。
- 应用位置:龙虾AI的可视化操作界面(默认访问地址:http://127.0.0.1:18789),小白用户可通过点击按钮、输入文本的方式操作,无需记住复杂命令,同时可直观查看任务进度、会话记录、执行日志。
- 核心特点:① 操作简单,小白友好,降低使用门槛,无需具备技术基础;② 界面简洁,重点突出,可快速找到“发送指令”“查看日志”“管理工具”等核心功能;③ 支持管理员登录验证,防止未授权用户操作,保障系统安全;④ Express轻量高效,启动速度快,不会占用过多系统资源,与龙虾AI整体轻量定位契合。
3. 企业办公/社交软件集成:插件化适配(飞书/钉钉/微信/QQ等)+ libsignal-node(WhatsApp协议支撑)
- 技术解释:插件化适配是一种开发模式,为每个通讯平台(飞书、钉钉等)单独开发“插件”,实现与平台的对接,无需修改核心代码;libsignal-node是一款开源的信号处理库,主要用于适配WhatsApp的通信协议,让龙虾AI能接收、发送WhatsApp消息。
- 应用位置:消息适配器模块,实现多渠道接入,用户可在自己常用的聊天软件(飞书、钉钉、微信等)中给龙虾AI发指令,无需下载独立APP,降低使用成本。
- 核心特点:① 适配性极强,支持50+主流通讯平台,覆盖办公、社交场景,满足不同用户的使用习惯;② 插件化设计,新增通讯平台时,只需开发对应插件,无需重启核心系统,扩展方便;③ 消息格式自动归一化,无论用户在哪个平台发指令,都会转换成系统通用的Message对象,确保后续层能正常识别;④ libsignal-node保障WhatsApp协议的稳定对接,消息传输延迟低,同时支持加密传输,保障隐私安全;⑤ 可远程驱动本地机器,比如用户在微信上发指令,龙虾AI可在本地电脑执行操作,实现“远程控机”。
4. 消息适配器:TypeScript(自定义适配逻辑)
- 技术解释:TypeScript在这里用于编写“消息转换逻辑”,本质是一段自定义代码,专门处理不同渠道的消息格式差异,将各种格式的消息统一转换成系统能识别的标准格式。
- 应用位置:用户交互层的核心模块,对接所有入口(CLI、Web UI、聊天软件),是连接用户指令和网关层的“桥梁”。
- 核心特点:① 屏蔽不同渠道的消息差异,比如微信消息是JSON格式、CLI指令是纯文本格式,通过适配逻辑统一转成Message对象,让后续的网关层、智能体层无需关注“消息来自哪里”,只需专注于“消息是什么”;② 降低系统耦合度,后续新增通讯渠道,只需修改适配逻辑,无需修改核心系统代码;③ TypeScript编写的逻辑规范、易维护,后续可快速迭代优化,比如新增消息格式适配、优化转换效率。
二、网关接入层 对应技术栈(每款技术均补充解释+细化特点)
1. 核心支撑:Node.js 22+ + TypeScript
- 技术解释:Node.js 22+是Node.js的最新稳定版本,相比旧版本,提升了异步性能、安全性和兼容性;TypeScript用于规范代码,增加类型校验,避免因类型错误导致的系统故障,两者结合是网关层所有模块的底层基础,也是整个OpenClaw的核心开发语言组合。
- 应用位置:整个网关层的底层支撑,会话管理、安全鉴权、流量控制、消息路由等所有模块,均基于Node.js 22+ + TypeScript开发,是网关层能正常运行的核心保障。
- 核心特点:① 异步性能极强,适合处理高并发的消息请求(比如多个用户同时发指令),不会出现卡顿、卡死的情况;② 开发效率高,TypeScript的类型提示的能减少开发错误,同时Node.js的丰富生态,可快速引入第三方依赖(如日志工具、消息队列),加快开发速度;③ 可快速迭代插件,网关层的所有功能均支持插件化扩展,无需重启系统即可新增功能;④ 支撑多节点分布式部署,可同时管理多个本地/远端执行节点,适配大规模使用场景;⑤ Node.js 22+的安全性提升,修复了旧版本的漏洞,保障网关层作为系统“中枢”的安全稳定。
2. 会话管理模块:SQLite(轻量数据库)
- 技术解释:SQLite是一款轻量级的关系型数据库,无需单独部署服务器(不同于MySQL、PostgreSQL),直接以文件形式存储数据,占用资源极少,适合存储轻量级数据,是开源项目中常用的本地数据库。
- 应用位置:存储用户会话信息、交互上下文、用户偏好等数据,维护每个用户的交互历史,确保用户在多次发指令时,龙虾AI能记住之前的对话内容(比如用户之前说“整理桌面”,后续说“删除冗余文件”,AI能知道是整理桌面的冗余文件)。
- 核心特点:① 轻量无依赖,无需单独部署数据库服务器,直接以文件形式存储,占用系统资源少,贴合龙虾AI“本地优先”的理念;② 读写速度快,会话数据属于轻量级数据,SQLite的读写延迟极低,能快速响应会话查询、存储请求;③ 支持会话持久化,即使龙虾AI重启,会话数据也不会丢失,用户无需重新输入上下文;④ 跨平台兼容,支持Windows/Mac/Linux三大系统,无需针对不同系统单独适配;⑤ 开源免费,无需支付数据库授权费用,降低项目开发成本。
3. 安全鉴权模块:Zod(参数校验)+ Token鉴权
- 技术解释:Zod是一款TypeScript优先的参数校验库,专门用于校验用户输入的指令参数、请求数据,确保数据格式正确、符合要求;Token鉴权是一种身份验证方式,用户登录后会获得一个唯一的Token,后续所有请求都需携带该Token,验证通过才能执行操作,防止未授权访问。
- 应用位置:验证用户身份、校验指令参数、审批高危操作(如删除系统文件、修改系统设置),是网关层的“安全防线”,确保系统不被非法操作、恶意请求攻击。
- 核心特点:① Zod参数校验严格,可自定义校验规则(比如限制指令长度、参数类型),能有效防止非法指令、恶意请求(如注入攻击),减少系统漏洞;② Token鉴权安全可靠,Token具有时效性,过期后需重新登录,同时支持权限分级(比如管理员可执行高危操作,普通用户不可);③ 高危操作需人工审批,比如用户发“删除系统盘文件”的指令,系统会触发审批流程,确认无误后才执行,降低误操作风险;④ 支持自定义鉴权规则,可根据用户需求调整权限范围,适配不同使用场景(如个人使用、企业团队使用);⑤ 与TypeScript完美兼容,校验逻辑可直接嵌入代码,易维护、易扩展。
4. 流量控制模块:BullMQ(消息队列)
- 技术解释:BullMQ是基于Redis的消息队列工具,主要用于处理异步任务、实现流量控制,将用户指令按顺序排队,避免多任务同时执行导致系统资源竞争、卡死,是高并发场景下的核心工具。
- 应用位置:对用户指令进行限流、排队,当多个用户同时发指令,或单个用户发多个复杂指令时,通过BullMQ按优先级排序,依次执行,防止系统卡死,保障系统稳定运行。
- 核心特点:① 支持任务优先级排序,可设置核心任务(如紧急文件处理)优先执行,非核心任务(如日志整理)延后执行;② 可实现同会话串行、异会话并行,同一用户的多个指令按顺序执行(避免上下文混乱),不同用户的指令可同时执行(提升效率);③ 支持任务重试机制,若某条指令执行失败(如工具故障),可自动重试,确保指令不丢失;④ 适配多任务并发场景,即使同时接收几十条、上百条指令,也能稳定处理,不会出现卡顿;⑤ 与Node.js生态完美兼容,集成简单,可快速嵌入网关层,无需复杂配置。
5. 日志审计模块:tslog(日志工具)
- 技术解释:tslog是一款专门用于TypeScript/JavaScript项目的日志工具,支持按日志级别(错误、警告、信息、调试)分类,可自定义日志格式、输出位置,方便开发者排查故障、追溯操作记录。
- 应用位置:记录龙虾AI的所有操作,包括用户指令、工具调用、执行结果、错误信息、用户登录记录等,是系统故障排查、操作追溯的核心工具。
- 核心特点:① 日志分类清晰,可按级别(错误、警告、信息)筛选,比如只查看错误日志,快速定位故障原因;② 日志格式可自定义,包含时间戳、操作模块、操作内容、用户信息等,便于追溯操作记录;③ 支持本地文件存储,日志默认保存到本地,不依赖云端,保障隐私安全,符合OpenClaw“数据主权私有化”的理念;④ 轻量无依赖,占用系统资源少,不会影响系统运行速度;⑤ 支持日志轮转,可设置日志保存时间、文件大小,避免日志文件过大占用过多存储空间。
6. 消息路由模块:WebSocket JSON-RPC 2.0(通信协议)
- 技术解释:WebSocket是一种双向通信协议,能实现客户端与服务器的实时通信(无需频繁请求),适合实时指令下发、结果反馈;JSON-RPC 2.0是一种轻量级的远程调用协议,通过JSON格式传输数据,规范了请求、响应的格式,确保通信稳定、可解析。两者结合,是网关层与智能体层、执行节点之间的核心通信方式。
- 应用位置:将统一格式的用户指令,分发到对应的智能体(Agent),同时接收智能体、执行节点的反馈结果,再转发给用户,是系统数据传输的“中枢神经”。
- 核心特点:① 实时性强,WebSocket双向通信,指令下发、结果反馈无需频繁请求,延迟极低(毫秒级),适合实时操作场景(如实时控制鼠标、浏览器);② 协议轻量,JSON-RPC 2.0的请求、响应格式简单,数据传输量小,节省带宽;③ 适配多智能体调度,可同时分发指令到多个智能体,实现多任务并行处理;④ 支持状态同步,网关层可实时获取智能体、执行节点的状态(如工具是否可用、节点是否在线),便于管理;⑤ 跨平台兼容,支持所有主流系统、浏览器,可适配本地、远端节点的通信需求。
三、智能体核心层 对应技术栈(每款技术均补充解释+细化特点)
1. 核心支撑:Node.js + TypeScript + jiti(动态插件加载)
- 技术解释:Node.js + TypeScript是底层开发语言,保障代码规范、高效;jiti是一款轻量级的动态模块加载工具,无需重启系统,即可动态加载、卸载插件(如意图理解插件、模型调度插件),是OpenClaw插件化架构的核心支撑。
- 应用位置:整个智能体层的底层支撑,负责加载意图理解、任务规划、反思纠错、模型调度等所有模块,同时支持插件的动态扩展,是智能体层能灵活迭代、扩展功能的核心保障。
- 核心特点:① 支持动态加载插件,无需重启系统,即可新增、卸载功能(如新增意图理解规则、新增模型适配插件),迭代效率极高;② 核心框架体积轻量化,通过jiti的动态加载优化,核心框架体积从45MB压缩至8MB,占用系统资源少,适配低配电脑;③ 适配多模型调度,可通过动态插件加载不同的模型Provider(如OpenAI、Ollama),无需修改核心代码;④ 支撑复杂的Agentic Workflow编排,可灵活组合意图理解、任务规划、工具调度等模块,实现AI自主思考、自主执行;⑤ TypeScript的类型校验,减少代码报错,jiti的动态加载机制,提升系统灵活性,两者结合兼顾稳定性和扩展性。
2. 意图理解/任务规划/反思纠错模块:大模型API + 自定义Prompt工程
- 技术解释:大模型API是指调用大模型(如OpenAI的GPT-4、Claude 3、本地Ollama运行的Qwen2.5)的接口,获取大模型的推理能力;自定义Prompt工程是指通过编写精准的提示词(Prompt),引导大模型理解用户意图、拆解任务、检查错误,让大模型的输出更符合龙虾AI的需求,是AI“思考能力”的核心。
- 应用位置:智能体层的核心功能模块,负责理解用户指令(比如用户说“整理邮箱并生成周报”,AI能听懂核心需求)、拆解任务(拆成“打开邮箱→读取邮件→提取数据→生成周报”)、检查执行结果(比如生成的周报是否完整)、优化执行步骤(比如步骤不合理时调整顺序)。
- 核心特点:① 适配多模型,支持本地模型(Ollama运行的Qwen2.5、GLM-4)和云端模型(OpenAI、Claude)无缝切换,本地模型无需联网、隐私安全,云端模型推理能力强,可根据任务难度灵活选择;② 自定义Prompt经过多轮优化,能精准引导大模型拆解复杂任务、识别执行错误,避免大模型“答非所问”“步骤混乱”;③ 支撑“Observe-Think-Act-Reflect”龙虾循环(看屏幕→想步骤→动手操作→检查结果),实现AI自主思考和纠错,无需人工干预;④ 可根据任务类型调整Prompt,比如办公任务侧重“步骤清晰、高效”,开发任务侧重“精准、严谨”;⑤ 支持Prompt动态更新,可根据用户反馈、场景需求,优化Prompt逻辑,提升AI思考的准确性。
3. 三级记忆系统:本地文件(.md日志)+ SQLite + sqlite-vec(向量检索)
- 技术解释:本地.md文件用于存储短期记忆(当日操作日志),是纯文本格式,易读取、易维护;SQLite用于存储近端记忆(会话存档),保障会话上下文的持久化;sqlite-vec是SQLite的向量检索插件,可将文本(如用户偏好、会话内容)转换成向量,实现快速语义检索,是“记忆检索”的核心。三者结合,构成龙虾AI的三级记忆系统,让AI能“记住”用户偏好、历史操作。
- 应用位置:存储短期记忆(当日日志,如“今日10点执行整理桌面任务”)、近端记忆(会话存档,如用户与AI的对话记录)、长期记忆(用户偏好,如“用户喜欢将文件按日期分类”),支撑AI的上下文理解、个性化服务。
- 核心特点:① 混合检索机制(BM25+向量检索+RRF融合),BM25用于关键词检索(如检索“整理文件”相关操作),向量检索用于语义检索(如用户说“帮我整理一下资料”,AI能识别出是“整理文件”的意思),RRF融合两种检索结果,提升检索精准度;② 所有记忆本地存储,不依赖云端,隐私可控,符合OpenClaw“本地优先”的核心理念;③ 支持记忆压缩,可自动压缩长期未使用的记忆,避免占用过多本地存储空间;④ 记忆可追溯,用户可查看自己的历史记忆(如之前的对话、操作记录),同时支持手动删除记忆,保障隐私;⑤ 适配多场景,短期记忆保障当日操作的连贯性,近端记忆保障会话上下文的连贯性,长期记忆实现个性化服务,让AI越用越顺手。
4. 模型调度模块:Ollama(本地模型引擎)+ 多模型Provider插件
- 技术解释:Ollama是一款轻量级的本地大模型运行引擎,无需复杂配置,可快速部署本地大模型(如Qwen2.5、GLM-4、Llama 3),支持模型的下载、运行、调用;多模型Provider插件是针对不同云端模型(如OpenAI、Claude、Gemini)开发的适配插件,实现与云端模型的对接,可灵活切换模型。
- 应用位置:调用本地/云端大模型,为智能体的意图理解、任务规划、反思纠错提供推理能力,是AI“思考”的核心动力来源。
- 核心特点:① 支持本地与云端模型无缝切换,本地模型无需联网、隐私安全,适合处理敏感数据(如个人文件、企业机密),云端模型推理能力强,适合处理复杂任务(如复杂任务拆解、语义理解);② Ollama轻量易用,无需专业技术,一键下载、运行本地模型,适配普通用户;③ 可自定义模型上下文长度,比如将模型上下文扩展至32k tokens,支撑超长对话、复杂任务拆解(如整理上千条邮件);④ 适配不同任务场景,轻量任务(如简单文件操作)可调用小型模型(qwen2.5:0.5b),复杂任务(如周报生成、代码开发)可调用大型模型(glm-4.7-flash、GPT-4),兼顾效率和性能;⑤ 支持多模型并行调用,可同时调用多个模型处理不同任务,提升执行效率;⑥ 可通过配置文件快速对接新模型,新增云端/本地模型时,只需修改配置,无需修改核心代码,扩展方便。
四、工具能力层 对应技术栈(每款技术均补充解释+细化特点)
1. 屏幕视觉工具:OCR识别库(如Tesseract)+ 截图工具(如sharp)
- 技术解释:OCR(光学字符识别)是将图片中的文字转换成可编辑文本的技术,Tesseract是一款开源的OCR识别库,支持多语言、高精度识别;sharp是一款基于Node.js的图片处理库,主要用于截图、图片压缩、格式转换,是龙虾AI“看屏幕”的核心工具组合。
- 应用位置:截图(捕获屏幕画面)、OCR识别(识别屏幕中的文字、按钮、输入框等元素)、读取屏幕内容(如读取网页文字、软件界面文字),模拟人类“看屏幕”的动作,是龙虾AI实现视觉感知的核心。
- 核心特点:① OCR识别准确率高,Tesseract支持多语言(中文、英文、日文等),可识别不同字体、不同大小的文字,同时支持识别界面元素(如按钮、输入框的位置、名称);② sharp截图速度快,延迟低,可捕获整个屏幕、指定区域的画面,同时支持图片压缩,减少存储空间占用;③ 轻量无依赖,无需安装复杂的软件,可直接嵌入工具层,占用系统资源少;④ 适配多场景,支撑网页调研(识别网页文字)、界面操作(识别按钮位置)、文件识别(识别图片中的文字)等场景;⑤ 可自定义识别规则,比如重点识别某类元素(如输入框、按钮),提升识别效率。
2. 键鼠模拟工具:robotjs(桌面自动化库)
- 技术解释:robotjs是一款基于Node.js的桌面自动化库,可直接调用系统底层接口,模拟人类的鼠标、键盘操作,比如鼠标移动、点击、拖拽,键盘输入、快捷键操作,是龙虾AI“动手”的核心工具。
- 应用位置:模拟鼠标移动、点击(如点击软件图标、按钮)、键盘输入(如输入文字、快捷键),实现桌面自动化操作,无需人工干预,支撑文件操作、软件控制等基础执行任务。
- 核心特点:① 跨平台兼容,支持Windows/Mac/Linux三大系统,无需针对不同系统单独开发,适配多设备场景;② 操作精准,可精准控制鼠标的位置、点击力度(左键、右键),键盘输入的速度、字符,模拟人类的操作习惯,避免操作失误;③ 延迟低,操作响应速度快,模拟鼠标点击、键盘输入的延迟在毫秒级,适合实时操作场景;④ 支持快捷键操作,可模拟各种系统快捷键(如Ctrl+C复制、Ctrl+V粘贴),提升操作效率;⑤ 轻量无依赖,可直接嵌入工具层,占用系统资源少,不会影响其他工具、模块的运行。
3. 浏览器工具:Playwright(浏览器自动化库)
- 技术解释:Playwright是微软开源的浏览器自动化库,支持Chrome、Firefox、Edge等所有主流浏览器,可自动控制浏览器执行操作(如打开网页、点击元素、输入内容、爬取数据),相比传统的Selenium,更轻量、更稳定,支持动态网页(JS渲染的页面)。
- 应用位置:自动打开浏览器、访问指定网页、点击网页元素(如按钮、输入框)、输入内容(如搜索关键词、登录账号)、爬取网页数据(如新闻、表格),实现网页自动化操作,支撑网页调研、在线操作等场景。
- 核心特点:① 多浏览器支持,兼容Chrome、Firefox、Edge等主流浏览器,可根据需求选择浏览器,无需单独适配;② 稳定性强,相比Selenium,Playwright对动态网页(如JS渲染的页面、异步加载的内容)的支持更好,不会出现“元素找不到”的问题;③ 轻量高效,启动速度快,占用系统资源少,可同时控制多个浏览器窗口,实现多网页并行操作;④ 支持无头模式(无浏览器界面),可在后台执行网页操作,不影响用户正常使用电脑;⑤ 内置等待机制,可自动等待网页加载完成、元素出现,避免操作失误,提升自动化操作的成功率;⑥ 支持截图、录屏,可记录网页操作过程,便于排查故障。
4. 系统操作工具:Node.js内置fs模块(文件操作)+ child_process(命令行调用)
- 技术解释:fs模块是Node.js内置的文件系统模块,无需额外安装,可直接用于读写文件、创建文件夹、删除文件等操作;child_process是Node.js内置的子进程模块,可用于调用系统终端、执行命令行指令(如Windows的cmd命令、Mac/Linux的终端命令),是龙虾AI操作本地系统的核心工具。
- 应用位置:读写本地文件(如创建文档、修改文件内容)、管理文件夹(如创建文件夹、删除文件夹)、运行命令行指令(如执行脚本、安装软件)、调用系统API,实现本地系统的深度操作,支撑本地任务自动化。
- 核心特点:① 原生支持,无需额外安装依赖,直接嵌入Node.js环境,开发、集成简单;② 跨平台适配,fs模块、child_process模块可在Windows/Mac/Linux三大系统上运行,无需针对不同系统单独修改代码;③ 操作权限高,可直接操作本地文件系统、终端,实现深度系统交互(如修改系统配置、运行系统脚本),是龙虾AI具备系统级执行权限的核心支撑;④ 操作灵活,可实现复杂的文件操作(如批量复制、批量删除、文件重命名)、命令行操作(如批量执行脚本、查询系统状态);⑤ 性能稳定,Node.js内置模块的运行效率高,不会出现卡顿、崩溃的情况,保障系统操作的稳定性。
5. 工具管理模块:TypeScript(插件管理逻辑)+ YAML(配置文件,claw.yaml)
- 技术解释:TypeScript用于编写工具管理的核心逻辑,包括工具的加载、卸载、状态监控、异常处理等;YAML是一种简洁的配置文件格式,claw.yaml是龙虾AI的核心配置文件,用于定义工具的依赖、权限、运行参数等,无需修改代码,即可配置工具。
- 应用位置:加载/卸载工具、监控工具状态(如工具是否可用、是否故障)、处理工具异常(如工具执行失败时切换备用工具)、配置工具权限(如限制工具的文件访问权限),是工具能力层的“管理中枢”。
- 核心特点:① 支持自定义工具,用户可通过TypeScript/Python/Shell编写工具插件,无需修改核心系统代码,即可让龙虾AI学新技能(如新增“操作Excel”“编辑图片”的工具);② 工具可热重载,新增、卸载工具时,无需重启龙虾AI,直接生效,迭代效率高;③ 单个工具故障不影响整个系统,某一个工具出现故障(如键鼠模拟工具崩溃),系统会自动切换备用工具,或暂停该工具的使用,确保其他工具、模块正常运行;④ 通过claw.yaml配置工具,无需编写代码,即可调整工具的依赖、权限、运行参数(如限制工具只能访问指定文件夹),降低配置难度;⑤ 支持工具故障自动切换,系统实时监控工具状态,发现工具故障后,自动切换到备用工具,提升系统稳定性;⑥ 支撑龙虾AI的递归式技能进化机制,AI可自主封装新工具(如将“打开浏览器→搜索内容→保存文件”的步骤封装成一个新工具),提升执行效率。
五、系统执行层 对应技术栈(每款技术均补充解释+细化特点)
1. 系统接口适配:Node.js跨平台API + 系统原生接口
- 技术解释:Node.js跨平台API是Node.js提供的、可在多系统(Windows/Mac/Linux)上运行的接口,用于对接不同系统的通用功能(如文件操作、进程管理);系统原生接口是各个系统(Windows的Win32 API、Mac的Cocoa API、Linux的POSIX API)提供的底层接口,用于对接系统的专属功能(如Windows的注册表操作、Mac的桌面控制)。两者结合,实现龙虾AI与不同系统的深度对接。
- 应用位置:对接Windows/Mac/Linux三大系统,调用系统底层驱动,将工具层的操作请求(如鼠标点击、文件读写)转换成系统能识别的指令,实现与硬件的联动,是工具层与硬件层之间的“桥梁”。
- 核心特点:① 跨平台兼容性强,Node.js跨平台API保障通用功能的跨系统运行,系统原生接口保障专属功能的适配,无需针对不同系统单独开发核心代码,降低开发成本;② 可直接调用系统底层接口,实现深度系统交互(如控制桌面分辨率、修改系统设置),支撑复杂的系统操作;③ 适配本地和远端执行节点,无论是本地电脑还是远端服务器,都能通过接口适配,实现跨设备操作;④ 运行效率高,直接调用系统原生接口,操作延迟低,确保工具操作能快速落地;⑤ 可扩展性强,新增系统适配时,只需新增对应的系统原生接口调用逻辑,无需修改核心代码。
2. Docker沙箱:Docker(容器技术)
- 技术解释:Docker是一款轻量级的容器化技术,可将应用程序及其依赖打包成一个独立的容器,容器与宿主系统完全隔离,容器内的操作不会影响宿主系统,相当于一个“隔离的虚拟环境”,是保障系统安全的核心技术。
- 应用位置:隔离工具执行环境,所有工具(如键鼠模拟工具、浏览器工具、系统操作工具)都在Docker容器内执行,防止工具误操作、恶意操作修改宿主系统、泄露隐私,是系统执行层的“安全屏障”。
- 核心特点:① 完全隔离
更多推荐




所有评论(0)