OpenClaw Tokens消耗优化1-分层路由机制
摘要:Viking分层路由技术通过L0轻量级意图路由器和L1主模型执行的两层架构,有效解决了大模型Agent的"固定成本"困境。该技术动态加载所需工具和上下文,使OpenClaw等框架在简单对话场景下Token消耗降低93%(15,466→1,100),响应延迟减少且准确率提升。系统提供两种实现方案:独立分支实现分层路由,插件方案提供长程记忆功能。这种"先路由后执行&
一、背景:大模型 Agent 的“固定成本”困境
一个功能完备的 AI Agent(如 OpenClaw、Claude Code 等)通常会集成大量工具、技能、系统提示和文件。例如:
-
工具定义 20+ 个(每个工具包含名称、描述、参数结构)
-
若干技能(Skill)描述文件(
SKILL.md) -
用户历史对话
-
系统角色设定、记忆、知识库片段
传统做法:每次用户请求,都将所有这些内容打包进上下文,发给大模型。
-
一个简单问题“今天天气怎么样”可能消耗 15000+ Token
-
其中 90% 以上的 Token 用于传递当前请求根本用不到的工具和上下文
这不仅浪费推理成本,还容易引入干扰,降低大模型响应的准确性和速度。
这就意味着,Skill按照越多,消耗的Tokens越多,养龙虾的成本越高。
那么,Tokens消耗的优化,有个很重要的支撑点,就是在能够充分理解用户的基础上,减少上下文的大小,以便大模型可以精准处理。
二、Viking 分层路由的核心思想
Viking 在 OpenClaw 等 Agent 框架中引入了一个 两层路由架构:
L0 层:轻量级意图路由器
-
使用一个 本地小模型(如 GLM-4.7-Flash、Llama 3.2 3B 等)
-
输入:用户当前 query + 极简的对话上下文
-
输出:路由决策 —— 当前请求需要哪些工具/技能/文件
这个本地模型可以在 CPU 上高效运行,单次推理耗时通常 < 100ms,且几乎零成本。
动态上下文组装
-
系统根据 L0 的输出,从全局工具库、技能库、文件索引中 动态拉取 相关的资源
-
将精简后的上下文(仅包含选中的工具描述、必要的技能说明)发送给 L1 层
L1 层:主模型执行
-
使用高性能大模型(如 GPT-4o、Claude 3.5 Sonnet 等)
-
在精简上下文中完成最终推理和工具调用
回退机制
-
如果 L0 路由失败(模型未命中、意图模糊),系统自动回退到全量加载模式,保证功能可用性
三、关键技术细节
1. 工具与技能的索引与路由
Viking 并非简单随机选择工具,而是利用 结构化元数据 实现精准匹配:
-
每个工具/技能都有一个 能力描述向量(可基于自然语言描述生成)
-
L0 路由器输出一个 意图标签 或直接输出 需要加载的资源 ID 列表
-
支持基于
SKILL.md的显式路由:当某个技能定义了特定的触发关键词,L0 可以直接激活该技能
2. 分层路由的粒度控制
-
粗粒度:整类工具(例如“文件操作类”、“网络搜索类”)
-
细粒度:单个工具或特定技能文件
-
系统可配置路由深度,在节省成本与保留灵活性之间平衡
3. 与 Agent 框架的集成
在 OpenClaw 中,Viking 路由层位于 入口网关 与 模型调用层 之间:
用户请求 → L0 路由器(本地小模型) → 动态上下文构造器 → L1 大模型 → 响应
整个路由决策对用户透明,仅通过响应速度和成本体现差异。
四、实际收益与数据
根据 OpenClaw 的公开测试数据(简单对话场景):
-
全量加载:约 15,466 Token / 次
-
Viking 分层路由后:约 1,100 Token / 次
-
节省比例:约 93%
对于复杂任务(涉及多个工具调用),节省比例也在 70%–85% 之间。
除了 Token 成本,还带来:
-
响应延迟降低:大模型处理短上下文更快
-
准确率提升:去掉无关工具后,大模型更不容易误调用
-
并发能力增强:相同预算可支撑更多请求
五、Viking机制在OpenClaw中的应用
根据目前的搜索结果和社区实践,OpenClaw(“龙虾”)官方版本并没有默认安装 Viking,无论是分层路由系统还是记忆插件。你需要通过以下两种方式之一来获得 Viking 的能力。
目前在 OpenClaw 生态中,主要有两个相关但不同的“Viking”方案:
| 特性 | openclaw-viking (分层路由) | OpenViking (记忆插件) |
|---|---|---|
| 核心功能 | L0/L1 分层路由,动态加载工具/文件,大幅降低 Token 消耗 | 长程记忆管理,虚拟文件系统存储对话历史、用户偏好、技能经验 |
| 是否默认安装 | ❌ 否,需要拉取独立分支 | ❌ 否,需要手动安装插件 |
| 获取方式 | git clone https://github.com/adoresever/AGI_Ananans.git,使用其中的 26.2.21openclaw-viking 目录 |
官方推荐安装命令:curl -fsSL https://raw.githubusercontent.com/volcengine/OpenViking/main/examples/openclaw-memory-plugin/install.sh | bash |
| 版本基础 | 基于 OpenClaw 2026.2.20 修改 | 可集成到任意较新版本的 OpenClaw |
| 实测 Token 节省 | 简单对话场景节省 93%(15,466 → 1,021 tokens)-1 | 长程任务场景节省 91%(开启原生记忆时)-2-4 |
| 适用场景 | 功能丰富的 Agent(工具 > 10 个),高频简单请求 | 需要长期记忆沉淀、跨会话上下文保留的场景 |
方案一:使用 openclaw-viking 独立分支(分层路由)
如果你想要的是 L0/L1 分层路由、按需加载工具/文件 这个能力,需要直接使用社区开发者 adoresever 维护的独立分支。下载
# 1. 克隆包含 Viking 改造的完整仓库 git clone https://github.com/adoresever/AGI_Ananans.git cd AGI_Ananans/26.2.21openclaw-viking # 2. 安装依赖并构建 pnpm install pnpm ui:build # 必须先执行 pnpm build # 3. 首次配置(选择模型 Provider、通道等) pnpm openclaw onboard # 4. 启动服务 pnpm openclaw gateway --verbose
⚠️ 注意:这是一个独立可运行的完整代码副本,不依赖 OpenClaw 上游更新。未来即使官方架构大改,这个版本依然可以独立运行。
验证优化是否生效:在 --verbose 模式下发送消息,日志中会出现类似 [Viking Router] Token 节省: 15466 → 1778 (88.5%) 的信息-1。
🧠 方案二:安装 OpenViking 插件(长程记忆)
如果你更关注 Agent 的长期记忆能力(跨会话记住偏好、技能使用经验等),火山引擎开源的 OpenViking 是当前社区的主流选择。
快速安装命令(适用于 Linux/macOS/WSL):
curl -fsSL https://raw.githubusercontent.com/volcengine/OpenViking/main/examples/openclaw-memory-plugin/install.sh | bash
安装后,需要配置记忆存储路径并重启 Gateway:
openclaw plugin enable openviking openclaw config set plugin.openviking.memoryPath "~/OpenClaw-LongMemory/memory" openclaw gateway restart
📌 这是插件化集成方式,无需修改 OpenClaw 核心代码,对后续版本升级影响较小-4。
📌 总结
| 你的需求 | 推荐方案 |
|---|---|
| 降低单次对话 Token 消耗,按需加载工具 | openclaw-viking 独立分支 |
| 跨会话记住用户偏好、技能使用经验 | OpenViking 插件 |
| 两者都想要 | 可以同时使用,两者功能互补,互不冲突 |
六、适用场景与限制
✅ 最适合的场景
-
功能丰富的 Agent:工具数量 > 10 个,且不同场景下使用的工具差异明显
-
高频简单请求:大量对话只需少量工具,如问候、问答、简单查询
-
成本敏感应用:需要严格控制 API 账单
⚠️ 需要注意
-
L0 模型的质量 直接影响路由准确性,若路由错误可能导致主模型缺乏必要工具而失败
-
冷启动:首次使用某类工具时,路由可能不够精准,需结合用户反馈进行优化
-
复杂链式任务:当任务需要动态切换工具时,需要 L0 具备一定前瞻性
七、总结:Viking 分层路由的本质
用一次超低成本的本地推理,来避免一次高昂的大模型上下文浪费。
它并不改变大模型本身的能力,而是改变了我们 如何为大模型准备上下文 的方式。在 Agent 日益复杂、工具链不断膨胀的今天,这种“先路由,后执行”的分层架构正在成为高性能 AI 应用的标准模式之一。。
SophNet,提供DS,GLM,Qwen,MiniMax,Kimi等多家开源大模型,多达50多种,一个API Key可以体验多个顶级大模型。
可以通过https://www.sophnet.com/#?code=4T6VKY注册体验。
私信博主OpenClaw相关资料:

配置方法:https://blog.csdn.net/putiancaijunyu/article/details/159607543?spm=1001.2014.3001.5501
LLM(最新版本)
| 国内/国外 | 模型厂商 | 模型 | 模型id(对外) | 规格 |
|---|---|---|---|---|
| 国内 | 深度求索 | DeepSeek V3.2 Fast | DeepSeek-V3.2-Fast | SophNet独家供给,DeepSeek满血版 TPS 峰值100以上 |
| 国内 | 深度求索 | DeepSeek V3.2 Exp | DeepSeek-V3.2-Exp | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 深度求索 | DeepSeek V3.2 | DeepSeek-V3.2 | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 深度求索 | DeepSeek R1 | DeepSeek-R1 | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 深度求索 | DeepSeek-R1-Distill-Qwen-7B | DeepSeek-R1-Distill-Qwen-7B | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 深度求索 | DeepSeek-R1-Distill-Qwen-32B | DeepSeek-R1-Distill-Qwen-32B | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | QwQ-32B | QwQ-32B | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Qwen3.5-397B-A17B | Qwen3.5-397B-A17B | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 月之暗面 | Kimi-K2.5 | Kimi-K2.5-global | 开绿网版本 |
| 国内 | 月之暗面 | Kimi-k2.5 | Kimi-K2.5 | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 智谱 | GLM-5 | GLM-5 | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | MiniMax | MiniMax-M2.5 | MiniMax-M2.5 | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 字节跳动 | Seed-OSS-36B-Instruct | Seed-OSS-36B-Instruct | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 小米 | MiMo-V2-Flash | MiMo-V2-Flash | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 海外 | openai | GPT-OSS-120B | GPT-OSS-120B | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 美团 | LongCat-Flash-Chat | LongCat-Flash-Chat | SophNet算力供给,性能对标火山阿里,超高并发支持 |
视觉模型(最新版本)
| 国内/国外 | 模型厂商 | 模型 | 模型id(对外) | 规格 |
|---|---|---|---|---|
| 国内 | 阿里 | Qwen3-VL-235B-A22B-Instruct | Qwen3-VL-235B-A22B-Instruct | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Qwen2.5-VL-7B-Instruct | Qwen2.5-VL-7B-Instruct | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Qwen2.5-VL-72B-Instruct | Qwen2.5-VL-72B-Instruct | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Qwen2.5-VL-32B-Instruct | Qwen2.5-VL-32B-Instruct | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Qwen2-VL-7B-Instruct | Qwen2-VL-7B-Instruct | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Qwen2-VL-72B-Instruct | Qwen2-VL-72B-Instruct | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | qwen-image-edit | Qwen-Image-Edit-2509 | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Qwen-Image | Qwen-Image | SophNet算力供给,性能对标火山阿里,超高并发支持 |
| 国内 | 阿里 | Z-Image-Turbo | Z-Image-Turbo | SophNet算力供给,性能对标火山阿里,超高并发支持 |
更多推荐

所有评论(0)