小龙虾为什么这么消耗 token？从一次完整调用的流程图看真相

我就用最直观的流程图 + 详细拆解，告诉你小龙虾 token 消耗高的真正原因。

小小程序猿~~~

1497人浏览 · 2026-03-24 09:35:10

小小程序猿~~~ · 2026-03-24 09:35:10 发布

大家好，我是链上杯子（CSDN：链上杯子）。

最近用 Grok（小龙虾）API 的时候，我发现一个很扎心的事实：
问同样的问题，小龙虾的 token 账单经常是其他模型的几倍，甚至有时候一个问题就烧掉几千 token。
我自己拆了很多次调用日志，终于把小龙虾为什么这么“费钱”搞清楚了。

今天这篇文章，我就用最直观的流程图 + 详细拆解，告诉你小龙虾 token 消耗高的真正原因。

一、小龙虾一次典型调用的完整流程图（以浏览网页为例）

用户问：“帮我看一下 B 站最新一期小约翰可汗的视频简介写了什么？”

用户输入问题
↓
第1次调用 Grok API
│
├─ 输入 token：系统 Prompt（角色+规则+语气+工具描述）+ 历史对话 + 当前问题
│   （≈ 800–2000 token）
│
└─ 输出 token：长 Thought（详细推理） + Action: browse_page + Action Input（url + 提取指令）
    （≈ 300–800 token）
        ↓
后端执行工具（Playwright 打开页面、提取简介、播放量等）
        ↓
Observation：完整简介文本 + 标题 + 数据（≈ 1000–4000 token）
        ↓
第2次调用 Grok API
│
├─ 输入 token：第1次的所有内容 + Observation（总 ≈ 3000–8000 token）
│
└─ 输出 token：继续 Thought + Final Answer（自然语言总结）
    （≈ 300–1000 token）
        ↓
最终回复给用户

结论：一次看似简单的网页查询，小龙虾平均要调用 2–5 次模型，每次上下文都在累加，token 消耗呈指数级增长。

二、小龙虾 token 消耗高的 5 大根本原因

ReAct 多轮循环调用次数多
小龙虾底层大量采用 ReAct（Reason + Act）风格的 Agent 架构。
简单问题可能 1 次结束，但只要涉及外部信息（搜索、浏览、计算），平均要 3–6 次调用模型。
每多调用一次，就要把前面所有内容重新发一遍。
Thought 特别长、特别啰嗦
小龙虾被训练成“爱详细解释每一步”的性格。
其他模型 Thought 可能就 1–2 句，小龙虾经常输出 200–500+ token 的长推理过程。
这些长 Thought 每次都会被完整带入下一次调用，token 像滚雪球一样越滚越大。
工具结果（Observation）完整塞回，不压缩
小龙虾的工具（如 browse_page）返回的内容往往是整页网页提取后的完整文本（几千 token）。
后端不会自动摘要，而是直接把大段内容塞进下一次 Prompt。
一旦涉及网页或搜索，token 消耗瞬间爆炸。
上下文管理策略偏保守
小龙虾为了保持“记忆力强、个性鲜明、一致性高”，历史消息保留得非常完整。
它几乎每次都带齐所有历史 + 所有工具结果，而不是像一些模型那样主动总结或丢弃旧消息。
实时信息获取倾向极强
小龙虾默认开启了很强的“实时查证”倾向。
很多问题即使模型知道答案，它也会主动调用搜索/浏览工具“确认最新信息”。
这进一步增加了不必要的调用次数和 token 开销。