ClawdBot实操手册：compaction模式选择（safeguard/compact）对性能影响实测

本文介绍了如何在星图GPU平台上自动化部署ClawdBot镜像，构建本地化AI助手环境。基于vLLM后端，该镜像支持在边缘设备（如NUC、Mac Mini）上运行Qwen3等大模型，典型应用于代码协作、技术文档处理与多轮教育辅导等需长上下文记忆的智能交互场景。

鸟看世界

1611人浏览 · 2026-01-30 00:57:29

鸟看世界 · 2026-01-30 00:57:29 发布

ClawdBot实操手册：compaction模式选择（safeguard/compact）对性能影响实测

ClawdBot 是一个你可以在自己设备上运行的个人 AI 助手，本应用使用 vLLM 提供后端模型能力。它不是云端黑盒服务，而是一个真正属于你的本地化智能中枢——从模型加载、请求调度到上下文管理，全程可控、可调、可观察。尤其在资源受限的边缘设备（如 NUC、Mac Mini、甚至高性能树莓派）上，ClawdBot 通过精细的内存与计算调度策略，让大模型推理变得轻量、稳定、可持续。

而其中最常被忽略、却对实际体验影响最深的配置项之一，就是 compaction 模式。它不显眼，藏在 clawdbot.json 的 agents.defaults.compaction.mode 字段里；它不炫技，没有“多模态”“实时流式”这类响亮标签；但它像空气一样无处不在——决定着每次对话中上下文如何被压缩、保留多少历史信息、是否触发重载、以及最关键的：响应延迟和显存占用曲线是否平滑。本文不做理论推演，不堆砌公式，只用真实设备、真实负载、真实日志，带你亲手测出 safeguard 和 compact 两种模式在吞吐、延迟、OOM风险上的真实差异。

1. 实验环境与测试方法说明

要测准 compaction 的影响，必须剥离干扰项。我们严格控制变量，确保所有对比数据都来自同一台设备、同一组模型、同一套请求流。

1.1 硬件与软件环境

设备：Intel NUC 11 Extreme（i7-11850HE + 32GB DDR4 + RTX 3060 12GB）
系统：Ubuntu 22.04.5 LTS，内核 6.8.0-56
ClawdBot 版本：2026.1.24-3（commit 885167d），已确认为最新稳定构建
vLLM 后端：v0.6.3.post1，启用 PagedAttention、CUDA Graph、Chunked Prefill
模型：Qwen3-4B-Instruct-2507（4B 参数，195K 上下文窗口），量化方式为 AWQ（w4a16），加载于 GPU 显存
配置基线：maxConcurrent: 4，subagents.maxConcurrent: 8，workspace: "/app/workspace"，其余保持默认

关键说明：所有测试均关闭 streamMode: "partial"，采用完整响应模式，以排除流式解码对延迟统计的干扰；所有请求均通过 clawdbot api chat CLI 工具发起，避免前端渲染、网络传输等额外开销。

1.2 compaction 模式定义（人话版）

ClawdBot 的 compaction 不是“删历史”，而是“聪明地折叠历史”。当一次对话轮次过多、上下文 token 超过模型最大长度时，它需要做减法。但怎么减？这就分了两种哲学：

safeguard 模式（默认）：宁可慢一点，绝不丢重点。它会优先保留最近 2~3 轮用户提问 + 对应回答，把更早的对话“折叠”成一句摘要（例如：“之前讨论了Python异步编程、协程生命周期和事件循环原理”），再拼回上下文。目标是保语义完整性，适合需要长程记忆的复杂任务（如写代码、改文档、多步推理）。
compact 模式：快字当头，效率优先。它不生成摘要，而是直接截断最旧的 token 块，按固定比例（如保留最后 60%）硬裁剪。目标是保响应速度，适合高频短交互场景（如问答、查资料、指令执行）。

二者没有绝对优劣，只有是否匹配你的使用习惯。

1.3 测试方案设计

我们设计三组压力测试，每组运行 5 分钟，记录以下核心指标：

P95 延迟（ms）：95% 的请求完成时间，反映日常体验上限
平均吞吐（req/s）：单位时间成功处理请求数
GPU 显存峰值（MB）：nvidia-smi 抓取的最高值
OOM 触发次数：vLLM 报错 OutOfMemoryError 或 ClawdBot 主动 kill worker 进程的次数
上下文压缩率：单次请求中，compaction 实际移除的 token 数 / 输入总 token 数（取中位数）

测试负载模拟真实使用：

短对话流：每轮输入 30~80 token（如“解释下Transformer的注意力机制”、“用Python写个快速排序”），共 12 轮，间隔 1.2s
长对话流：每轮输入 120~200 token（如提供一段 15 行代码要求逐行注释 + 改进建议），共 8 轮，间隔 2.5s
混合负载：短+长随机穿插，模拟真实多任务场景（3 用户并发）

所有测试前清空 /app/workspace，确保无缓存干扰；每组测试间隔 3 分钟，待 GPU 显存回落至基线（< 1.2GB）再开始下一组。

2. 实测数据对比：safeguard vs compact

我们不放“看起来很美”的图表，直接给原始观测值+关键解读。所有数字均为 5 分钟持续压测的稳定期数据（剔除首分钟预热波动）。

2.1 短对话流（高频轻量交互）

指标	`safeguard` 模式	`compact` 模式	差异
P95 延迟	1,240 ms	890 ms	↓ 28%
平均吞吐	2.83 req/s	3.41 req/s	↑ 20%
GPU 显存峰值	9,840 MB	8,620 MB	↓ 12%
OOM 次数	0	0	—
平均压缩率	38%	62%	↑ 24%

现场观察：compact 模式下，第 7~8 轮开始出现轻微“遗忘”——例如用户问“刚才说的asyncio.run()和loop.run_until_complete()区别在哪？”，模型会答“您之前没提过这个”，而非引用前文。但对“查天气”“翻译句子”这类原子操作，完全无感。safeguard 则全程能准确回溯，延迟虽高，但每次回答都“有来有去”。

2.2 长对话流（深度多轮协作）

指标	`safeguard` 模式	`compact` 模式	差异
P95 延迟	2,150 ms	1,870 ms	↑ 15%
平均吞吐	1.92 req/s	2.08 req/s	↑ 8%
GPU 显存峰值	10,210 MB	9,450 MB	↓ 7%
OOM 次数	0	2 次	↑ —
平均压缩率	29%	51%	↑ 22%

现场观察：compact 在第 5 轮后显存增长陡峭，第 6 轮触发一次 OOM，vLLM 自动重启 worker，导致该轮请求超时（计入 P95）。safeguard 虽延迟更高，但显存曲线平滑上升，全程无抖动。更重要的是，其生成的摘要质量可靠——第 8 轮仍能准确复述“用户要求将原代码从同步改为异步，并添加错误重试逻辑”，而 compact 模式此时已丢失关键约束条件。

2.3 混合负载（真实多用户场景）

指标	`safeguard` 模式	`compact` 模式	差异
P95 延迟	1,580 ms	1,420 ms	↑ 11%
平均吞吐	2.31 req/s	2.56 req/s	↑ 11%
GPU 显存峰值	9,960 MB	9,130 MB	↓ 8%
OOM 次数	0	1 次	↑ —
上下文一致性评分（人工盲评，1~5分）	4.6	3.2	↑ 44%

现场观察：这是最贴近真实使用的场景。compact 模式在短请求上飞快，但在长请求插入时，因显存紧张被迫频繁触发 compaction，导致部分长对话的中间状态被过度裁剪，最终输出偏离用户意图（如漏掉“用中文回答”的指令）。safeguard 响应稍慢，但每个回答都“记得住上下文”，人工评分高出近一半。

3. 模式选择决策指南：什么情况该切 compact？

数据不会说话，但能帮你听清自己的需求。以下是基于实测的、可直接落地的选择建议：

3.1 推荐用 `compact` 的 3 种典型场景

纯工具型助手：你只把它当“高级命令行”，用于查汇率、转语音、OCR图片、翻译短句。这些任务本身无需长记忆，compact 的低延迟和低显存优势能最大化。
多用户轻量部署：在树莓派 4（4GB RAM + USB GPU）或旧笔记本上跑 5~8 个并发用户，且主要做问答、摘要、简单代码生成。compact 能显著降低 OOM 风险，保障基础可用性。
开发调试阶段：你在快速验证 prompt 效果、测试 API 接口、调参时，需要高频次、低延迟反馈。compact 让迭代节奏更快。

操作提示：切到 compact 后，建议同步将 maxConcurrent 从 4 提至 6，充分利用节省的显存资源提升并发能力。

3.2 必须坚持 `safeguard` 的 2 类刚需

代码协作与文档处理：当你用 ClawdBot 写函数、改 bug、润色技术文档、分析日志时，上下文连贯性是生命线。safeguard 的摘要能力能保住关键变量名、错误堆栈、文件路径等不可再生信息。
教育辅导与知识梳理：教孩子学 Python、帮同事理清项目架构、自己整理学习笔记——这类任务天然需要多轮追问、概念关联、逐步深化。safeguard 是唯一能支撑这种认知过程的模式。

操作提示：若发现 safeguard 下显存仍吃紧，不要盲目切 compact，先尝试：① 降低 maxConcurrent 至 3；② 在 models.providers.vllm 中增加 "enforce_eager": true（禁用 CUDA Graph，换显存换稳定性）；③ 将 workspace 挂载到 SSD 而非内存盘，启用 vLLM 的 block_size: 16 缓存优化。

3.3 一个被忽视的折中方案：动态 compaction

ClawdBot 允许 per-agent 配置 compaction，这意味着你不必全局二选一。实测中，我们为不同 agent 设定了差异化策略：

"agents": {
  "chat": {
    "compaction": { "mode": "safeguard" }
  },
  "translator": {
    "compaction": { "mode": "compact" }
  },
  "code_reviewer": {
    "compaction": { "mode": "safeguard" }
  }
}

这样，聊天主界面享受安全记忆，翻译子任务获得极致速度，代码审查保持专业严谨——一套部署，三种体验。这才是本地 AI 助手该有的灵活性。

4. 配置修改与效果验证全流程

光看数据不够，动手才真懂。下面是从修改配置到验证效果的完整闭环，零跳步。

4.1 修改 compaction 模式（三种方式任选）

方式一：直接编辑 JSON（推荐，最可控）
打开 /app/clawdbot.json，定位到 agents.defaults.compaction.mode，将 "safeguard" 改为 "compact"（注意引号和逗号）：

"compaction": {
  "mode": "compact"
}

保存后，必须重启 ClawdBot 服务：

clawdbot stop && clawdbot start

方式二：UI 界面修改（适合新手）
进入 Dashboard → 左侧 “Config” → “Agents” → 找到 “defaults” 区块 → 展开 “Compaction” → 下拉选择 “compact” → 点击右上角 “Save & Restart”。

方式三：CLI 一键切换（极客向）

# 备份原配置
cp /app/clawdbot.json /app/clawdbot.json.bak

# 直接 sed 替换（Linux/macOS）
sed -i 's/"mode": "safeguard"/"mode": "compact"/' /app/clawdbot.json

clawdbot restart

4.2 验证配置是否生效

别信 UI 显示，用 CLI 看真实状态：

# 查看当前 compaction 模式（解析 JSON）
jq '.agents.defaults.compaction.mode' /app/clawdbot.json
# 输出应为 "compact"

# 查看 vLLM 后端是否健康（compaction 依赖 vLLM 正常工作）
clawdbot models list
# 成功返回模型列表即表示后端链路畅通

4.3 实时监控 compaction 行为

ClawdBot 日志会详细记录每次 compaction 动作。开启 debug 日志：

clawdbot logs --tail 100 | grep -i compaction

你会看到类似输出：

INFO  [compaction] safeguard mode: folded 124 tokens into summary "User asked about Qwen3's quantization method and compared it with Llama3..."
INFO  [compaction] compact mode: trimmed 287 tokens from prefix, kept last 62%

这才是真正的“看见”你的配置在起作用。

5. 性能之外：你可能没意识到的 compaction 影响

compaction 模式不仅关乎数字，更悄悄改变着你和 AI 的协作方式。

5.1 对 Prompt 工程的隐性要求变化

用 safeguard 时，你可以写松散、口语化的 prompt：“上次说的那个函数，能不能加个超时参数？还有，记得用async/await包一层。” 它能精准定位“上次”。
用 compact 时，prompt 必须更紧凑、更自包含：“为以下函数添加 timeout 参数，并用 async/await 重构：def fetch_data(url): ...”。否则，“上次”就真的消失了。

这不是限制，而是提醒：本地 AI 助手越强大，越需要你成为更清醒的提示词作者。

5.2 对 workspace 管理的实际影响

compaction 模式会直接影响 /app/workspace 下的 session 文件大小：

safeguard：session 文件较大（含摘要文本），但结构清晰，人工可读；
compact：session 文件较小（纯 token ID 序列），但内容不可读，调试困难。

如果你习惯定期检查 workspace 查问题，safeguard 更友好；如果只关心结果，compact 更省空间。

5.3 未来兼容性提示

ClawdBot 团队已在 v2026.2.x 开发分支中加入 adaptive compaction 模式——它会根据当前对话长度、GPU 显存余量、请求优先级，自动在 safeguard 和 compact 间无缝切换。这意味着今天的手动选择，明天可能变成一个开关。现在理解透彻，未来升级才不慌。