OpenClaw智能体路由中枢：本地大模型稳定调度与多后端fallback实战

nzy233

315人浏览 · 2026-06-23 09:48:11

nzy233 · 2026-06-23 09:48:11 发布

1. 项目概述：OpenClaw不是另一个“本地大模型启动器”，而是一套智能体路由中枢

你搜“OpenClaw部署本地大模型”，点开十篇教程，八篇在教你怎么装Ollama、怎么下Qwen3、怎么配LM Studio——结果跑起来发现：模型能回话，但Agent不调工具；能加载图片，但Vision模型总报错；换了个GGUF格式的模型，直接弹出 no lm runtime found for model format 'gguf'! 。这不是你操作错了，是绝大多数教程根本没搞清OpenClaw的定位：它压根就不是模型推理引擎，而是 智能体（Agent）的交通指挥中心 。它的核心任务，是把用户请求、工具调用、上下文组装、多模型fallback、安全沙箱、网络路由这些复杂逻辑全部抽象掉，只让你专注定义“这个Agent该做什么”，而不是“怎么让模型吐出JSON再解析成函数调用”。

我从2023年OpenClaw开源第一天就在跟进，实测过Mac Studio M2 Ultra、RTX 4090工作站、WSL2+Docker混合环境、甚至NAS上跑轻量版，踩过的坑比别人写的教程还多。OpenClaw真正的价值，在于它把原本需要手写几百行Python胶水代码才能串联起来的“模型+工具+记忆+路由”链路，压缩成一份YAML配置文件。比如你只需要写 agents.defaults.model.primary: "lmstudio/qwen3-30b-a3b-6bit" ，它就能自动完成：检测LM Studio服务是否存活、校验模型上下文窗口是否足够、注入当前轮次可用工具列表、把用户上传的PDF转成文本塞进prompt、把调用浏览器的结果结构化返回——全程无需你碰一行推理代码。

关键词里反复出现的“ollama下载慢”“lm studio不支持safetensors”“openclaw无法识别命令”，本质都是混淆了职责边界。Ollama负责模型拉取和轻量推理，LM Studio负责GUI交互和Responses API封装，而OpenClaw只负责发号施令。就像厨房里，Ollama是灶台（烧火），LM Studio是厨师（掌勺），OpenClaw是主厨兼调度员（决定今天做红烧还是清蒸、谁来切菜谁来摆盘、客人要辣的就加辣椒、要清淡就减盐）。你不会因为灶台火力不够，就怪主厨不会炒菜。所以这篇内容不讲“怎么下载Ollama”，而是直击要害： 如何让OpenClaw精准识别你的本地模型服务、稳定路由每一轮请求、在模型崩溃时无缝fallback、并在GPU显存吃紧时避免整机卡死 。适合三类人：刚装完LM Studio却连不通OpenClaw的新手、用Ollama跑着多个模型但Agent总超时的老手、以及想把私有知识库接入Agent却卡在模型协议兼容上的架构师。

2. OpenClaw本地部署的核心设计逻辑：为什么必须分层解耦？

2.1 拒绝“All-in-One”幻觉：OpenClaw的三层架构真相

网上很多教程一上来就让你 npm install -g openclaw ，然后 openclaw onboard ，接着就卡在“无法将‘openclaw’项识别为cmdlet”。这暴露了一个致命误解：OpenClaw不是传统意义上的CLI工具，而是一个 运行时环境+配置驱动型网关 。它的架构天然分为三层，缺一不可：

第一层：模型服务层（Model Serving Layer）
这是你真正跑模型的地方，比如LM Studio监听 http://127.0.0.1:1234/v1 ，Ollama监听 http://127.0.0.1:11434/v1 ，或者vLLM监听 http://127.0.0.1:8000/v1 。OpenClaw自己 完全不包含任何模型推理能力 ，它只是个HTTP客户端。你看到的 openclaw infer model run --local 命令，本质是向LM Studio发一个 POST /v1/chat/completions 请求，再把响应解析成标准格式。所以当 lm studio no lm runtime found for model format 'gguf'! 报错时，问题100%在LM Studio的模型加载环节，和OpenClaw无关。
第二层：网关路由层（Gateway Layer）
这是OpenClaw的核心大脑。它读取 openclaw.config.json5 里的 models.providers 配置，决定“这个请求该发给谁”。比如你配置了LM Studio和Ollama两个provider，当Agent需要高精度推理时走LM Studio，需要快速草稿时走Ollama，模型宕机时自动切到Claude托管API。关键在于， 路由决策发生在请求发出前 ，不是靠试错。它会预先检查 /v1/models 端点是否返回有效模型列表，验证 contextWindow 是否大于 agents.defaults.contextTokens 设定值，甚至预检GPU显存是否足够加载模型——这些都在 openclaw infer model run --gateway 命令里体现。
第三层：智能体执行层（Agent Execution Layer）
这是最容易被忽略的部分。当你执行 openclaw run agent my-agent ，OpenClaw不是简单转发请求，而是启动一个完整的Agent生命周期：加载工具插件（browser/cron/message）、组装上下文（把最近10轮对话+知识库片段+当前工具描述拼成prompt）、注入工具调用schema、处理流式响应、捕获工具返回结果、生成最终回复。这一层对模型协议极其敏感——LM Studio的 /v1/responses 端点返回的是带 response 字段的结构化JSON，而Ollama的 /v1/chat/completions 返回的是标准OpenAI格式。如果配置错 api: "openai-responses" 却指向Ollama地址，必然报错。

提示：新手最大的误区，就是试图用同一套配置通吃所有后端。LM Studio必须用 api: "openai-responses" ，Ollama必须用 api: "openai-completions" ，vLLM默认两者都支持但需确认服务器启动参数。强行混用等于让主厨用炒锅煮咖啡——物理上可行，但味道全毁。

2.2 为什么推荐LM Studio而非Ollama作为首选后端？

搜索热词里“ollama部署本地大模型”出现频次远高于“lm studio”，但实际生产环境中，我90%的客户最终都切换到了LM Studio。原因很现实：

协议稳定性 ：LM Studio的 /v1/responses 端点专为Agent设计，返回 { "response": "xxx", "tool_calls": [...] } ，OpenClaw能直接提取 tool_calls 数组执行工具。而Ollama的 /v1/chat/completions 返回 { "choices": [{ "message": { "content": "xxx", "tool_calls": [...] } }] } ，某些量化模型（如GGUF格式的Phi-3）会把 tool_calls 塞进 content 字符串里，导致OpenClaw解析失败。我实测过Qwen2-7B-GGUF，Ollama返回的 content 是 [tool_name]{"arg":"val"}[END_TOOL_REQUEST] ，而LM Studio直接返回结构化 tool_calls 。
GPU内存管理 ：Ollama在WSL2环境下有个致命缺陷——它的systemd服务默认 Restart=always ，每次WSL2重启都会重新加载模型，但旧进程的GPU显存不释放，几次重启后显存占满，整个系统卡死。LM Studio是GUI应用，关闭窗口即释放显存，手动控制更可靠。我在一台RTX 4090机器上连续测试72小时，Ollama在第38小时因显存泄漏触发CUDA OOM，LM Studio全程稳定。
模型格式兼容性 ：热词里反复出现的 lm studio no lm runtime found for model format 'gguf'! ，其实是个误导。LM Studio最新版（v0.2.32+）已原生支持GGUF，报错99%是因为你下载的模型文件名含空格或特殊字符（如 Qwen2-7B-Instruct-GGUF-Q4_K_M.gguf ），LM Studio解析路径失败。解决方案不是换模型，而是重命名为 qwen2-7b-instruct-q4k_m.gguf ——这是LM Studio的硬编码限制，文档里根本没提。
调试友好性 ：LM Studio内置Web UI，访问 http://127.0.0.1:1234 能看到实时日志、当前加载模型、GPU利用率。Ollama只能靠 ollama list 和 ollama logs ，日志里全是二进制乱码。当Agent报 model.call.error.failureKind: "connection" 时，LM Studio UI里一眼看到“CUDA out of memory”，Ollama日志里只显示“failed to load model”。

注意：如果你坚持用Ollama，请务必禁用其自动重启。Linux下执行 sudo systemctl disable ollama ，Windows下在服务管理器里把Ollama服务启动类型改为“手动”，然后每次用 ollama serve 前台启动。这样你能看到完整错误日志，而不是被systemd吞掉关键信息。

2.3 配置模式选择：Merge vs Replace——为什么99%的场景该用merge

OpenClaw配置里 models.mode 有两个选项： "merge" 和 "replace" 。几乎所有教程都默认用 "replace" ，这是个危险习惯。 "replace" 意味着你配置的本地模型会完全覆盖OpenClaw内置的托管模型列表（Anthropic/Claude、OpenAI/GPT等），一旦本地服务宕机，Agent直接瘫痪。而 "merge" 是安全网：它把你的本地provider和托管provider并列注册，当 lmstudio/my-local-model 不可用时，自动fallback到 anthropic/claude-sonnet-4-6 。

我见过太多真实案例：某金融公司用 "replace" 模式部署DeepSeek-V2，结果LM Studio更新后端口从1234变成1235，OpenClaw持续报错3小时无人发现，客服机器人彻底失联。改用 "merge" 后，故障期间自动切到Claude Sonnet，虽然响应速度慢30%，但业务零中断。

"merge" 模式的精髓在于 分级降级策略 。你可以这样设计：

{
  agents: {
    defaults: {
      model: {
        primary: "lmstudio/qwen3-30b-a3b-6bit", // 主力，30B大模型
        fallbacks: [
          "ollama/deepseek-v2:16b",            // 次主力，16B中等模型
          "anthropic/claude-sonnet-4-6",      // 托管兜底，保证可用
          "anthropic/claude-opus-4-6"         // 最终保险，高成本但高可靠
        ]
      }
    }
  }
}

OpenClaw会按顺序尝试每个模型，只要有一个成功，就继续执行。这种设计让本地部署不再是“要么全好要么全坏”的赌博，而是可预测的弹性系统。

3. 核心细节解析与实操要点：从安装到稳定运行的12个生死关卡

3.1 OpenClaw安装：避开PowerShell陷阱的终极方案

热词里高频出现的 openclaw : 无法将“openclaw”项识别为 cmdlet ，90%源于Windows PowerShell的执行策略限制。PowerShell默认禁止运行未签名脚本，而OpenClaw的npm包安装后生成的是 .ps1 启动脚本。别急着改执行策略（那会带来安全风险），用更稳妥的方案：

正确做法（推荐）：

安装Node.js 20.x LTS（必须20.x，18.x不支持OpenClaw最新版）
打开 CMD（非PowerShell） ，执行：
```
npm install -g openclaw@latest
```
安装完成后，不要直接输 openclaw ，而是用完整路径调用：
```
npx openclaw --version
```
npx 会自动查找本地node_modules里的可执行文件，绕过PowerShell策略。

为什么不用PowerShell？
PowerShell的 Set-ExecutionPolicy RemoteSigned 虽能解决，但会降低系统安全性。且某些企业域控环境会强制恢复策略，导致第二天又失效。 npx 方案无副作用，且 npx openclaw 和 openclaw 命令效果完全一致。

实操心得：我给客户部署时，会把常用命令写成BAT脚本，比如 run-agent.bat 内容为：
@echo off
npx openclaw run agent my-agent --config ./openclaw.config.json5
pause
双击即可运行，彻底规避终端环境问题。

3.2 LM Studio配置：解决GGUF加载失败的3个隐藏步骤

lm studio no lm runtime found for model format 'gguf'! 这个报错，表面看是格式不支持，实则涉及三个常被忽略的细节：

第一步：验证模型文件完整性
GGUF模型下载后不是直接能用的。用 sha256sum 校验（Linux/Mac）或 CertUtil -hashfile （Windows）对比官网提供的SHA256值。我遇到过最诡异的案例：某镜像站提供的Qwen2-7B-GGUF文件，最后2KB数据损坏，LM Studio加载到99%时静默失败，日志里只显示 Failed to load model ，毫无提示。

第二步：重命名模型文件
LM Studio对文件名有严格要求： 只能含小写字母、数字、短横线（-）和下划线（_） ，且不能以数字开头。错误示例： Qwen2-7B-Instruct-GGUF-Q4_K_M.gguf （含大写、下划线、点号）→ 正确命名： qwen2-7b-instruct-q4k_m.gguf 。重命名后，必须在LM Studio的“Local Server”设置里 重新点击“Start Server” ，否则缓存的旧路径仍会报错。

第三步：GPU后端选择
LM Studio右下角有GPU图标，点击后选择后端：

CUDA ：NVIDIA显卡必选，但需确认CUDA版本匹配（LM Studio v0.2.32要求CUDA 12.2+）
Metal ：Mac用户必选，M系列芯片专用，性能比Rosetta 2高3倍
CPU ：仅作调试用，7B模型推理速度<1 token/s

提示：Windows用户若选CUDA报错，先运行 nvidia-smi 确认驱动正常，再检查LM Studio是否以管理员身份运行——某些驱动需要管理员权限才能访问GPU。

3.3 OpenClaw配置文件：5个必须手写的字段与3个可删字段

openclaw.config.json5 是OpenClaw的心脏，但网上教程常把它写成“复制粘贴模板”，导致大量无效配置。以下是经过200+次生产环境验证的 最小必要配置 ：

{
  // 必须字段1：明确指定模型服务地址，不要用localhost别名
  models: {
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1", // 硬编码IP，避免DNS解析失败
        apiKey: "lmstudio", // LM Studio固定密钥，无需修改
        api: "openai-responses", // 关键！LM Studio必须用此协议
        timeoutSeconds: 120, // 大模型推理超时设为120秒，避免默认30秒中断
        models: [{
          id: "qwen3-30b-a3b-6bit", // 必须与LM Studio UI里显示的ID完全一致
          name: "Qwen3-30B-A3B-6bit",
          reasoning: false, // 大模型设false，小模型可设true启用推理模式
          contextWindow: 196608, // 必须与模型实际上下文匹配，Qwen3-30B是192K
          maxTokens: 8192, // 输出长度上限，避免OOM
        }]
      }
    }
  },

  // 必须字段2：启用合并模式，保障fallback
  models: {
    mode: "merge"
  },

  // 必须字段3：全局超时，防止Agent卡死
  agents: {
    defaults: {
      timeoutSeconds: 300 // Agent整体超时5分钟，比模型超时更长
    }
  },

  // 必须字段4：显式声明本地模型为primary
  agents: {
    defaults: {
      model: {
        primary: "lmstudio/qwen3-30b-a3b-6bit" // 格式：provider/model-id
      }
    }
  },

  // 必须字段5：允许本地网络请求（Loopback默认信任，但显式声明更稳）
  request: {
    allowPrivateNetwork: true
  }
}

可删除的3个常见冗余字段：

cost 块：本地模型成本为0，OpenClaw不计费，删掉减少配置噪音
input: ["text"] ：除非用多模态模型，否则默认就是text，不写更安全
compat 块：新用户先删掉，等遇到协议问题再针对性添加

注意： id 字段必须与LM Studio UI左下角“Active Model”显示的名称 逐字符一致 。比如UI显示 qwen3-30b-a3b-6bit-Q4_K_M ，你就不能简写为 qwen3-30b ，否则OpenClaw找不到模型。

3.4 模型上下文窗口：为什么192K不是越大越好？

热词里“qwen3-30b”“deepseek-v2”频繁出现，但很多人盲目追求最大上下文。Qwen3-30B标称192K上下文，但实测在RTX 4090上，加载192K上下文需占用18GB显存，留给工具调用和中间计算的显存只剩2GB，导致Agent在复杂任务中频繁OOM。

我的经验公式： 安全上下文 = (GPU显存GB数 × 0.8) ÷ 0.12

RTX 4090（24GB）→ 安全上下文 ≈ 160K
RTX 3090（24GB）→ 安全上下文 ≈ 160K（但需降频使用）
Mac Studio M2 Ultra（64GB统一内存）→ 安全上下文 ≈ 384K（Metal后端效率更高）

在 openclaw.config.json5 中，把 contextWindow 设为计算值，再把 agents.defaults.contextTokens 设为该值的70%（留30%缓冲）。例如：

models: {
  providers: {
    lmstudio: {
      models: [{
        id: "qwen3-30b-a3b-6bit",
        contextWindow: 160000, // 安全值，非标称值
      }]
    }
  }
},
agents: {
  defaults: {
    contextTokens: 112000 // 160K × 0.7
  }
}

实操心得：我曾帮一家律所部署Qwen3-30B处理万页合同，初始设192K，Agent在分析第300页时显存爆满。改为160K后，配合 agents.defaults.experimental.localModelLean: true （精简模式），稳定运行72小时无中断。

3.5 WSL2环境避坑指南：NVIDIA驱动与Ollama的死亡组合

热词里“WSL2 + Ollama + NVIDIA/CUDA”是高频报错组合。根本原因是WSL2的CUDA驱动机制：NVIDIA官方驱动在WSL2里通过 wsl --update 安装，但Ollama的Linux安装脚本会覆盖部分驱动文件，导致CUDA初始化失败。

终极解决方案（经RTX 4090实测）：

在Windows上安装最新NVIDIA驱动（535.98+）

WSL2中执行：

# 卸载Ollama自带的CUDA组件
sudo apt remove cuda-toolkit-12-2
# 手动安装WSL2专用CUDA
wget https://developer.download.nvidia.com/compute/cuda/redist/wsl-ubuntu/x86_64/cuda-toolkit-12-2-wsl-ubuntu-22-04_12.2.0-1_amd64.deb
sudo dpkg -i cuda-toolkit-12-2-wsl-ubuntu-22-04_12.2.0-1_amd64.deb
# 验证CUDA
nvcc --version # 应输出12.2
# 再安装Ollama（此时不装CUDA）
curl -fsSL https://ollama.com/install.sh | sh

启动Ollama时 禁用自动重启 ：

sudo systemctl stop ollama
sudo systemctl disable ollama
ollama serve # 前台运行，便于查看日志

提示：WSL2中 nvidia-smi 可能不显示GPU，但 nvcc --version 能查到CUDA版本，说明驱动正常。Ollama日志里出现 CUDA initialized 即成功。

4. 实操过程与核心环节实现：从零开始部署Qwen3-30B全流程

4.1 环境准备：硬件、系统与依赖的硬性门槛

部署Qwen3-30B不是“有电脑就行”，而是有明确硬件红线。根据OpenClaw官方文档和我实测数据，列出不可妥协的条件：

组件	最低要求	推荐配置	验证命令
CPU	8核16线程	16核32线程（Intel i9-13900K / AMD Ryzen 9 7950X）	`lscpu \| grep "CPU\(s\)\|Core"`
内存	64GB DDR5	128GB DDR5（大模型加载需30GB+，Agent运行需20GB+）	`free -h`
GPU	RTX 4090 24GB	RTX 4090D 24GB 或 A100 40GB（Qwen3-30B FP16需22GB显存）	`nvidia-smi` （Linux）或 `dxdiag` （Windows）
存储	2TB NVMe SSD	4TB NVMe SSD（Qwen3-30B GGUF文件约18GB，缓存+日志需额外空间）	`df -h /`

为什么RTX 4090是底线？
Qwen3-30B的FP16权重约60GB，GGUF量化后约18GB。但推理时需加载KV Cache（键值缓存），其大小与上下文长度正相关。192K上下文下，KV Cache约需4GB显存。加上模型权重18GB、工具插件内存、OpenClaw自身开销，24GB显存刚好卡在临界点。RTX 3090（24GB）因显存带宽低30%，实测延迟高40%，不推荐。

注意：Mac用户请直接放弃Qwen3-30B。M2 Ultra的64GB统一内存虽够，但Metal后端对30B模型优化不足，实测token生成速度<3 token/s，体验极差。建议改用Qwen2-7B或DeepSeek-V2。

4.2 模型下载与验证：国内镜像源的实测速度对比

“ollama下载太慢了”是热词榜首，但问题不在Ollama，而在模型源。Ollama默认从Hugging Face下载，国内直连速度常<50KB/s。实测有效的国内镜像方案：

镜像源	适用模型	实测速度	使用方法
OpenXLab镜像	Qwen、DeepSeek、GLM全系	8~12MB/s	`ollama run qwen3:30b-a3b-6bit --set-url https://openxlab.org.cn/models/qwen3-30b-a3b-6bit`
智谱AI镜像	GLM-4、Zephyr系列	5~8MB/s	下载后手动放入 `~/.ollama/models/blobs/` ，再 `ollama create`
LM Studio内置源	所有GGUF模型	15~20MB/s（HTTPS加速）	在LM Studio UI中点击“Download Models”，选择“China”区域

LM Studio下载实操步骤：

打开LM Studio → 左侧菜单“Download Models”
顶部搜索框输入 qwen3 30b
在结果列表中找到 Qwen3-30B-A3B-6bit-GGUF ，右侧点击“Download”
下载完成后， 不要关闭LM Studio ，直接点击右下角GPU图标 → 选择“CUDA” → 点击“Start Server”

提示：下载时若卡在99%，是网络波动。关闭LM Studio重开，它会续传。不要删文件重下，否则丢失断点信息。

4.3 OpenClaw配置详解：一份可直接运行的Qwen3-30B配置

以下是我为Qwen3-30B在RTX 4090上实测稳定的 openclaw.config.json5 ，已去除所有冗余字段，仅保留生产必需项：

// openclaw.config.json5
{
  // === 模型服务配置 ===
  models: {
    mode: "merge", // 关键！启用fallback
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1", // LM Studio默认端口
        apiKey: "lmstudio", // 固定值，勿改
        api: "openai-responses", // LM Studio专用协议
        timeoutSeconds: 120, // 大模型推理超时
        models: [{
          id: "qwen3-30b-a3b-6bit", // 必须与LM Studio UI显示ID一致
          name: "Qwen3-30B-A3B-6bit",
          reasoning: false, // Qwen3不支持推理模式，设false
          contextWindow: 160000, // 安全上下文，非标称192K
          maxTokens: 8192,
        }]
      },
      // === 托管fallback配置 ===
      anthropic: {
        baseUrl: "https://api.anthropic.com/v1",
        apiKey: "your-anthropic-api-key", // 替换为你的Key
        api: "openai-completions", // Anthropic兼容OpenAI协议
        models: [{
          id: "claude-3-5-sonnet-20241022",
          name: "Claude Sonnet 4.6",
          contextWindow: 200000,
          maxTokens: 8192,
        }]
      }
    }
  },

  // === Agent行为配置 ===
  agents: {
    defaults: {
      model: {
        primary: "lmstudio/qwen3-30b-a3b-6bit", // 本地主力
        fallbacks: ["anthropic/claude-3-5-sonnet-20241022"] // 托管兜底
      },
      timeoutSeconds: 300, // Agent整体超时5分钟
      contextTokens: 112000, // 160K × 0.7，留30%缓冲
      experimental: {
        localModelLean: true // 关键！精简模式，移除browser/cron/message工具
      }
    }
  },

  // === 网络与安全 ===
  request: {
    allowPrivateNetwork: true // 允许本地网络请求
  }
}

配置生效验证命令：

# 1. 检查配置语法
openclaw config validate

# 2. 测试LM Studio连通性（应返回模型列表）
curl http://127.0.0.1:1234/v1/models

# 3. 测试OpenClaw能否识别模型（应返回Qwen3信息）
openclaw models list

# 4. 最终验证：发送简单请求
openclaw infer model run --local --model "lmstudio/qwen3-30b-a3b-6bit" --prompt "Reply with exactly: pong"

注意： openclaw models list 命令输出中， lmstudio/qwen3-30b-a3b-6bit 必须出现在列表里，且 status 为 active ，否则配置无效。

4.4 启动与监控：让Qwen3-30B稳定运行72小时的技巧

启动不是 openclaw run agent 就完事，而是有一套监控闭环：

第一步：前台启动，观察首屏日志

# 不要用nohup或后台启动！首次必须前台
openclaw run agent my-agent --config ./openclaw.config.json5

首屏日志应快速出现：

[INFO] Gateway started on http://localhost:3000
[INFO] Loaded model provider: lmstudio (http://127.0.0.1:1234/v1)
[INFO] Active model: lmstudio/qwen3-30b-a3b-6bit

若卡在 Loading model... 超30秒，立即Ctrl+C，检查LM Studio是否真在运行。

第二步：建立监控脚本
创建 monitor.sh （Linux/Mac）或 monitor.bat （Windows），每30秒检查一次：

# monitor.sh
while true; do
  echo "=== $(date) ==="
  # 检查LM Studio进程
  pgrep -f "LMStudio" > /dev/null && echo "LM Studio: RUNNING" || echo "LM Studio: DOWN"
  # 检查OpenClaw端口
  nc -z 127.0.0.1 3000 && echo "OpenClaw Gateway: LISTENING" || echo "OpenClaw Gateway: DOWN"
  # 检查GPU显存
  nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits | head -1
  sleep 30
done

第三步：日志分级保存
OpenClaw默认日志太简略，需重定向详细日志：

# 启动时保存完整日志
openclaw run agent my-agent --config ./openclaw.config.json5 2>&1 | tee openclaw.log

日志中重点关注：

model.call.error.failureKind: "connection" → 模型服务宕机
model.call.error.failureKind: "timeout" → 模型超时，需调大 timeoutSeconds
model.call.error.failureKind: "oom" → GPU显存不足，需降 contextWindow

实操心得：我给客户部署时，会把 monitor.sh 加入crontab每5分钟执行，日志超过100MB自动轮转。这样故障发生时，能精确到秒级定位问题。

5. 常见问题与排查技巧实录：21个真实故障的根因与解法

5.1 模型加载类问题：从GGUF报错到显存溢出

故障现象	根因分析	解决方案	验证命令
`lm studio no lm runtime found for model format 'gguf'!`	文件名含非法字符或路径错误	重命名为 `qwen3-30b-a3b-6bit.gguf` ，在LM Studio中重新加载	LM Studio UI左下角显示模型名
`CUDA out of memory` （LM Studio日志）	上下文窗口过大或GPU驱动异常	1. 降 `contextWindow` 至160000 2. 重启LM Studio 3. Windows上以管理员身份运行	`nvidia-smi` 确认显存释放
`openclaw infer model run --local` 返回空响应	LM Studio服务未启动或端口被占	1. 访问 `http://127.0.0.1:1234` 确认UI可见 2. `lsof -i :1234` （Mac/Linux）或 `netstat -ano \| findstr :1234` （Win）查端口	`curl http://127.0.0.1:1234/v1/models`
`model.call.error.failureKind: "connection"`	OpenClaw配置的 `baseUrl` 与LM Studio实际地址不符	检查LM Studio设置 → “Local Server” → “Port”，确保 `baseUrl` 端口一致	`openclaw config get models.providers.lmstudio.baseUrl`

提示： model.call.error.failureKind 是OpenClaw诊断核心。它有7种类型，其中 "connection" （连接失败）、 "timeout" （超时）、 "oom" （显存溢出）占90%。遇到问题先查此字段，比盲目重启高效10倍。

5.2 协议兼容类问题：Responses API与Completions的生死抉择

故障现象	根因分析	解决方案	配置示例
`openclaw infer model run --local` 成功，但Agent不调工具	配置了 `api: "openai-completions"` 却指向LM Studio	LM Studio必须用 `api: "openai-responses"`	`"api": "openai