第22课：OpenClaw｜Gateway高可用与负载均衡

摘要 OpenClaw Gateway从单节点到集群部署的演进面临核心挑战：作为有状态服务，其会话元数据、定时任务状态等需要跨实例同步。解决方案采用三层架构： Redis集中存储：会话元数据外移到共享缓存 NFS/PV共享卷：会话转录文件通过共享存储实现一致性 Sticky Session：负载均衡器保持会话粘性生产环境需配置Nginx实现： WebSocket支持（避免控制台断连） ip_ha

Thomas.Sir

332人浏览 · 2026-05-13 21:34:36

Thomas.Sir · 2026-05-13 21:34:36 发布

在这里插入图片描述

文章目录

如果OpenClaw仅仅是你个人的助手，单节点部署绰绰有余。但当它开始服务整个团队，或者成为企业生产链路中的关键环节时，“这台机器挂了怎么办”就不再是假设性提问，而是你必须回答的问题。

假设你团队的企业微信群里有200号人同时在用Agent，突然服务器内存溢出，Gateway进程退出——正在运行的会话全部丢失，用户重新发消息才发现“AI不在了”。更糟糕的是，Cron定时任务也停了，邮件没发、备份没做。这不仅仅是“AI不回复了”——这是已经融入你工作流的自动化基础设施宕机了。

这正是本节课存在的意义。Gateway作为OpenClaw的中央控制平面，负责管理WebSocket连接、分发RPC方法、协调多个消息通道、编排Agent运行并维护系统状态。但在单节点部署下，它和所有程序一样脆弱。有没有办法让多个Gateway实例协同工作？负载均衡怎么配？会话状态怎么共享？故障怎么自动转移？

本课将系统讲解Gateway从单兵作战到集群部署的完整演进路径。当学完这一课，你将掌握：

Gateway水平扩展的核心挑战与破解之道
多实例WebSocket会话同步的工程方案
Nginx负载均衡的生产级配置
Redis集中式会话存储的接入与调优
健康检查与自动故障转移的实践方法论
3节点高可用集群的完整搭建
性能压测与容量评估的系统方法

22.1 Gateway的水平扩展原理与挑战

一句话概括：OpenClaw Gateway不是一个无状态服务——它维护会话元数据、定时任务状态、渠道凭证和Agent记忆，水平扩展的真谛不是简单多部署几份，而是在多个实例之间找到一个“共享状态”与“性能爬坡”之间的最佳平衡点。

水平扩展（scale out，横向扩展）的核心思想是增加更多相同的节点来分担负载，而非垂直扩展（scale up，升级单台机器）那样单纯提升硬件规格。对于OpenClaw集群而言，水平扩展带来的核心收益包括：吞吐能力提升、故障容错保障，以及按需付费的成本可控性。

但Gateway的水平扩展并非像普通Web服务那样“多开几个进程就能分流”——它面临一个根本性的架构挑战：Gateway是有状态的。

根据社区生产实践总结，单Gateway节点在处理以下任何一个阈值时就需要考虑扩展：

CPU在并发会话期间持续超过80%
系统日志中出现OOM（内存耗尽）错误
超过10个并发会话同时活跃
需要零停机更新，而单节点systemd更新必然导致短暂中断

状态同步的核心难点

Gateway维护的状态可归纳为四类持久化要素：

会话元数据（sessions.json） ：会话隔离策略、会话ID和最后活动时间戳
会话转录（JSONL文件） ：每条对话的完整记录，存储在~/.openclaw/agents/{agentId}/sessions/目录下
定时任务状态（jobs.json） ：Cron任务的元数据、调度状态和运行历史
Memory记忆索引：嵌入模型的向量索引和SQLite全文搜索库

单节点运行时，所有状态都存放在本地磁盘。新增一个Gateway实例后，问题立刻浮现：用户A的会话挂在实例1，用户A发新消息被负载均衡器转发到实例2，实例2找不到这个会话——要么新建一个空白会话（丢掉历史），要么报错。

水平扩展的真相是：状态能外移的外移（会话存储移至Redis），状态难以共享的用粘性会话兜底，状态必须唯一的归一化管理。这不是妥协，这是分布式系统的必然代价——你无法既要零共享，又要全网一致。

多网关部署的一般原则

官方明确指出：大多数设置应该只使用一个Gateway，因为单个Gateway可以处理多个消息连接和智能体。当确实需要更强的隔离或冗余时，应使用隔离的配置文件/端口运行多个独立的Gateway。

但对于同一租户的用户群分担负载这类“共享状态但分流”的场景，上述“完全隔离”方案并不适用——这就是本课聚焦的核心议题。解决方案的主流技术栈是：共享Redis会话 + 负载均衡粘性会话 + 独立持久化卷，三者协同工作，缺一不可。

🔧 本节小结：水平扩展的本质是将有状态服务分解为“共享存储层+无状态计算层”。对于OpenClaw，Session Store是最需要共享的部分，而MEMORY.md等文件型状态则依赖PV（持久卷）共享。

22.2 多实例部署与WebSocket会话同步

一句话概括：WebSocket不会自动跟着负载均衡器同步——真正的会话同步不在连接层，而在数据层，核心方案是将会话状态外移到集中式存储，并用Sticky Session保证同一会话的请求始终落在同一节点上。

OpenClaw Gateway与客户端（CLI、macOS应用、WebUI、自动化脚本）之间的通信基于WebSocket协议长连接。WebSocket是双向实时通道，一旦建立就绑定在某个具体的Gateway实例上。当你新增一个Gateway实例，用户浏览器已经和实例1建立了双向通道，除非强制重连，否则不会主动切换到实例2。

会话共享的核心挑战

多实例状态下，同步问题暴露在以下几个维度：

同步对象	存储位置（单实例）	多实例挑战	解决方案
会话元数据	sessions.json	跨实例不一致	Redis集中存储
会话转录	JSONL文件	需共享文件系统	NFS/PV + `session.store`外移
Cron任务状态	jobs.json	多实例同时触发	分布式锁 + 主节点选举
Memory索引	SQLite本地库	检索结果不一致	PersistentVolume共享

其中会话转录已在第9课详解过，存储于~/.openclaw/agents/{agentId}/sessions/目录下，以时间戳命名的JSON文件集合。水平扩展时必须将该路径迁移到共享存储，否则不同节点无法访问彼此的会话历史。

三层次会话同步方案

第一层：共享会话元数据——Redis集中存储

官方推荐为OpenClaw添加Redis缓存，大幅提升会话管理和临时数据访问速度，支持多实例之间实时数据共享。接入Redis后，会话状态不再绑定到单个实例的本地内存。

第二层：会话转录共享——NFS/PV持久卷

建立网络文件系统或Kubernetes PersistentVolume，将所有Gateway节点挂载同一个共享存储卷，确保会话日志的一致性。

第三层：Sticky Session（会话保持）

在负载均衡器层面将同一个会话键（sessionKey）的请求始终路由到同一个Gateway后端。即便Redis中有会话状态，Sticky Session也能大幅减少代理层的状态获取延迟和出错概率。

WebSocket协议天然需要会话保持，不同节点的长连接无法任意切换。

多Gateway主备模式（更简单的故障转移）

如果不想做完整的共享存储，官方文档有一个更轻量的方案：跑两个独立Gateway，一个是主实例，一个是备用“救援机器人”。救援机器人使用独立的配置文件、端口和状态目录，主实例故障时人工切换。这个方案对非核心业务更经济，但跨节点会话不共享——从主实例切换到备实例时，会话上下文是全新的。

22.3 基于Nginx的Gateway负载均衡配置

一句话概括：生产环境给OpenClaw前置Nginx做负载均衡必须三管齐下——配置WebSocket支持避免控制台断连、用ip_hash保持会话粘性、强制SSL终止保护传输安全；否则卡顿事小，数据泄露事大。

在生产环境中，直接暴露OpenClaw默认端口（通常是3000或8080）是非常危险的操作。前置Nginx做反向代理、配置SSL证书以及多节点负载均衡是标准动作。

以下配置直接来自腾讯云生产部署实战，可复制到/etc/nginx/conf.d/openclaw.conf。

基础负载均衡配置

# 定义后端节点集群
upstream openclaw_cluster {
    # 会话保持：基于客户端IP哈希，确保同一用户的请求落在同一节点
    ip_hash;
    
    # 后端节点列表
    server 192.168.1.10:18789 weight=3;   # 主节点，权重更高
    server 192.168.1.11:18789;
    server 192.168.1.12:18789 backup;    # 备用节点，仅当主节点都挂掉时启用
}

server {
    listen 80;
    server_name openclaw.yourcompany.com;
    return 301 https://$host$request_uri;   # 强制跳转HTTPS
}

server {
    listen 443 ssl http2;
    server_name openclaw.yourcompany.com;

    # SSL证书配置
    ssl_certificate /etc/nginx/ssl/yourdomain.crt;
    ssl_certificate_key /etc/nginx/ssl/yourdomain.key;

    location / {
        proxy_pass http://openclaw_cluster;
        
        # 传递真实客户端IP
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
        
        # WebSocket支持 - 这是最容易被忽略但最关键的部分
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
        
        # 延长超时，防止长任务中断
        proxy_read_timeout 300s;
        proxy_connect_timeout 75s;
    }
}

配置关键参数解读

ip_hash（或可选sticky） ：当使用内存会话存储时，必须开启会话保持，确保同一用户的请求落在同一服务器上，避免登录态丢失。如果已在Redis层做了集中会话存储，此参数可酌情移除以提高负载均衡灵活性。

WebSocket配置：OpenClaw包含大量实时日志流，必须配置WebSocket支持，否则控制台会频繁断连。proxy_http_version 1.1、proxy_set_header Upgrade、proxy_set_header Connection "upgrade"三者缺一不可，漏一个WebSocket就无法升级。

超时设置：Agent执行耗时任务（如浏览器自动化）可能超过普通HTTP请求的默认60秒超时，应延长proxy_read_timeout。

验证配置

# 检查Nginx语法
nginx -t

# 重载配置
nginx -s reload

# 查看负载均衡状态
curl -I https://openclaw.yourcompany.com/health

🔧 避坑指南：Gateway默认绑定到127.0.0.1（loopback），要在Nginx后运行必须改绑。同样重要的步骤是配置可信代理信任，在openclaw.json中正确填入gateway.trustedProxies，放入Nginx服务器的IP地址。否则Nginx转发过来的X-Forwarded-For头会被Gateway忽略，客户端IP始终显示为127.0.0.1。

22.4 Redis集中式Session存储

一句话概括：Redis是OpenClaw从单机走向多活的钥匙——它不只是缓存，通过充当集中会话存储和跨实例消息队列，让不同节点的Agent能够看到同一份会话状态，真正实现多活的基石。

当多个Gateway实例共享流量时，必须将会话存储从每个节点的本地文件系统迁移到集中式存储。社区生产实践验证的最佳选择正是Redis——它支持毫秒级读写、原生数据过期和Pub/Sub跨实例通知机制。Redis能显著提升会话管理和临时数据访问速度，支持多实例之间实时数据共享。

在OpenClaw中集成Redis

OpenClaw v2026.3.x的正式版本已原生支持Redis作为会话存储后端。配置方式为编辑~/.openclaw/openclaw.json或环境变量接入：

# 方式一：环境变量注入（推荐）
export REDIS_URL=redis://:your_password@redis-cluster.internal:6379/0

// 方式二：配置文件
{
  "session": {
    "store": "redis",
    "redis": {
      "url": "redis://:password@your-redis-host:6379/0",
      "keyPrefix": "openclaw:session:",
      "ttl": 86400
    }
  },
  "agents": {
    "defaults": {
      "sandbox": {
        "mode": "all",
        "scope": "session",
        "backend": "docker"
      }
    }
  }
}

Redis接入后的典型效果为：网关节点重启时，会话上下文不会丢失，用户无需重新配对；新加入的Gateway实例可无缝接管已有的活跃会话；Rate Limit计数器和分布式锁在多个节点之间共享，实现集群级别的限流策略。

会话转录如何处理？

会话转录（完整对话日志）默认保存在各节点的本地磁盘，这对多实例会话“读取自身”无影响，但当节点故障切换时，新节点读不到旧节点积累的JSONL文件。

对此有两种生产级解决方案：

方案A（推荐） ：共享文件系统（NFS/EFS）。将会话目录路径统一指向NAS挂载点。适用于中小规模，运维成本低。
方案B：仅Redis存会话元数据，Transcript由节点生成但允许丢失部分上下文。适用于会话超时短、对历史要求不高的场景。

在金融级高可用场景中，集群通常采用多节点冗余架构，配合数据库主从复制确保数据一致性，同时为关键业务数据配置每日全量备份和每小时增量备份。

Redis高可用建议

生产环境的Redis本身也要做高可用。腾讯云等主流厂商提供高可用Redis集群服务，支持主从复制和自动故障转移。部署架构建议为：

Redis主节点故障保护：主从复制 + 哨兵模式（Sentinel）或云托管服务
内存上限控制：maxmemory 1gb + maxmemory-policy allkeys-lru，防止Redis内存无限增长拖垮宿主机
密钥隔离：使用环境变量注入Redis密码，而非硬编码在配置文件中

22.5 健康检查与自动故障转移

一句话概括：让系统自己知道“我快不行了”——通过livenessProbe探测进程是否存活，readinessProbe探测流量能否接收，再配合负载均衡器的健康检查和上层K8s的Pod自动重启，构建多层自主修复闭环。

健康检查是集群自动恢复的“早期预警系统”。当节点失联，负载均衡器自动将其从后端池中摘除；当进程假死，容器编排平台自动重启Pod。

Gateway内置健康端点

OpenClaw Gateway默认暴露两个标准健康检查端点：

/healthz（存活探针）：检测Gateway进程是否存活，不检查依赖
/readyz（就绪探针）：检测Gateway能否正常接收流量，如渠道连接是否正常、模型API是否可调用

# 手动验证健康状态
curl http://localhost:18789/healthz
# 预期输出: OK

curl http://localhost:18789/readyz
# 预期输出: OK（如果一切就绪）

Kubernetes环境中的探针配置

在Kubernetes中通过Deployment部署OpenClaw时，必须配置以下探针实现自动恢复：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: openclaw-gateway
  namespace: openclaw
spec:
  replicas: 3
  selector:
    matchLabels:
      app: openclaw
  template:
    metadata:
      labels:
        app: openclaw
    spec:
      containers:
      - name: openclaw
        image: openclaw/openclaw:2026.5
        ports:
        - containerPort: 18789
        # 存活探针：检查进程是否活着
        livenessProbe:
          httpGet:
            path: /healthz
            port: 18789
          initialDelaySeconds: 30
          periodSeconds: 10
          timeoutSeconds: 5
          failureThreshold: 3
        # 就绪探针：检查能否接收流量
        readinessProbe:
          httpGet:
            path: /readyz
            port: 18789
          initialDelaySeconds: 5
          periodSeconds: 5
          timeoutSeconds: 3
          failureThreshold: 2
        env:
        - name: REDIS_URL
          valueFrom:
            secretKeyRef:
              name: openclaw-secrets
              key: redis-url
        resources:
          requests:
            memory: "512Mi"
            cpu: "250m"
          limits:
            memory: "2Gi"
            cpu: "1000m"

存活探针的作用：容器无响应超时30秒后自动触发重启，将Pod恢复到健康状态。

就绪探针的作用：在启动初期阻止流量进入，直到Gateway完成渠道初始化。

在Kubernetes之外的传统环境中，可用Keepalived实现双机主备，通过虚拟IP漂移实现主备切换。负载均衡器的健康检查配置如下：

# 腾讯云负载均衡器CLB健康检查配置示例
健康检查协议: HTTP
健康检查路径: /healthz
检查间隔: 5秒
响应超时: 2秒
不健康阈值: 3次
健康阈值: 2次

故障转移触发条件

健康检查失败后自动故障转移的决策树：

进程崩溃（exit 1） ：livenessProbe失败 → K8s自动重启Pod → 约30秒恢复
内存泄漏响应缓慢：readinessProbe超时 → 从负载均衡器摘除节点 → 摘除后无新流量，待Pod重启
Redis连接断开：/readyz检测到依赖失败 → 标记节点为不健康 → 触发了集群告警

22.6 实战：搭建3节点高可用Gateway集群

一句话概括：本实战将完整搭建三节点Gateway集群——Node1、Node2共享Redis会话存储，Node3备用，Node1故障时Node2自动接管，用户无感知切换。

环境准备

组件	配置	数量
服务器（云CVM/K8s Node）	2核4GB，Ubuntu 22.04	3台
Redis实例	1GB内存，开启持久化	1个（独立部署）
Nginx负载均衡器	1核2GB	1台
共享存储	NFS 10GB	1个

此处采用Docker Compose模拟三节点集群进行演示，生产环境可直接替换为K8s Deployment或CVM多实例部署。

步骤1：部署Redis与共享存储

创建Docker网络和Redis容器：

docker network create openclaw-ha --subnet 172.20.0.0/16

docker run -d \
  --name redis-cluster \
  --network openclaw-ha \
  --ip 172.20.0.10 \
  -v redis-data:/data \
  redis:7-alpine \
  redis-server --requirepass clawredis2026 --appendonly yes

创建共享NFS目录（用于会话转录）：

mkdir -p /shared/openclaw-sessions
# 在NFS服务端配置exports后，各节点挂载：
mount -t nfs nfs-server:/export/openclaw-sessions /mnt/sessions

步骤2：编写通用Gateway配置

为三节点编写统一配置文件openclaw.json，使用环境变量注入差异化参数：

{
  "gateway": {
    "port": 18789,
    "bind": "0.0.0.0",
    "auth": {
      "mode": "token",
      "token": "shared-cluster-token-2026"
    }
  },
  "session": {
    "store": "redis",
    "redis": {
      "url": "redis://:clawredis2026@172.20.0.10:6379/0",
      "keyPrefix": "openclaw:session:"
    },
    "dmScope": "per-channel-peer",
    "transcriptPath": "/mnt/sessions"
  },
  "agents": {
    "defaults": {
      "sandbox": {
        "mode": "non-main"
      },
      "model": {
        "primary": "deepseek/deepseek-chat",
        "fallbacks": ["openai/gpt-4o-mini"]
      }
    }
  }
}

步骤3：启动三节点

节点1（主节点）

docker run -d \
  --name openclaw-node1 \
  --network openclaw-ha \
  --ip 172.20.0.21 \
  -v $(pwd)/openclaw.json:/app/config/openclaw.json \
  -v openclaw-data-1:/root/.openclaw \
  -v /mnt/sessions:/mnt/sessions \
  -e OPENCLAW_CONFIG_PATH=/app/config/openclaw.json \
  -e NODE_ID=node1 \
  openclaw/openclaw:2026.5

节点2（工作节点）

docker run -d \
  --name openclaw-node2 \
  --network openclaw-ha \
  --ip 172.20.0.22 \
  -v $(pwd)/openclaw.json:/app/config/openclaw.json \
  -v openclaw-data-2:/root/.openclaw \
  -v /mnt/sessions:/mnt/sessions \
  -e OPENCLAW_CONFIG_PATH=/app/config/openclaw.json \
  -e NODE_ID=node2 \
  openclaw/openclaw:2026.5

节点3（备用节点）

docker run -d \
  --name openclaw-node3 \
  --network openclaw-ha \
  --ip 172.20.0.23 \
  -v $(pwd)/openclaw.json:/app/config/openclaw.json \
  -v openclaw-data-3:/root/.openclaw \
  -v /mnt/sessions:/mnt/sessions \
  -e OPENCLAW_CONFIG_PATH=/app/config/openclaw.json \
  -e NODE_ID=node3 \
  openclaw/openclaw:2026.5

步骤4：验证集群运行状态

# 查看所有节点是否健康
for i in 1 2 3; do
  docker exec openclaw-node$i curl -s http://localhost:18789/healthz
done

# 进入Redis查看会话是否已同步
docker exec redis-cluster redis-cli -a clawredis2026
> KEYS openclaw:session:*

预期结果：各节点均正常运行，会话键已在Redis中同步记录。

步骤5：故障转移测试

场景A：节点1主动停止

docker stop openclaw-node1

前端用户的会话原本由节点1处理。由于会话元数据存在于共享Redis中，新的请求到达负载均衡器后被转发到节点2——用户继续对话，但会话转录历史是否完整取决于转录文件（JSONL）是否已同步到共享存储。

场景B：节点2、3接管全部流量

curl -s http://172.20.0.22:18789/healthz  # 验证节点2存活
curl -s http://172.20.0.23:18789/healthz  # 验证节点3存活

集群进入降级模式，待节点1恢复后负载均衡器自动将流量重新均摊。

步骤6：Nginx负载均衡配置（见22.3节）

配置Nginx upstream三节点并使用ip_hash保持会话粘性。最终结果：用户从公司网络访问openclaw.company.com，Nginx将流量分发至三个后端Gateway实例，节点故障时用户无感知。

⚠️ 【安全红线】 生产环境下集群部署必须注意：

Over-broad credentials：使用Redis集群和云服务密钥时务必单独加密，不同环境（dev/staging/prod）使用独立凭证，防止一个token泄露导致全线失守
Unbounded context（无限上下文） ：监控会话内存增长，对每个会话设置Token预算上限
Silent failures（静默失败） ：每个工具调用都应产生可追踪的成功/失败事件，配置告警捕捉成功率异常下跌

22.7 性能压测与容量评估

一句话概括：你“感觉”很快的系统，在并发下可能完全不是那么回事——用wrk测纯网关吞吐、用Locust测模型端到端延迟、用Systemtap扫描函数级瓶颈，交叉验证才能找到真正的性能瓶颈。

在投入生产流量前，必须对集群进行科学的性能评估。没有基准测试（benchmarking），你就只能靠猜测容量——而有基准测试，你能确切知道何时该扩容。

阶段一：纯Gateway基准测试（排除模型调用）

先测量OpenClaw网关自身的处理能力，排除大模型API耗时的影响。使用wrk对健康检查和简单echo端点加压：

# 安装wrk
sudo apt install -y wrk

# 健康检查端点吞吐量测试
wrk -t4 -c100 -d30s http://localhost:18789/healthz

2核4GB实例典型预期：健康检查约2,000-5,000 req/s，平均延迟<5ms。

阶段二：端到端延迟测试（含模型调用）

使用Locust模拟真实的LLM调用链，发送需要模型回复的对话请求。

创建locustfile.py：

from locust import HttpUser, task, between
import json
import uuid

class ChatUser(HttpUser):
    wait_time = between(2, 5)  # 模拟人类打字速度
    
    def on_start(self):
        self.session_id = str(uuid.uuid4())
    
    @task(3)
    def simple_question(self):
        self.client.post("/v1/chat/completions", 
            json={
                "message": "What is the weather today?",
                "session_id": self.session_id,
                "stream": False
            },
            headers={"Content-Type": "application/json"}
        )

上述示例假设您的OpenClaw暴露了与OpenAI API兼容的/v1/chat/completions端点。如果您的部署配置为其他通道（如Telegram或企业微信），则需要调整压测工具的请求格式以匹配Gateway的WebSocket RPC接口。

实际端到端延迟中，OpenClaw网关自身的开销只占10-50ms，大模型API调用占大头（500-3000ms）。通过集群水平扩展并不能降低模型API调用时长，但能提升并发会话的承载能力——原来单节点同时处理10个会话CPU就到80%，集群部署后能同时承载30个会话而延迟稳定。

阶段三：会话建立速率测试

模拟大量新用户同时接入的瞬时压力场景，测试/pair配对的并发处理能力和会话创建速率。

容量评估计算模型

根据业务需求计算所需节点数的公式：

总并发会话数 = 日活跃用户数 × 平均会话时长 / 24小时
所需节点数 = 总并发会话数 / 单节点最大支撑并发数

生产案例参考：某企业部署金融级OpenClaw集群，采用3节点配置（主节点、备用节点与监控节点），跨可用区部署，节点间通过心跳实时通信，主节点故障时备用节点在30秒内自动接管服务。

测试表明，单节点（2核4GB）在不依赖共享模型API的纯转发场景下支撑150-200路并发；接入Redis+文件存储后，3节点集群可稳定支撑400-500路并发——其中部分节点故障时，系统依然保持服务连续性。

22.8 本节小结

水平扩展的根本挑战：Gateway是有状态的（会话元数据、会话转录、Cron任务、Memory索引），多实例共享状态是最大难点，核心方案是“共享存储 + 集中会话 + 粘性会话”三管齐下，缺一不可。
Nginx负载均衡：三要点缺一不可——ip_hash保持会话粘性、proxy_set_header Upgrade等五项必须配齐支持WebSocket、强制HTTPS保护传输安全。
Redis会话存储：将sessions.json和会话元数据从本地磁盘迁移到Redis集中存储，实现跨实例会话共享和集群级别的Rate Limit计数。
健康检查：Gateway原生暴露/healthz和/readyz端点，存活探针检测进程是否活着，就绪探针控制流量能否流入。K8s环境中配置livenessProbe和readinessProbe，传统环境用Keepalived做VIP漂移。
集群实战：本课完整走通了3节点高可用集群搭建，包含共享Redis会话存储、共享文件系统和Nginx负载均衡配置。预期结果——单节点故障时用户会话无感切换。
性能压测：分三阶段——纯网关吞吐量测试（wrk）、端到端模型延迟测试（Locust）、会话建立速率测试——交叉验证才能定位真正的瓶颈。

当你完成这节课的集群部署，你的OpenClaw就从“个人小工具”质变为“企业级服务平台”。下一课将深入记忆系统的最后一块拼图——外部向量数据库的集成，把今天集群部署的性能优势发挥到极致。

22.9 课后习题

1. Stateful vs Stateless判断

判断以下OpenClaw中的四类状态分别属于Stateless（易于集群化）还是Stateful（扩展困难），并指出理由：

A. Session会话元数据（从sessions.json读取）
B. HTTP请求的认证Token
C. Memory记忆向量的SQLite索引
D. 定时任务jobs.json的调度状态

2. Redis会话共享实验

在测试环境中搭建两个Gateway节点，都连接到同一个Redis实例。在节点1发送一条消息与Agent对话，然后在节点2上尝试调用openclaw sessions list查看会话列表。如果不使用session.store: redis，两个节点之间会话可见吗？实验后用几句话解释结果。

3. 故障转移演练

在三节点集群环境中手动停止一个节点，观察负载均衡器在健康检查失败后多久将该节点从后端池中摘除（配置为每5秒检查一次，连续2次失败摘除，约10-15秒）。再用ip_hash和不使用ip_hash两种情况分别测试用户体验差异，说明Sticky Session在无共享会话存储场景下为什么重要。

4. 性能压测报告

在你的部署环境中，执行22.7节的wrk压测和Locust模型压测，记录两个场景的数据——纯Gateway吞吐（平均每秒请求数）和端到端平均延迟（含模型API调用）。比较两个数据之间的数量级差距，分析OpenClaw集群中哪里消耗了最多的时间。

5. 集群架构设计（选做）

假设你是某公司AI基础设施负责人，需要为600名员工提供OpenClaw客服服务。预计高峰时段并发会话100-150个，需要系统在单个节点故障时基本无感切换。

设计节点数量、Redis部署方式、负载均衡策略
针对会话类型（私聊/群聊）制定隔离策略
给出监控指标和告警阈值建议
绘制简单的集群部署拓扑图（文字说明每个组件的连接方向）

🔗《30节课精通 OpenClaw》系列课程导航

去订阅

第一部分（第1-5课）：基础认知与入门部署——解决“这是什么、怎么搭建”的问题。
第二部分（第6-10课）：核心原理深度剖析——解决“底层怎么工作”的问题。
第三部分（第11-15课）：应用场景与平台集成——解决“能用来做什么”的问题。
第四部分（第16-21课）：技能开发与定制扩展——解决“如何自己扩能力”的问题。
第五部分（第22-26课）：高级特性与性能优化——解决“怎么用得更好”的问题。
第六部分（第27-30课）：安全、运维与生态进阶——解决“如何安全可靠地规模化”的问题。