AI Agent 云原生部署：多 Agent 编排框架的 K8s 落地与状态管理

键盘鼓手苏苏

30人浏览 · 2026-06-27 09:17:55

键盘鼓手苏苏 · 2026-06-27 09:17:55 发布

AI Agent 云原生部署：多 Agent 编排框架的 K8s 落地与状态管理

一、Agent 编排的状态爆炸与资源调度困局

AI Agent 从 Demo 到生产的最大鸿沟是状态管理。单个 Agent 的对话状态还好处理，但多 Agent 协作场景下，状态复杂度指数级增长。一个典型的 Agent 编排流程：用户请求 → 意图识别 Agent → 任务拆解 Agent → 并行调用工具 Agent（搜索、代码执行、数据库查询）→ 结果聚合 Agent → 响应生成 Agent。每个 Agent 有独立的对话上下文、工具调用历史和中间状态，Agent 之间还需要共享任务进度和依赖关系。更棘手的是资源调度：不同 Agent 的计算需求差异巨大，意图识别只需 CPU，代码执行需要沙箱环境，推理 Agent 需要 GPU。把所有 Agent 塞进一个 Pod 显然不合理，但拆成多个微服务后，状态同步和故障恢复的复杂度又上来了。本文直接给出多 Agent 编排框架的云原生部署方案。

二、多 Agent 编排的状态模型与调度架构

多 Agent 编排的核心挑战是状态一致性。Agent 的执行流程本质上有向无环图（DAG），每个节点是一个 Agent，边是数据依赖。

flowchart TD
    A[用户请求入口] --> B[意图识别 Agent]
    B --> C[任务拆解 Agent]
    C --> D1[搜索 Agent]
    C --> D2[代码执行 Agent]
    C --> D3[数据库查询 Agent]
    D1 & D2 & D3 --> E[结果聚合 Agent]
    E --> F[响应生成 Agent]
    F --> G[返回结果给用户]

    subgraph "状态存储层"
        H[Redis: 对话上下文 + 临时状态]
        I[PostgreSQL: 任务 DAG + 执行记录]
        J[S3: 中间产物: 代码输出/搜索结果]
    end

    subgraph "K8s 调度策略"
        K[意图识别: CPU Pod, 100m CPU]
        L[代码执行: 沙箱 Pod, gVisor 隔离]
        M[推理 Agent: GPU Pod, nvidia.com/gpu: 1]
    end

    B -.-> H
    C -.-> I
    D2 -.-> J
    D2 -.-> L
    F -.-> M

状态分为三类：对话状态（短期，秒级 TTL）、任务状态（中期，分钟级 TTL）、持久化状态（长期，小时级以上）。对话状态存 Redis，任务 DAG 和执行记录存 PostgreSQL，中间产物（代码输出、搜索结果等大对象）存 S3/MinIO。

Agent 的调度策略根据计算需求差异化配置：轻量级 Agent（意图识别、任务拆解）部署在 CPU Pod 上，代码执行 Agent 部署在 gVisor 隔离的沙箱 Pod 中，推理 Agent 部署在 GPU Pod 上。这种异构调度是 Agent 云原生部署与普通微服务部署的核心区别。

三、多 Agent 编排的云原生实现方案

3.1 基于 LangGraph 的 Agent 工作流定义

LangGraph 是目前最成熟的 Agent 编排框架之一，支持 DAG 定义、状态管理和断点恢复：

# agent_workflow.py — LangGraph 多 Agent 工作流
from langgraph.graph import StateGraph, END
from typing import TypedDict, Annotated
import operator

# 定义全局状态结构
class AgentState(TypedDict):
    query: str                           # 用户原始请求
    intent: str | None                   # 意图识别结果
    subtasks: list[dict]                 # 拆解后的子任务列表
    search_results: list[str]            # 搜索结果
    code_output: str | None              # 代码执行结果
    db_results: list[dict]               # 数据库查询结果
    final_response: str | None           # 最终响应
    errors: Annotated[list[str], operator.add]  # 错误收集

# 意图识别节点
def intent_recognition(state: AgentState) -> dict:
    """轻量级意图分类，基于小模型 + 规则"""
    query = state["query"]
    # 调用意图分类服务（CPU 推理，延迟 < 100ms）
    intent = classify_intent(query)
    return {"intent": intent}

# 任务拆解节点
def task_decomposition(state: AgentState) -> dict:
    """根据意图拆解为可并行执行的子任务"""
    intent = state["intent"]
    query = state["query"]
    subtasks = decompose_task(intent, query)
    return {"subtasks": subtasks}

# 并行执行节点（搜索、代码、数据库）
def search_agent(state: AgentState) -> dict:
    results = web_search(state["subtasks"])
    return {"search_results": results}

def code_agent(state: AgentState) -> dict:
    """代码执行需要沙箱环境，通过 K8s Job 调度"""
    code = extract_code_from_subtasks(state["subtasks"])
    try:
        output = execute_in_sandbox(code)
        return {"code_output": output}
    except SandboxTimeoutError:
        return {"errors": ["代码执行超时"]}

def db_agent(state: AgentState) -> dict:
    results = query_database(state["subtasks"])
    return {"db_results": results}

# 结果聚合节点
def aggregate_results(state: AgentState) -> dict:
    """聚合所有子任务结果，生成最终响应"""
    combined = format_combined_results(
        search=state.get("search_results", []),
        code=state.get("code_output"),
        db=state.get("db_results", [])
    )
    return {"final_response": combined}

# 构建工作流图
workflow = StateGraph(AgentState)

# 添加节点
workflow.add_node("intent", intent_recognition)
workflow.add_node("decompose", task_decomposition)
workflow.add_node("search", search_agent)
workflow.add_node("code", code_agent)
workflow.add_node("database", db_agent)
workflow.add_node("aggregate", aggregate_results)

# 定义边（执行顺序）
workflow.set_entry_point("intent")
workflow.add_edge("intent", "decompose")
workflow.add_edge("decompose", "search")
workflow.add_edge("decompose", "code")
workflow.add_edge("decompose", "database")
workflow.add_edge("search", "aggregate")
workflow.add_edge("code", "aggregate")
workflow.add_edge("database", "aggregate")
workflow.add_edge("aggregate", END)

# 编译并运行
app = workflow.compile()

3.2 代码执行沙箱的 K8s 部署

代码执行 Agent 必须在沙箱中运行，防止恶意代码影响宿主机。使用 gVisor 运行时 + K8s Job 实现：

# sandbox-job.yaml — 代码执行沙箱
apiVersion: batch/v1
kind: Job
metadata:
  name: code-exec-{{ task_id }}
  namespace: agent-sandbox
  labels:
    app: code-executor
    task-id: "{{ task_id }}"
spec:
  backoffLimit: 1
  activeDeadlineSeconds: 60     # 最长执行 60 秒
  template:
    metadata:
      annotations:
        # 使用 gVisor 运行时，内核级沙箱隔离
        io.kubernetes.cri.runtime-handler: gvisor
    spec:
      restartPolicy: Never
      securityContext:
        runAsNonRoot: true
        readOnlyRootFilesystem: true
      containers:
      - name: executor
        image: agent-code-executor:v1.2.0
        resources:
          limits:
            cpu: "1"
            memory: 512Mi
          requests:
            cpu: 200m
            memory: 256Mi
        env:
        - name: TASK_ID
          value: "{{ task_id }}"
        - name: CODE_INPUT
          valueFrom:
            configMapKeyRef:
              name: code-input-{{ task_id }}
              key: code
        - name: RESULT_CALLBACK_URL
          value: "http://agent-orchestrator:8080/callback/{{ task_id }}"

3.3 Agent 状态的持久化与恢复

Agent 工作流可能执行数分钟，中途任何节点失败都需要从断点恢复，而非从头开始：

# state_manager.py — Agent 状态持久化
import json
import redis
import psycopg2
from datetime import datetime

class AgentStateManager:
    """Agent 状态管理器：Redis 短期状态 + PostgreSQL 长期状态"""

    def __init__(self, redis_url: str, pg_dsn: str):
        self.redis = redis.from_url(redis_url)
        self.pg = psycopg2.connect(pg_dsn)

    def save_checkpoint(self, workflow_id: str, state: dict, node_name: str):
        """
        保存工作流检查点
        每个节点执行完成后调用，确保可从任意断点恢复
        """
        # 短期状态写入 Redis（TTL 1 小时）
        checkpoint_key = f"agent:checkpoint:{workflow_id}"
        self.redis.hset(checkpoint_key, mapping={
            "current_node": node_name,
            "state": json.dumps(state, ensure_ascii=False),
            "timestamp": datetime.now().isoformat()
        })
        self.redis.expire(checkpoint_key, 3600)

        # 长期状态写入 PostgreSQL
        with self.pg.cursor() as cur:
            cur.execute("""
                INSERT INTO agent_checkpoints (workflow_id, node_name, state, created_at)
                VALUES (%s, %s, %s, %s)
                ON CONFLICT (workflow_id) DO UPDATE
                SET node_name = %s, state = %s, created_at = %s
            """, (workflow_id, node_name, json.dumps(state),
                  datetime.now(), node_name, json.dumps(state),
                  datetime.now()))
        self.pg.commit()

    def restore_checkpoint(self, workflow_id: str) -> tuple[str, dict]:
        """
        恢复工作流检查点
        优先从 Redis 读取，Redis 未命中则从 PostgreSQL 读取
        """
        # 先查 Redis
        checkpoint_key = f"agent:checkpoint:{workflow_id}"
        data = self.redis.hgetall(checkpoint_key)
        if data:
            return data[b"current_node"].decode(), json.loads(data[b"state"])

        # Redis 未命中，查 PostgreSQL
        with self.pg.cursor() as cur:
            cur.execute("""
                SELECT node_name, state FROM agent_checkpoints
                WHERE workflow_id = %s ORDER BY created_at DESC LIMIT 1
            """, (workflow_id,))
            row = cur.fetchone()
            if row:
                return row[0], json.loads(row[1])

        raise ValueError(f"未找到工作流 {workflow_id} 的检查点")

3.4 GPU Agent 的弹性调度

推理 Agent 需要 GPU 资源，但 GPU 请求是突发性的。通过 KEDA + K8s Job 实现按需调度：

# gpu-agent-scaler.yaml
apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: inference-agent-scaler
  namespace: agent-system
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: inference-agent
  minReplicaCount: 0       # 无请求时缩容到 0，节省 GPU 资源
  maxReplicaCount: 4
  cooldownPeriod: 120
  triggers:
  - type: redis
    metadata:
      address: redis.agent-system:6379
      listName: agent:inference:queue
      listLength: "1"      # 队列有 1 条消息就扩容

minReplicaCount: 0 是关键配置。GPU 资源昂贵，无请求时缩容到零可以大幅降低成本。但冷启动延迟（模型加载约 30-60 秒）需要通过预热机制缓解。

四、Agent 云原生部署的架构权衡

Agent 编排框架引入的最大复杂度是状态管理。LangGraph 的状态图在单进程内运行时很简洁，但拆成微服务后，状态同步需要额外的 Redis/PostgreSQL 中间件，增加了故障点和运维成本。如果 Agent 数量不多（< 5 个），单进程部署 + 内存状态管理更简单可靠。

代码执行沙箱的性能开销不可忽视。gVisor 的系统调用拦截会引入约 10-20% 的性能损耗，对于计算密集型代码（如数值模拟）影响明显。替代方案是 Firecracker microVM，隔离性更强但启动延迟更高（约 125ms vs gVisor 的 < 1ms）。

GPU Agent 缩容到零的冷启动问题在交互式场景下不可接受。用户发送请求后等待 60 秒才得到响应，体验极差。解决方案是维护 warm pool（始终保留 1 个 GPU Pod），但这也意味着 GPU 资源无法完全释放。

适用边界：多 Agent 云原生部署适用于 Agent 数量多（> 5 个）、计算需求异构（CPU + GPU + 沙箱）、需要水平扩展的生产场景。简单的单 Agent 或双 Agent 场景，单进程部署 + 本地状态管理更合适。代码执行沙箱适用于需要运行用户提交代码的场景，如果只执行预定义工具，普通容器即可。

五、总结

AI Agent 的云原生部署需要解决三个核心问题：异构资源调度、状态持久化与恢复、安全隔离。LangGraph 提供了 DAG 编排能力，K8s 提供了异构调度和沙箱隔离，Redis + PostgreSQL 提供了分层状态存储。生产落地的关键路径：先定义 Agent 工作流 DAG，再按计算需求差异化配置 K8s 资源（CPU/GPU/沙箱），最后实现检查点机制保障断点恢复。GPU Agent 的弹性伸缩需要平衡成本与冷启动延迟，建议在交互式场景下维护 warm pool。