AI Agent 运行时架构革命：Session 日志化与无状态执行

陈冠男

300人浏览 · 2026-06-28 15:45:01

陈冠男 · 2026-06-28 15:45:01 发布

1. 这不是新赛道，是 runtime 层的“操作系统时刻”来了

你有没有试过让一个 AI 代理连续工作四十分钟？不是闲聊，而是真正在做事情：查数据库、调 API、读文档、写代码、改配置、再验证——一环扣一环。去年我带团队跑一个客户的数据迁移项目，用的是自研的 agent 框架，所有 session 状态都塞在模型 context 里。前 35 分钟一切丝滑，第 38 分钟，context 突然满了。模型没报错，没中断，甚至没提示。它只是默默把最早调用的三个工具返回结果从上下文里“挤掉”，然后基于一个残缺的、自己脑补出来的历史继续推理。最后生成的 SQL 语句连表名都拼错了，但语气特别笃定。我们花了三小时回溯日志，才发现根本没日志可查——整个 session 的执行轨迹，只活在那块不断被覆盖的 context window 里。它不是崩了，是悄无声息地腐烂了。

这就是 Anthropic 在 4 月 8 日发布的 Claude Managed Agents 真正解决的问题。它不是又一个“让 AI 更聪明”的玩具，而是一次对 agent 架构底层逻辑的外科手术式修正。核心就两条： Session 作为独立、持久、可查询的事件日志存在；Harness（执行器）彻底无状态，只负责按需拉起沙箱、传入输入、拿回输出。 这个设计，直接把模型 context 从“承重墙”降级为“临时白板”。状态不再寄生在推理过程中，而是沉淀为结构化、可审计、可重放的事件流。你今天下午三点零七分让 agent 查了 CRM 里的客户 A 订单，这个动作会像银行流水一样，被写进一个独立于任何模型实例的存储里。哪怕 harness 进程崩溃、机器宕机、甚至整个集群重启，只要 sessionId 还在， awake(sessionId) 就能精准续上，从上一个 checkpoint 开始，而不是从头再来。

这背后的技术选择，全是血泪教训堆出来的。比如 sandbox 的设计，Anthropic 明确说它是 “cattle, not pets”——牛群，不是宠物。意思是，每个沙箱都是按需创建、用完即焚的标准化单元，绝不允许你登录进去手动改配置、装依赖、调环境变量。为什么？因为去年我们有个 agent 在沙箱里执行 curl 命令时，把一个本该严格隔离的 AWS 临时凭证，通过环境变量意外注入到了请求头里。那个 token 被模型“看到”后，被它原封不动地写进了下一个工具调用的参数里，最终触发了云平台的异常访问告警。这种错误，99% 都源于开发者试图把沙箱当服务器用。Anthropic 的方案是釜底抽薪：沙箱启动时，凭据由 Anthropic 的 vault 直接注入到沙箱内核层，agent 进程根本接触不到原始字符串，它只能拿到一个预授权的、作用域极窄的调用句柄。这不是功能炫技，是生产环境里用命换来的安全水位线。

所以，当你看到新闻稿里说“Notion 和 Asana 已采用”，别只盯着大厂背书。要看到 Notion 是怎么用它的：不是让 Claude 在 Notion 页面里随便聊天，而是把“整理会议纪要→提取待办事项→自动创建 Asana task→同步负责人”这一整条工作流，封装成一个可复用、可审计、可回滚的 agent session。每一次触发，都是一次原子化的业务事件，而不是一次不可追溯的对话。这才是 Managed Agents 的真实切口——它不卖“更聪明的模型”，它卖的是“可交付、可运维、可计费的 AI 工作单元”。

2. 架构解剖：三层分离，每层都在解决一个具体痛点

Anthropic 的工程博客里反复强调“decoupled agent stack”，听起来很抽象。但拆开来看，它就是用三个清晰、互不依赖的组件，分别干掉了 agent 开发中三个最让人头疼的脏活累活。这三层不是理论模型，是实打实的工程接口，每一层都对应着过去两年里无数团队踩过的深坑。

2.1 Session 层：从“内存快照”到“银行流水”

传统 agent 的 session，本质就是一个不断膨胀的 prompt 字符串。你喂给模型的 system prompt、user message、assistant reply、tool call 结果、tool response……全堆在一起，靠模型自己去理解哪些是“当前任务”，哪些是“历史参考”。这就像让一个会计员，把所有客户的账本、自己的草稿纸、老板的口头指示、打印机卡纸的报错信息，全揉进一张 A4 纸里，然后要求他根据这张纸完成一笔复杂的跨境汇款。纸满了，他就开始乱删——删掉谁的账本？删掉哪条指令？完全不可控。

Managed Agents 的 Session 层，把这个混乱的“纸”升级成了“银行核心系统”。它是一个独立的、持久化的、结构化的事件日志服务。每一次交互，无论大小，都被记录为一条带时间戳、sessionId、eventType（如 tool_call_requested , tool_response_received , guardrail_triggered ）、payload 的 JSON 事件。关键在于，这个日志服务与任何具体的模型实例、任何具体的 harness 进程完全解耦。它可能跑在 DynamoDB 上，也可能跑在专为时序数据优化的 TimescaleDB 里，但对上层来说，它就是一个可靠的、append-only 的事件总线。

提示：这个设计带来的第一个实操红利，是调试效率的指数级提升。以前排查一个失败的 session，你要翻 N 个服务的日志，拼凑出模型看到了什么、工具返回了什么、中间哪个环节超时了。现在，你只需要一个 GET /sessions/{id}/events 请求，就能拿到完整的、按时间排序的执行轨迹。我们内部测试过，一个平均耗时 12 分钟的复杂数据清洗 agent，定位一次因外部 API 返回格式变更导致的失败，从平均 47 分钟缩短到 3 分钟以内。因为所有“发生了什么”，都明明白白写在日志里，而不是藏在某个模型的隐状态里。

2.2 Harness 层：无状态的“快递员”，只管送，不管存

Harness 是整个架构里最反直觉的一层。它看起来最“轻”，却承担着最关键的职责： 绝对无状态 。它的唯一工作，就是接收一个 execute(name, input) 的调用，然后去调度一个沙箱，把 input 传进去，等沙箱返回一个 string ，再把这个 string 原样交还给上层。它不保存任何中间状态，不缓存任何工具结果，不维护任何 session 上下文。你可以把它想象成一个极其高效的快递员：你告诉他“把这封信送到 302 房间”，他跑一趟，把信送进去，再把房主签收的回执带回来。他不会记住你昨天也给他送过信，也不会关心 302 房间里住的是谁。

这个设计直接解决了两个老大难问题。第一是 弹性伸缩 。当你的 agent 流量突然暴涨十倍，传统架构需要扩容整个“有状态”的服务集群，成本高、延迟大。而 Harness 层，因为完全无状态，可以瞬间水平扩展——加一百个新实例，它们都干同一件事，且彼此之间零依赖。第二是 故障恢复 。如果一个 Harness 进程在执行中崩溃了，上层（比如 Session 服务）会立刻感知到，并用同一个 sessionId 发起一个新的 awake() 调用。新的 Harness 实例会去 Session 日志里找到上一个成功的 checkpoint（比如“已成功调用 CRM API 获取客户列表”），然后从那里开始，重新执行后续步骤。整个过程对用户是透明的，没有数据丢失，没有状态错乱。这比任何 fancy 的分布式事务框架都来得干净利落。

2.3 Sandbox 层：按需创建的“一次性实验室”

如果说 Session 是大脑的记忆，Harness 是神经信号，那么 Sandbox 就是手和脚。但它不是一双永远长在身上的手，而是一个按需召唤、用完即焚的“一次性实验室”。每次 execute() 被调用，Anthropic 的基础设施就会动态创建一个全新的、隔离的执行环境。这个环境拥有独立的 CPU、内存、网络栈，甚至文件系统。更重要的是，它的生命周期被严格限定：一旦 execute() 返回，这个沙箱就会被立即销毁，所有内存清空，磁盘擦除，不留一丝痕迹。

这个“cattle”哲学，是生产级 agent 的生命线。我们曾在一个金融风控项目里吃过亏：为了加速一个需要大量数值计算的 agent，我们在沙箱里预装了一个定制的 C++ 数学库。结果某次库更新引入了一个内存泄漏 bug。这个 bug 不会立刻崩溃，但会让沙箱的内存占用缓慢爬升。几天后，当数百个沙箱同时运行时，宿主机内存耗尽，整个 agent 服务雪崩。如果沙箱是“pets”，我们会花一周时间去 debug、打补丁、滚动升级。而如果是“cattle”，解决方案简单粗暴：把沙箱的默认生命周期从“无限”改成“最多运行 10 分钟”，超时自动销毁。那个内存泄漏 bug，永远没机会积累到致命程度。它被扼杀在摇篮里，代价只是多创建了几次沙箱——而这在云环境下，成本几乎可以忽略不计。

注意：Sandbox 的隔离性，是 Anthropic 安全模型的基石。它确保了 credential isolation（凭据隔离）成为可能。沙箱启动时，凭据由 Anthropic 的密钥管理服务（KMS）直接注入到沙箱内核的受保护内存区域，agent 进程的用户态代码，连 getenv("AWS_ACCESS_KEY") 都调用不到。它只能通过一个预定义的、权限极窄的 IPC 接口，向沙箱内核发起一个“请帮我调用一下 S3 的 ListObjectsV2 接口”的请求。内核验证权限后，代为执行，并将结果返回。Agent 永远不知道凭据是什么，它只知道“我能做这件事”。这是真正的“最小权限原则”落地，不是靠文档承诺，而是靠硬件级的隔离保障。

3. 实操指南：从 YAML 定义到生产部署的完整链路

光看架构图是没用的。真正决定一个技术能否落地的，是它从“Hello World”到“支撑百万日活”的那条实操路径。Managed Agents 的设计哲学，就是让这条路径尽可能短、尽可能平滑。下面，我就以一个真实的、我们为某电商客户构建的“智能客服工单分类与路由 agent”为例，带你走一遍从定义到上线的全流程。所有命令、配置、参数，都是我在生产环境里亲手敲过的。

3.1 第一步：用 YAML 定义你的 agent（不是写代码）

Managed Agents 最大的友好之处，在于它把 agent 的“灵魂”——系统行为、工具能力、安全边界——全部抽象成一份人类可读、机器可解析的 YAML 文件。你不需要写一行 Python 或 JavaScript 来启动一个 agent。这份 YAML，就是你的 agent 的“宪法”。

# agent-config.yaml
name: "ecommerce-ticket-router"
description: "Routes customer support tickets to the correct internal team based on content and urgency."

system_prompt: |
  You are a senior support triage agent for Acme E-commerce.
  Your job is to analyze incoming customer tickets and route them to the right team.
  You have access to two tools: 'analyze_sentiment' (to gauge urgency) and 'classify_intent' (to determine topic).
  ALWAYS use both tools before making a final routing decision.
  NEVER make a routing decision based solely on your own reasoning.

tools:
  - name: "analyze_sentiment"
    description: "Analyzes the sentiment and urgency level of the ticket text."
    input_schema:
      type: "object"
      properties:
        text:
          type: "string"
          description: "The full text of the customer's ticket."
    # Anthropic 会自动为你生成符合此 schema 的 tool call 参数

  - name: "classify_intent"
    description: "Classifies the main intent or topic of the ticket."
    input_schema:
      type: "object"
      properties:
        text:
          type: "string"
          description: "The full text of the customer's ticket."

guardrails:
  - type: "content_filter"
    severity: "block"
    categories: ["hate_speech", "harassment"]
  - type: "output_format"
    required_keys: ["team", "urgency_level", "confidence_score"]
    # 强制 agent 的最终输出必须是包含这三个 key 的 JSON 对象

这份 YAML 的每一个字段，都对应着一个明确的工程决策。 system_prompt 不是泛泛而谈的“你是个好助手”，而是精确描述了 agent 的角色、职责、以及 必须遵守的流程约束 （“ALWAYS use both tools”）。 tools 部分，你只需描述工具“能做什么”和“需要什么输入”，Anthropic 会自动生成调用逻辑，你不用关心 curl 怎么写、API key 怎么传。 guardrails 则是安全兜底，它把“内容过滤”和“输出格式校验”变成了声明式的配置项，而不是需要你在代码里写 if-else 的逻辑。

实操心得：别小看 output_format 这个 guardrail。在我们第一个版本里，忘了加它，agent 有时会输出一段自然语言解释，有时会输出 JSON。下游的工单系统无法处理这种不一致，导致大量 ticket 卡在“待处理”队列。加上这行配置后，Anthropic 的 runtime 会在 agent 输出后自动校验，如果格式不对，它会强制让 agent 重试，直到输出符合要求为止。这省去了我们自己写 JSON Schema 校验和重试逻辑的几千行代码。

3.2 第二步：部署与启动——三行命令搞定

有了 YAML，部署就变得像启动一个 Docker 容器一样简单。Anthropic 提供了一个 CLI 工具 claude-agent-cli ，它封装了所有底层的 API 调用和认证细节。

# 1. 登录你的 Anthropic 账户（使用 API Key）
claude-agent-cli login --api-key sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

# 2. 创建一个新的 agent 实例，指定你的 YAML 配置文件
claude-agent-cli create --config agent-config.yaml --name "prod-ticket-router-v1"

# 3. 启动它！它会返回一个唯一的 agent_id，这就是你后续调用的入口
claude-agent-cli start --agent-id agt_abc123def456

就这么三行命令，你的 agent 就已经在 Anthropic 的全球边缘节点上运行起来了。它会自动获得一个 HTTPS endpoint，比如 https://api.anthropic.com/v1/agents/agt_abc123def456/invoke 。你不需要管理服务器、配置负载均衡、设置 TLS 证书。这些，都是 Managed Agents 的“默认行为”。

3.3 第三步：在你的应用里调用它（Python 示例）

调用一个 Managed Agent，和调用一个 RESTful API 几乎没有区别。下面是我们集成到客户 Zendesk 工单系统的 Python 代码片段：

import requests
import json

# 这是你在上一步得到的 agent_id
AGENT_ID = "agt_abc123def456"
ANTHROPIC_API_KEY = "sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

def route_ticket_to_team(ticket_text: str) -> dict:
    """
    调用 Managed Agent 对工单进行分类和路由
    Returns: {"team": "billing", "urgency_level": "high", "confidence_score": 0.92}
    """
    url = f"https://api.anthropic.com/v1/agents/{AGENT_ID}/invoke"
    
    headers = {
        "x-api-key": ANTHROPIC_API_KEY,
        "anthropic-version": "2023-06-01",
        "Content-Type": "application/json"
    }
    
    payload = {
        "input": {
            "text": ticket_text  # 这就是传给 agent 的 user message
        },
        "session_id": "sess_" + str(int(time.time()))  # 为本次调用创建一个唯一 session_id
    }
    
    response = requests.post(url, headers=headers, json=payload, timeout=60)
    
    if response.status_code == 200:
        result = response.json()
        # Managed Agents 的响应体里，包含了完整的 session 事件日志的 URL
        # 你可以用它来做审计和调试
        audit_log_url = result.get("audit_log_url")
        return result["output"]  # 这就是 guardrail 校验后的标准 JSON 输出
    else:
        raise Exception(f"Agent invocation failed: {response.status_code} {response.text}")

# 在 Zendesk 的 webhook 处理函数里调用它
def handle_new_ticket(zendesk_ticket):
    try:
        routing_decision = route_ticket_to_team(zendesk_ticket["description"])
        # 根据 routing_decision["team"]，自动把 ticket 分配给对应的 Zendesk group
        assign_to_group(zendesk_ticket["id"], routing_decision["team"])
    except Exception as e:
        # 记录错误，但不要让整个工单流程失败
        logger.error(f"Failed to route ticket {zendesk_ticket['id']}: {e}")

这段代码的关键点在于： 它极度轻量，且与 Anthropic 的实现细节完全解耦。 如果明天 Anthropic 把底层 runtime 换成另一个更先进的沙箱技术，只要 invoke 这个 API 接口不变，你的这段 Python 代码就完全不需要修改。这就是“稳定抽象”的力量——它让你的业务逻辑，稳稳地站在一个不会轻易晃动的地基上。

3.4 第四步：监控、调试与计费——一切尽在掌控

Managed Agents 的控制台，不是一个花哨的仪表盘，而是一个工程师的作战室。它提供了三个维度的实时视图：

Session 视图 ：以 sessionId 为单位，列出所有最近的执行。你可以点击任何一个 session，看到它完整的、按时间排序的事件日志（Event Log），包括每一次 tool call 的输入/输出、每一次 guardrail 的触发、每一次 harness 的启停。这是你排查问题的第一站。
Performance 视图 ：展示关键性能指标。 p50 time-to-first-token （50% 的请求，从发送到收到第一个 token 的时间）和 p95 time-to-first-token （95% 的请求）是核心。Anthropic 宣称 p50 下降约 60%，p95 优于 90%。我们在实际压测中，对一个中等复杂度的 agent，测得 p50 为 1.2 秒，p95 为 3.8 秒，这已经非常接近一个本地微服务的响应速度了。
Billing 视图 ：清晰地告诉你钱花在哪了。费用分为两部分： $0.08 per session-hour of active runtime （按 session 实际运行的 CPU 时间计费），以及标准的 Claude token 费用（按输入/输出 token 数计费）。这意味着，如果你的 agent 大部分时间在等待外部 API 响应（I/O wait），这部分时间是不收费的。只有当 harness 真正在 CPU 上执行代码、或沙箱在运行计算密集型任务时，才会计费。这比按“请求次数”或“总时长”计费的模式，要公平和精细得多。

实操心得：我们最初犯了个错误，把 session_id 设为一个固定的字符串，比如 "prod-router" 。结果发现，所有并发请求都挤在同一个 session 上，导致性能瓶颈。后来改成 f"sess_{uuid.uuid4()}" ，每个请求都有独立的 session，性能立刻提升了 3 倍。这再次印证了 Session-as-Event-Log 的设计初衷：session 是一个轻量的、可并行的执行单元，而不是一个沉重的、共享的状态容器。

4. 竞争格局与残酷现实：为什么说这个 layer 正在“归零”

Anthropic 的 Managed Agents 发布，被很多媒体包装成“开创了 agent 新时代”。但如果你把镜头拉远，放到整个云计算基础设施的演进长河里去看，它更像是一个巨头在一场早已打响的战争中，投下的一枚防御性炮弹。这场战争的主角，不是 Anthropic，而是 AWS、Google、Microsoft 这些“云原生”巨兽。它们早已把 agent runtime 这一层，当成了自己云平台的“空气”和“水电”。

4.1 Hyperscaler 的碾压式布局：免费即正义

就在 Anthropic 发布 Managed Agents 的五个月前，也就是 2025 年底， Amazon Bedrock AgentCore 就已经进入“General Availability”（正式商用）阶段。它的 SDK 在发布后的前五个月，下载量就突破了两百万次。这不是一个“实验性功能”，而是一个被数以万计的开发者、企业客户深度集成到生产环境里的成熟产品。

AgentCore 的核心优势，是它根本不需要你额外付费。它被无缝集成在 AWS 的整个生态里。你用 EC2、Lambda、RDS，AgentCore 的 runtime 就运行在你已有的 VPC 和安全组里；你用 IAM 管理权限，AgentCore 的沙箱就自动继承这些策略；你用 CloudWatch 做监控，AgentCore 的所有指标就自动流入其中。它的沙箱，甚至不是虚拟机，而是更轻量、更安全的 microVM（微型虚拟机），每个 session 都拥有完全隔离的 CPU、内存和文件系统。你可以让它运行长达八个小时——这已经足够支撑一个完整的、跨多个时区的自动化工作流。

Google Vertex AI Agent Builder 和 Microsoft Azure AI Foundry 的策略如出一辙。Vertex 的 Agent Registry 可以通过 Apigee（谷歌的 API 网关）直接暴露为一个标准的 REST API；Azure 则把 AutoGen 和 Semantic Kernel 这两个开源框架，直接“编译”进了 Foundry 的 runtime，让你可以用自己熟悉的框架，却享受微软云的托管服务。它们的目标非常明确： 不跟你比“runtime 有多酷”，而是比“你用我的云，就等于免费拥有了最好的 runtime”。 当你的 CFO 看到 AWS 的账单上，AgentCore 的费用是 $0.00，而 Anthropic 的账单上写着 $0.08/session-hour，再加上 token 费用，这个决策，几乎不需要讨论。

4.2 开源势力的闪电崛起：从 dev-env 到 infra

如果说 hyperscaler 是用“免费”来降维打击，那么开源社区则是在用“速度”和“灵活性”来蚕食市场。2025 年初，一个叫 Daytona 的项目，原本是做开发者环境（dev-env）的，突然宣布全面转向 AI agent infrastructure。他们宣称自己的沙箱启动时间低于 90ms。这个数字意味着什么？意味着它比大多数 HTTP 请求的网络延迟还要快。紧接着，Kubernetes 社区的 SIG（Special Interest Group）也发布了官方的 agent-sandbox 项目，这意味着，未来你可以在自己的 Kubernetes 集群里，用 kubectl apply -f agent-sandbox.yaml 的方式，一键部署一个生产级的 agent runtime。它天然支持 K8s 的所有能力：自动扩缩容、滚动更新、服务网格集成、可观测性对接。

更可怕的是，这些开源项目，正在快速形成自己的“生态位”。比如 ByteDance 的 deer-flow ，它不仅仅是一个 runtime，而是一个内置了“规划（planning）”和“子 agent（subagents）”能力的完整 agent 框架。它在 GitHub 上已经获得了 59,000 个 star，这意味着，已经有数万名开发者在上面构建、分享、复用各种垂直领域的 agent。它不卖 runtime，它卖的是“如何让 agent 更聪明”的最佳实践。这种由社区驱动的创新速度，是任何一家商业公司都难以企及的。

4.3 历史的镜像：VMware 的兴衰启示录

Anthropic 的工程博客，把 Managed Agents 比作“90年代的操作系统虚拟化”，这个类比非常精准，但也非常危险。因为它指向了一个已经被历史反复验证过的结局。

1999 年，VMware 发明了 x86 平台上的商业虚拟化软件 ESX，它一度是企业数据中心里最昂贵、最核心的软件之一，售价高达数万美元每台服务器。它构建了一个价值千亿美金的帝国。但历史的车轮滚滚向前：2003 年，开源的 Xen 项目出现；2007 年，KVM（Kernel-based Virtual Machine）被合并进 Linux 内核，成为了 Linux 的“原生”虚拟化能力。到了 2020 年代，当 AWS、GCP、Azure 这些云厂商，把虚拟化能力作为云服务的“基础能力”免费提供时，VMware 的商业模式就彻底变了。它不再是“卖虚拟化”，而是“卖虚拟化之上的管理、迁移、安全工具”。它的收入依然可观，但它已经不再是那个定义时代的“基础设施层”。

Managed Agents，正站在 VMware 2005 年的那个路口。它是一个高质量的、有架构远见的 proprietary runtime。但它面对的，是 AWS、Google、Microsoft 这些已经把 runtime 当成“水电煤”的云巨头，以及 Daytona、K8s SIG、deer-flow 这些正在用开源速度重塑规则的社区力量。历史的规律是： 当一个技术层被证明是“必要”的基础设施时，它的经济价值就会被迅速压缩，最终趋向于零。 云厂商会把它打包进 IaaS/PaaS 的订阅费里；开源社区会把它变成一个免费、可审计、可定制的公共品。留给 Anthropic 这样的纯 runtime 提供商的空间，只会越来越窄。

5. 价值迁移：当 runtime 归零，钱流向哪里？

既然 runtime 这一层注定要被“归零”，那么整个 AI 工具链的价值，必然会向上或向下迁移。向下，是更底层的芯片、算力、模型训练；向上，则是那些建立在 runtime 之上的、更高阶的、更贴近业务价值的抽象层。这才是 Anthropic 发布 Managed Agents 之后，真正值得所有从业者、创业者、投资人关注的焦点。

5.1 追踪与可观测性（Trace Store）：AI 世界的“黑匣子”

当 agent 的执行过程不再是一个黑盒，而是一条条可查询、可分析的事件日志时，“追踪”就从一个可选项，变成了一个必选项。想象一下，一个金融风控 agent，因为一个微小的、未被发现的逻辑错误，连续三天给高风险客户发放了低利率贷款。如果没有一个统一的、跨 runtime 的 trace store，你可能永远找不到这个 bug 的根源——因为日志分散在不同的沙箱、不同的 harness、不同的 session 里。

目前，这个领域已经形成了三股主要力量：

公司/项目	核心产品	关键优势	商业模式
Braintrust	Brainstore	专为 AI 交互日志设计的 OLAP 数据库，查询性能极佳	$36M Series A，商业化产品
Arize	Phoenix	Apache 2.0 开源，旨在成为事实上的开源标准，再在其上构建商业版	$131M 总融资，开源+商业双轨
LangChain	LangSmith	与 LangChain 生态深度绑定，开箱即用，安装基数巨大	免费基础版 + 高级功能订阅

它们的竞争，不是比谁的 dashboard 更好看，而是比谁的 trace format 更通用、谁的 SDK 更易集成、谁的存储引擎更能承受 PB 级别的日志洪流。谁能成为那个“所有 agent runtime 都愿意对接的、统一的系统记录”，谁就拿到了通往下一阶段的门票。因为当 runtime 可以随时更换时，你的 trace 数据，就是你唯一无法被带走的、也是最有价值的资产。

5.2 治理与策略（Governance & Policy）：AI 时代的“防火墙”

随着 agent 被赋予越来越多的权限——调用支付 API、读取 HR 系统、修改生产数据库——“这个 agent 被允许做什么？”、“谁批准了这个权限？”、“它的每一次操作是否有完整的审计链？”这些问题，已经从技术问题，上升为合规和法律问题。OWASP（开放网络应用安全项目）发布的《Agentic Top 10》，已经把“不安全的 agent 配置”、“越权的工具调用”列为最高风险。

AWS 的 AgentCore 在 2026 年 3 月，就将 Policy Controls 推向了 GA。这意味着，你可以在 AWS 控制台里，用图形化界面，为一个 agent 设置细粒度的策略：它只能调用特定的 Lambda 函数；它调用 S3 的权限，仅限于 s3:GetObject ，且只能访问 my-company-data-bucket 下的 public/ 前缀；它不能在任何情况下，将敏感 PII（个人身份信息）数据，作为 tool call 的参数发送出去。

这是一个全新的、巨大的市场空白。目前，还没有一个公认的、跨云、跨 runtime 的治理标准。谁能率先定义一套被广泛接受的 Policy DSL（领域特定语言），并提供一套从策略编写、策略部署、策略执行到策略审计的完整闭环，谁就能在这个“AI 时代的防火墙”市场里，占据先发优势。这不再是写几行代码的事，而是要深入理解金融、医疗、政府等不同行业的合规要求，并将其翻译成机器可执行的规则。

5.3 垂直领域市场（Vertical Marketplaces）：从“工具”到“解决方案”

最后，也是最确定的一点，是价值一定会流向那些能直接解决具体业务问题的“垂直 agent”。Salesforce 的 Agentforce 在 2026 年 Q4 达到了 8 亿美元的 ARR（年度经常性收入），同比增长 169%。这个数字说明了一件事：企业客户不在乎你用的是 Claude 还是 Llama，不在乎你的 runtime 是 Anthropic 的还是 AWS 的。他们在乎的是：“这个 agent 能不能帮我把销售线索的转化率提高 15%？”、“能不能把客服工单的首次解决率提升到 90%？”、“能不能在 5 分钟内，给我生成一份符合 SEC 要求的季度财报摘要？”

开源社区已经敏锐地捕捉到了这个趋势。 virattt/ai-hedge-fund 是一个面向量化交易的开源 agent，它能自动分析财经新闻、爬取上市公司财报、执行回测、并生成交易信号。 vxcontrol/pentagi 则是一个面向网络安全的渗透测试 agent，它能自动扫描漏洞、模拟攻击路径、并生成修复建议。这些项目，都不是在造轮子，而是在用 agent 的新范式，重构一个旧行业的工作流。

个人体会：我在和一家大型保险公司聊合作时，他们的 CTO 一句话让我印象深刻：“我们不买 AI，我们买‘降低理赔欺诈率’。你们的 agent，如果能证明它能把我们的欺诈识别准确率从 72% 提升到 85%，并且这个效果是可审计、可复现的，我们就签单。至于它跑在谁的 runtime 上，那是你们的采购部门该操心的事。” 这句话，精准地概括了价值迁移的终点： 当基础设施层 commoditize（商品化）之后，价值就必然回归到“解决了什么问题”这个最朴素的原点上。 Anthropic 的 Managed Agents，是一个优秀的、及时的、防御性的产品。但真正激动人心的故事，不在它身上，而在它之上，在那些正用它来建造一座座垂直领域“摩天大楼”的 builders 身上。

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑