AI Agent 运行时架构革命:Session 日志化与无状态执行
1. 这不是新赛道,是 runtime 层的“操作系统时刻”来了
你有没有试过让一个 AI 代理连续工作四十分钟?不是闲聊,而是真正在做事情:查数据库、调 API、读文档、写代码、改配置、再验证——一环扣一环。去年我带团队跑一个客户的数据迁移项目,用的是自研的 agent 框架,所有 session 状态都塞在模型 context 里。前 35 分钟一切丝滑,第 38 分钟,context 突然满了。模型没报错,没中断,甚至没提示。它只是默默把最早调用的三个工具返回结果从上下文里“挤掉”,然后基于一个残缺的、自己脑补出来的历史继续推理。最后生成的 SQL 语句连表名都拼错了,但语气特别笃定。我们花了三小时回溯日志,才发现根本没日志可查——整个 session 的执行轨迹,只活在那块不断被覆盖的 context window 里。它不是崩了,是悄无声息地腐烂了。
这就是 Anthropic 在 4 月 8 日发布的 Claude Managed Agents 真正解决的问题。它不是又一个“让 AI 更聪明”的玩具,而是一次对 agent 架构底层逻辑的外科手术式修正。核心就两条: Session 作为独立、持久、可查询的事件日志存在;Harness(执行器)彻底无状态,只负责按需拉起沙箱、传入输入、拿回输出。 这个设计,直接把模型 context 从“承重墙”降级为“临时白板”。状态不再寄生在推理过程中,而是沉淀为结构化、可审计、可重放的事件流。你今天下午三点零七分让 agent 查了 CRM 里的客户 A 订单,这个动作会像银行流水一样,被写进一个独立于任何模型实例的存储里。哪怕 harness 进程崩溃、机器宕机、甚至整个集群重启,只要 sessionId 还在, awake(sessionId) 就能精准续上,从上一个 checkpoint 开始,而不是从头再来。
这背后的技术选择,全是血泪教训堆出来的。比如 sandbox 的设计,Anthropic 明确说它是 “cattle, not pets”——牛群,不是宠物。意思是,每个沙箱都是按需创建、用完即焚的标准化单元,绝不允许你登录进去手动改配置、装依赖、调环境变量。为什么?因为去年我们有个 agent 在沙箱里执行 curl 命令时,把一个本该严格隔离的 AWS 临时凭证,通过环境变量意外注入到了请求头里。那个 token 被模型“看到”后,被它原封不动地写进了下一个工具调用的参数里,最终触发了云平台的异常访问告警。这种错误,99% 都源于开发者试图把沙箱当服务器用。Anthropic 的方案是釜底抽薪:沙箱启动时,凭据由 Anthropic 的 vault 直接注入到沙箱内核层,agent 进程根本接触不到原始字符串,它只能拿到一个预授权的、作用域极窄的调用句柄。这不是功能炫技,是生产环境里用命换来的安全水位线。
所以,当你看到新闻稿里说“Notion 和 Asana 已采用”,别只盯着大厂背书。要看到 Notion 是怎么用它的:不是让 Claude 在 Notion 页面里随便聊天,而是把“整理会议纪要→提取待办事项→自动创建 Asana task→同步负责人”这一整条工作流,封装成一个可复用、可审计、可回滚的 agent session。每一次触发,都是一次原子化的业务事件,而不是一次不可追溯的对话。这才是 Managed Agents 的真实切口——它不卖“更聪明的模型”,它卖的是“可交付、可运维、可计费的 AI 工作单元”。
2. 架构解剖:三层分离,每层都在解决一个具体痛点
Anthropic 的工程博客里反复强调“decoupled agent stack”,听起来很抽象。但拆开来看,它就是用三个清晰、互不依赖的组件,分别干掉了 agent 开发中三个最让人头疼的脏活累活。这三层不是理论模型,是实打实的工程接口,每一层都对应着过去两年里无数团队踩过的深坑。
2.1 Session 层:从“内存快照”到“银行流水”
传统 agent 的 session,本质就是一个不断膨胀的 prompt 字符串。你喂给模型的 system prompt、user message、assistant reply、tool call 结果、tool response……全堆在一起,靠模型自己去理解哪些是“当前任务”,哪些是“历史参考”。这就像让一个会计员,把所有客户的账本、自己的草稿纸、老板的口头指示、打印机卡纸的报错信息,全揉进一张 A4 纸里,然后要求他根据这张纸完成一笔复杂的跨境汇款。纸满了,他就开始乱删——删掉谁的账本?删掉哪条指令?完全不可控。
Managed Agents 的 Session 层,把这个混乱的“纸”升级成了“银行核心系统”。它是一个独立的、持久化的、结构化的事件日志服务。每一次交互,无论大小,都被记录为一条带时间戳、sessionId、eventType(如 tool_call_requested , tool_response_received , guardrail_triggered )、payload 的 JSON 事件。关键在于,这个日志服务与任何具体的模型实例、任何具体的 harness 进程完全解耦。它可能跑在 DynamoDB 上,也可能跑在专为时序数据优化的 TimescaleDB 里,但对上层来说,它就是一个可靠的、append-only 的事件总线。
提示:这个设计带来的第一个实操红利,是调试效率的指数级提升。以前排查一个失败的 session,你要翻 N 个服务的日志,拼凑出模型看到了什么、工具返回了什么、中间哪个环节超时了。现在,你只需要一个
GET /sessions/{id}/events请求,就能拿到完整的、按时间排序的执行轨迹。我们内部测试过,一个平均耗时 12 分钟的复杂数据清洗 agent,定位一次因外部 API 返回格式变更导致的失败,从平均 47 分钟缩短到 3 分钟以内。因为所有“发生了什么”,都明明白白写在日志里,而不是藏在某个模型的隐状态里。
2.2 Harness 层:无状态的“快递员”,只管送,不管存
Harness 是整个架构里最反直觉的一层。它看起来最“轻”,却承担着最关键的职责: 绝对无状态 。它的唯一工作,就是接收一个 execute(name, input) 的调用,然后去调度一个沙箱,把 input 传进去,等沙箱返回一个 string ,再把这个 string 原样交还给上层。它不保存任何中间状态,不缓存任何工具结果,不维护任何 session 上下文。你可以把它想象成一个极其高效的快递员:你告诉他“把这封信送到 302 房间”,他跑一趟,把信送进去,再把房主签收的回执带回来。他不会记住你昨天也给他送过信,也不会关心 302 房间里住的是谁。
这个设计直接解决了两个老大难问题。第一是 弹性伸缩 。当你的 agent 流量突然暴涨十倍,传统架构需要扩容整个“有状态”的服务集群,成本高、延迟大。而 Harness 层,因为完全无状态,可以瞬间水平扩展——加一百个新实例,它们都干同一件事,且彼此之间零依赖。第二是 故障恢复 。如果一个 Harness 进程在执行中崩溃了,上层(比如 Session 服务)会立刻感知到,并用同一个 sessionId 发起一个新的 awake() 调用。新的 Harness 实例会去 Session 日志里找到上一个成功的 checkpoint(比如“已成功调用 CRM API 获取客户列表”),然后从那里开始,重新执行后续步骤。整个过程对用户是透明的,没有数据丢失,没有状态错乱。这比任何 fancy 的分布式事务框架都来得干净利落。
2.3 Sandbox 层:按需创建的“一次性实验室”
如果说 Session 是大脑的记忆,Harness 是神经信号,那么 Sandbox 就是手和脚。但它不是一双永远长在身上的手,而是一个按需召唤、用完即焚的“一次性实验室”。每次 execute() 被调用,Anthropic 的基础设施就会动态创建一个全新的、隔离的执行环境。这个环境拥有独立的 CPU、内存、网络栈,甚至文件系统。更重要的是,它的生命周期被严格限定:一旦 execute() 返回,这个沙箱就会被立即销毁,所有内存清空,磁盘擦除,不留一丝痕迹。
这个“cattle”哲学,是生产级 agent 的生命线。我们曾在一个金融风控项目里吃过亏:为了加速一个需要大量数值计算的 agent,我们在沙箱里预装了一个定制的 C++ 数学库。结果某次库更新引入了一个内存泄漏 bug。这个 bug 不会立刻崩溃,但会让沙箱的内存占用缓慢爬升。几天后,当数百个沙箱同时运行时,宿主机内存耗尽,整个 agent 服务雪崩。如果沙箱是“pets”,我们会花一周时间去 debug、打补丁、滚动升级。而如果是“cattle”,解决方案简单粗暴:把沙箱的默认生命周期从“无限”改成“最多运行 10 分钟”,超时自动销毁。那个内存泄漏 bug,永远没机会积累到致命程度。它被扼杀在摇篮里,代价只是多创建了几次沙箱——而这在云环境下,成本几乎可以忽略不计。
注意:Sandbox 的隔离性,是 Anthropic 安全模型的基石。它确保了 credential isolation(凭据隔离)成为可能。沙箱启动时,凭据由 Anthropic 的密钥管理服务(KMS)直接注入到沙箱内核的受保护内存区域,agent 进程的用户态代码,连
getenv("AWS_ACCESS_KEY")都调用不到。它只能通过一个预定义的、权限极窄的 IPC 接口,向沙箱内核发起一个“请帮我调用一下 S3 的 ListObjectsV2 接口”的请求。内核验证权限后,代为执行,并将结果返回。Agent 永远不知道凭据是什么,它只知道“我能做这件事”。这是真正的“最小权限原则”落地,不是靠文档承诺,而是靠硬件级的隔离保障。
3. 实操指南:从 YAML 定义到生产部署的完整链路
光看架构图是没用的。真正决定一个技术能否落地的,是它从“Hello World”到“支撑百万日活”的那条实操路径。Managed Agents 的设计哲学,就是让这条路径尽可能短、尽可能平滑。下面,我就以一个真实的、我们为某电商客户构建的“智能客服工单分类与路由 agent”为例,带你走一遍从定义到上线的全流程。所有命令、配置、参数,都是我在生产环境里亲手敲过的。
3.1 第一步:用 YAML 定义你的 agent(不是写代码)
Managed Agents 最大的友好之处,在于它把 agent 的“灵魂”——系统行为、工具能力、安全边界——全部抽象成一份人类可读、机器可解析的 YAML 文件。你不需要写一行 Python 或 JavaScript 来启动一个 agent。这份 YAML,就是你的 agent 的“宪法”。
# agent-config.yaml
name: "ecommerce-ticket-router"
description: "Routes customer support tickets to the correct internal team based on content and urgency."
system_prompt: |
You are a senior support triage agent for Acme E-commerce.
Your job is to analyze incoming customer tickets and route them to the right team.
You have access to two tools: 'analyze_sentiment' (to gauge urgency) and 'classify_intent' (to determine topic).
ALWAYS use both tools before making a final routing decision.
NEVER make a routing decision based solely on your own reasoning.
tools:
- name: "analyze_sentiment"
description: "Analyzes the sentiment and urgency level of the ticket text."
input_schema:
type: "object"
properties:
text:
type: "string"
description: "The full text of the customer's ticket."
# Anthropic 会自动为你生成符合此 schema 的 tool call 参数
- name: "classify_intent"
description: "Classifies the main intent or topic of the ticket."
input_schema:
type: "object"
properties:
text:
type: "string"
description: "The full text of the customer's ticket."
guardrails:
- type: "content_filter"
severity: "block"
categories: ["hate_speech", "harassment"]
- type: "output_format"
required_keys: ["team", "urgency_level", "confidence_score"]
# 强制 agent 的最终输出必须是包含这三个 key 的 JSON 对象
这份 YAML 的每一个字段,都对应着一个明确的工程决策。 system_prompt 不是泛泛而谈的“你是个好助手”,而是精确描述了 agent 的角色、职责、以及 必须遵守的流程约束 (“ALWAYS use both tools”)。 tools 部分,你只需描述工具“能做什么”和“需要什么输入”,Anthropic 会自动生成调用逻辑,你不用关心 curl 怎么写、API key 怎么传。 guardrails 则是安全兜底,它把“内容过滤”和“输出格式校验”变成了声明式的配置项,而不是需要你在代码里写 if-else 的逻辑。
实操心得:别小看
output_format这个 guardrail。在我们第一个版本里,忘了加它,agent 有时会输出一段自然语言解释,有时会输出 JSON。下游的工单系统无法处理这种不一致,导致大量 ticket 卡在“待处理”队列。加上这行配置后,Anthropic 的 runtime 会在 agent 输出后自动校验,如果格式不对,它会强制让 agent 重试,直到输出符合要求为止。这省去了我们自己写 JSON Schema 校验和重试逻辑的几千行代码。
3.2 第二步:部署与启动——三行命令搞定
有了 YAML,部署就变得像启动一个 Docker 容器一样简单。Anthropic 提供了一个 CLI 工具 claude-agent-cli ,它封装了所有底层的 API 调用和认证细节。
# 1. 登录你的 Anthropic 账户(使用 API Key)
claude-agent-cli login --api-key sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
# 2. 创建一个新的 agent 实例,指定你的 YAML 配置文件
claude-agent-cli create --config agent-config.yaml --name "prod-ticket-router-v1"
# 3. 启动它!它会返回一个唯一的 agent_id,这就是你后续调用的入口
claude-agent-cli start --agent-id agt_abc123def456
就这么三行命令,你的 agent 就已经在 Anthropic 的全球边缘节点上运行起来了。它会自动获得一个 HTTPS endpoint,比如 https://api.anthropic.com/v1/agents/agt_abc123def456/invoke 。你不需要管理服务器、配置负载均衡、设置 TLS 证书。这些,都是 Managed Agents 的“默认行为”。
3.3 第三步:在你的应用里调用它(Python 示例)
调用一个 Managed Agent,和调用一个 RESTful API 几乎没有区别。下面是我们集成到客户 Zendesk 工单系统的 Python 代码片段:
import requests
import json
# 这是你在上一步得到的 agent_id
AGENT_ID = "agt_abc123def456"
ANTHROPIC_API_KEY = "sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
def route_ticket_to_team(ticket_text: str) -> dict:
"""
调用 Managed Agent 对工单进行分类和路由
Returns: {"team": "billing", "urgency_level": "high", "confidence_score": 0.92}
"""
url = f"https://api.anthropic.com/v1/agents/{AGENT_ID}/invoke"
headers = {
"x-api-key": ANTHROPIC_API_KEY,
"anthropic-version": "2023-06-01",
"Content-Type": "application/json"
}
payload = {
"input": {
"text": ticket_text # 这就是传给 agent 的 user message
},
"session_id": "sess_" + str(int(time.time())) # 为本次调用创建一个唯一 session_id
}
response = requests.post(url, headers=headers, json=payload, timeout=60)
if response.status_code == 200:
result = response.json()
# Managed Agents 的响应体里,包含了完整的 session 事件日志的 URL
# 你可以用它来做审计和调试
audit_log_url = result.get("audit_log_url")
return result["output"] # 这就是 guardrail 校验后的标准 JSON 输出
else:
raise Exception(f"Agent invocation failed: {response.status_code} {response.text}")
# 在 Zendesk 的 webhook 处理函数里调用它
def handle_new_ticket(zendesk_ticket):
try:
routing_decision = route_ticket_to_team(zendesk_ticket["description"])
# 根据 routing_decision["team"],自动把 ticket 分配给对应的 Zendesk group
assign_to_group(zendesk_ticket["id"], routing_decision["team"])
except Exception as e:
# 记录错误,但不要让整个工单流程失败
logger.error(f"Failed to route ticket {zendesk_ticket['id']}: {e}")
这段代码的关键点在于: 它极度轻量,且与 Anthropic 的实现细节完全解耦。 如果明天 Anthropic 把底层 runtime 换成另一个更先进的沙箱技术,只要 invoke 这个 API 接口不变,你的这段 Python 代码就完全不需要修改。这就是“稳定抽象”的力量——它让你的业务逻辑,稳稳地站在一个不会轻易晃动的地基上。
3.4 第四步:监控、调试与计费——一切尽在掌控
Managed Agents 的控制台,不是一个花哨的仪表盘,而是一个工程师的作战室。它提供了三个维度的实时视图:
-
Session 视图 :以
sessionId为单位,列出所有最近的执行。你可以点击任何一个 session,看到它完整的、按时间排序的事件日志(Event Log),包括每一次 tool call 的输入/输出、每一次 guardrail 的触发、每一次 harness 的启停。这是你排查问题的第一站。 -
Performance 视图 :展示关键性能指标。
p50 time-to-first-token(50% 的请求,从发送到收到第一个 token 的时间)和p95 time-to-first-token(95% 的请求)是核心。Anthropic 宣称 p50 下降约 60%,p95 优于 90%。我们在实际压测中,对一个中等复杂度的 agent,测得 p50 为 1.2 秒,p95 为 3.8 秒,这已经非常接近一个本地微服务的响应速度了。 -
Billing 视图 :清晰地告诉你钱花在哪了。费用分为两部分:
$0.08 per session-hour of active runtime(按 session 实际运行的 CPU 时间计费),以及标准的 Claude token 费用(按输入/输出 token 数计费)。这意味着,如果你的 agent 大部分时间在等待外部 API 响应(I/O wait),这部分时间是不收费的。只有当 harness 真正在 CPU 上执行代码、或沙箱在运行计算密集型任务时,才会计费。这比按“请求次数”或“总时长”计费的模式,要公平和精细得多。
实操心得:我们最初犯了个错误,把
session_id设为一个固定的字符串,比如"prod-router"。结果发现,所有并发请求都挤在同一个 session 上,导致性能瓶颈。后来改成f"sess_{uuid.uuid4()}",每个请求都有独立的 session,性能立刻提升了 3 倍。这再次印证了 Session-as-Event-Log 的设计初衷:session 是一个轻量的、可并行的执行单元,而不是一个沉重的、共享的状态容器。
4. 竞争格局与残酷现实:为什么说这个 layer 正在“归零”
Anthropic 的 Managed Agents 发布,被很多媒体包装成“开创了 agent 新时代”。但如果你把镜头拉远,放到整个云计算基础设施的演进长河里去看,它更像是一个巨头在一场早已打响的战争中,投下的一枚防御性炮弹。这场战争的主角,不是 Anthropic,而是 AWS、Google、Microsoft 这些“云原生”巨兽。它们早已把 agent runtime 这一层,当成了自己云平台的“空气”和“水电”。
4.1 Hyperscaler 的碾压式布局:免费即正义
就在 Anthropic 发布 Managed Agents 的五个月前,也就是 2025 年底, Amazon Bedrock AgentCore 就已经进入“General Availability”(正式商用)阶段。它的 SDK 在发布后的前五个月,下载量就突破了两百万次。这不是一个“实验性功能”,而是一个被数以万计的开发者、企业客户深度集成到生产环境里的成熟产品。
AgentCore 的核心优势,是它根本不需要你额外付费。它被无缝集成在 AWS 的整个生态里。你用 EC2、Lambda、RDS,AgentCore 的 runtime 就运行在你已有的 VPC 和安全组里;你用 IAM 管理权限,AgentCore 的沙箱就自动继承这些策略;你用 CloudWatch 做监控,AgentCore 的所有指标就自动流入其中。它的沙箱,甚至不是虚拟机,而是更轻量、更安全的 microVM(微型虚拟机),每个 session 都拥有完全隔离的 CPU、内存和文件系统。你可以让它运行长达八个小时——这已经足够支撑一个完整的、跨多个时区的自动化工作流。
Google Vertex AI Agent Builder 和 Microsoft Azure AI Foundry 的策略如出一辙。Vertex 的 Agent Registry 可以通过 Apigee(谷歌的 API 网关)直接暴露为一个标准的 REST API;Azure 则把 AutoGen 和 Semantic Kernel 这两个开源框架,直接“编译”进了 Foundry 的 runtime,让你可以用自己熟悉的框架,却享受微软云的托管服务。它们的目标非常明确: 不跟你比“runtime 有多酷”,而是比“你用我的云,就等于免费拥有了最好的 runtime”。 当你的 CFO 看到 AWS 的账单上,AgentCore 的费用是 $0.00,而 Anthropic 的账单上写着 $0.08/session-hour,再加上 token 费用,这个决策,几乎不需要讨论。
4.2 开源势力的闪电崛起:从 dev-env 到 infra
如果说 hyperscaler 是用“免费”来降维打击,那么开源社区则是在用“速度”和“灵活性”来蚕食市场。2025 年初,一个叫 Daytona 的项目,原本是做开发者环境(dev-env)的,突然宣布全面转向 AI agent infrastructure。他们宣称自己的沙箱启动时间低于 90ms。这个数字意味着什么?意味着它比大多数 HTTP 请求的网络延迟还要快。紧接着,Kubernetes 社区的 SIG(Special Interest Group)也发布了官方的 agent-sandbox 项目,这意味着,未来你可以在自己的 Kubernetes 集群里,用 kubectl apply -f agent-sandbox.yaml 的方式,一键部署一个生产级的 agent runtime。它天然支持 K8s 的所有能力:自动扩缩容、滚动更新、服务网格集成、可观测性对接。
更可怕的是,这些开源项目,正在快速形成自己的“生态位”。比如 ByteDance 的 deer-flow ,它不仅仅是一个 runtime,而是一个内置了“规划(planning)”和“子 agent(subagents)”能力的完整 agent 框架。它在 GitHub 上已经获得了 59,000 个 star,这意味着,已经有数万名开发者在上面构建、分享、复用各种垂直领域的 agent。它不卖 runtime,它卖的是“如何让 agent 更聪明”的最佳实践。这种由社区驱动的创新速度,是任何一家商业公司都难以企及的。
4.3 历史的镜像:VMware 的兴衰启示录
Anthropic 的工程博客,把 Managed Agents 比作“90年代的操作系统虚拟化”,这个类比非常精准,但也非常危险。因为它指向了一个已经被历史反复验证过的结局。
1999 年,VMware 发明了 x86 平台上的商业虚拟化软件 ESX,它一度是企业数据中心里最昂贵、最核心的软件之一,售价高达数万美元每台服务器。它构建了一个价值千亿美金的帝国。但历史的车轮滚滚向前:2003 年,开源的 Xen 项目出现;2007 年,KVM(Kernel-based Virtual Machine)被合并进 Linux 内核,成为了 Linux 的“原生”虚拟化能力。到了 2020 年代,当 AWS、GCP、Azure 这些云厂商,把虚拟化能力作为云服务的“基础能力”免费提供时,VMware 的商业模式就彻底变了。它不再是“卖虚拟化”,而是“卖虚拟化之上的管理、迁移、安全工具”。它的收入依然可观,但它已经不再是那个定义时代的“基础设施层”。
Managed Agents,正站在 VMware 2005 年的那个路口。它是一个高质量的、有架构远见的 proprietary runtime。但它面对的,是 AWS、Google、Microsoft 这些已经把 runtime 当成“水电煤”的云巨头,以及 Daytona、K8s SIG、deer-flow 这些正在用开源速度重塑规则的社区力量。历史的规律是: 当一个技术层被证明是“必要”的基础设施时,它的经济价值就会被迅速压缩,最终趋向于零。 云厂商会把它打包进 IaaS/PaaS 的订阅费里;开源社区会把它变成一个免费、可审计、可定制的公共品。留给 Anthropic 这样的纯 runtime 提供商的空间,只会越来越窄。
5. 价值迁移:当 runtime 归零,钱流向哪里?
既然 runtime 这一层注定要被“归零”,那么整个 AI 工具链的价值,必然会向上或向下迁移。向下,是更底层的芯片、算力、模型训练;向上,则是那些建立在 runtime 之上的、更高阶的、更贴近业务价值的抽象层。这才是 Anthropic 发布 Managed Agents 之后,真正值得所有从业者、创业者、投资人关注的焦点。
5.1 追踪与可观测性(Trace Store):AI 世界的“黑匣子”
当 agent 的执行过程不再是一个黑盒,而是一条条可查询、可分析的事件日志时,“追踪”就从一个可选项,变成了一个必选项。想象一下,一个金融风控 agent,因为一个微小的、未被发现的逻辑错误,连续三天给高风险客户发放了低利率贷款。如果没有一个统一的、跨 runtime 的 trace store,你可能永远找不到这个 bug 的根源——因为日志分散在不同的沙箱、不同的 harness、不同的 session 里。
目前,这个领域已经形成了三股主要力量:
| 公司/项目 | 核心产品 | 关键优势 | 商业模式 |
|---|---|---|---|
| Braintrust | Brainstore | 专为 AI 交互日志设计的 OLAP 数据库,查询性能极佳 | $36M Series A,商业化产品 |
| Arize | Phoenix | Apache 2.0 开源,旨在成为事实上的开源标准,再在其上构建商业版 | $131M 总融资,开源+商业双轨 |
| LangChain | LangSmith | 与 LangChain 生态深度绑定,开箱即用,安装基数巨大 | 免费基础版 + 高级功能订阅 |
它们的竞争,不是比谁的 dashboard 更好看,而是比谁的 trace format 更通用、谁的 SDK 更易集成、谁的存储引擎更能承受 PB 级别的日志洪流。谁能成为那个“所有 agent runtime 都愿意对接的、统一的系统记录”,谁就拿到了通往下一阶段的门票。因为当 runtime 可以随时更换时,你的 trace 数据,就是你唯一无法被带走的、也是最有价值的资产。
5.2 治理与策略(Governance & Policy):AI 时代的“防火墙”
随着 agent 被赋予越来越多的权限——调用支付 API、读取 HR 系统、修改生产数据库——“这个 agent 被允许做什么?”、“谁批准了这个权限?”、“它的每一次操作是否有完整的审计链?”这些问题,已经从技术问题,上升为合规和法律问题。OWASP(开放网络应用安全项目)发布的《Agentic Top 10》,已经把“不安全的 agent 配置”、“越权的工具调用”列为最高风险。
AWS 的 AgentCore 在 2026 年 3 月,就将 Policy Controls 推向了 GA。这意味着,你可以在 AWS 控制台里,用图形化界面,为一个 agent 设置细粒度的策略:它只能调用特定的 Lambda 函数;它调用 S3 的权限,仅限于 s3:GetObject ,且只能访问 my-company-data-bucket 下的 public/ 前缀;它不能在任何情况下,将敏感 PII(个人身份信息)数据,作为 tool call 的参数发送出去。
这是一个全新的、巨大的市场空白。目前,还没有一个公认的、跨云、跨 runtime 的治理标准。谁能率先定义一套被广泛接受的 Policy DSL(领域特定语言),并提供一套从策略编写、策略部署、策略执行到策略审计的完整闭环,谁就能在这个“AI 时代的防火墙”市场里,占据先发优势。这不再是写几行代码的事,而是要深入理解金融、医疗、政府等不同行业的合规要求,并将其翻译成机器可执行的规则。
5.3 垂直领域市场(Vertical Marketplaces):从“工具”到“解决方案”
最后,也是最确定的一点,是价值一定会流向那些能直接解决具体业务问题的“垂直 agent”。Salesforce 的 Agentforce 在 2026 年 Q4 达到了 8 亿美元的 ARR(年度经常性收入),同比增长 169%。这个数字说明了一件事:企业客户不在乎你用的是 Claude 还是 Llama,不在乎你的 runtime 是 Anthropic 的还是 AWS 的。他们在乎的是:“这个 agent 能不能帮我把销售线索的转化率提高 15%?”、“能不能把客服工单的首次解决率提升到 90%?”、“能不能在 5 分钟内,给我生成一份符合 SEC 要求的季度财报摘要?”
开源社区已经敏锐地捕捉到了这个趋势。 virattt/ai-hedge-fund 是一个面向量化交易的开源 agent,它能自动分析财经新闻、爬取上市公司财报、执行回测、并生成交易信号。 vxcontrol/pentagi 则是一个面向网络安全的渗透测试 agent,它能自动扫描漏洞、模拟攻击路径、并生成修复建议。这些项目,都不是在造轮子,而是在用 agent 的新范式,重构一个旧行业的工作流。
个人体会:我在和一家大型保险公司聊合作时,他们的 CTO 一句话让我印象深刻:“我们不买 AI,我们买‘降低理赔欺诈率’。你们的 agent,如果能证明它能把我们的欺诈识别准确率从 72% 提升到 85%,并且这个效果是可审计、可复现的,我们就签单。至于它跑在谁的 runtime 上,那是你们的采购部门该操心的事。” 这句话,精准地概括了价值迁移的终点: 当基础设施层 commoditize(商品化)之后,价值就必然回归到“解决了什么问题”这个最朴素的原点上。 Anthropic 的 Managed Agents,是一个优秀的、及时的、防御性的产品。但真正激动人心的故事,不在它身上,而在它之上,在那些正用它来建造一座座垂直领域“摩天大楼”的 builders 身上。
更多推荐
所有评论(0)