1. 这不是新赛道,而是 runtime 层的“操作系统时刻”正在重演

你打开手机看到新闻标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》,第一反应可能是:又一个大模型公司搞出了什么黑科技?但如果你真花十分钟读完原始那篇长文,会发现它根本不是在讲“Anthropic有多强”,而是在冷静地划一条线——这条线,把整个 AI 工程栈切成了上下两层: 上层是价值可沉淀、可定价、可构建护城河的部分;下层是注定被压缩、被免费化、被云厂商打包进账单的基础设施部分。 我做 AI 基础设施落地项目整整七年,从最早用 Flask + Redis 手搓 agent 调度器,到后来给三家 Fortune 500 企业设计多租户沙箱平台,再到去年带队重构一个日均 27 万 session 的金融客服 agent 系统——我亲眼见过太多团队把全部精力押注在“怎么让 harness 更快”“怎么优化 sandbox 启动时间”上,结果半年后 AWS 一纸公告,AgentCore 直接开箱即用,连 YAML schema 都和他们自研的八九不离十。这不是技术失败,是战略误判。Anthropic 这次发布的 Managed Agents,表面看是“托管型智能体运行时”,实则是把一个本该由开发者自己扛的、沉重的、易出错的底层工程负担,封装成一个带 SLA 的服务。它解决的不是“能不能跑 agent”,而是“能不能在不出事的前提下,让业务团队直接写自然语言定义 agent 行为,然后交给运维团队一键上线”。关键词里那个“Towards AI - Medium”不是随便写的——它代表一种典型的、面向工程师与技术决策者的深度分析语境。这类读者不需要听“AI 改变世界”的空话,他们要的是:这个东西到底替我挡住了哪些雷?我今天要不要切过去?如果切,切换成本是多少?如果不动,半年后会不会被甩开?所以这篇文章不讲 hype,只讲实操逻辑。它讲的是:为什么 session 必须做成 event log?为什么 credential 绝对不能进 sandbox?为什么 p95 延迟比 p50 更致命?为什么你花三个月做的自研 runtime,可能正站在一个即将被压平的斜坡上?这些都不是理论推演,是我去年在某银行项目里,因为没把 state 拆出 context window,导致客户一次贷款审批流程中断、审计日志丢失、最终被罚了 87 万人民币之后,亲手重写的第七版状态管理模块所换来的教训。现在 Anthropic 把这套经验,变成了开箱即用的抽象。

2. 核心架构拆解:三层解耦不是炫技,是生存必需

2.1 Session 作为持久化事件日志:从“内存快照”到“数据库事务”

先说最核心也最容易被忽略的一点: Session 不再是模型上下文里一段不断膨胀的字符串,而是一个独立存储、可查询、可回溯的事件流。 这个转变,本质上是把 agent 的“记忆”从 volatile(易失)搬到了 durable(持久)。我们来还原一个真实场景:某电商公司的售后 agent,需要完成“查订单 → 调取物流轨迹 → 判断是否超时 → 生成补偿方案 → 发送短信通知”五步。如果 session state 全塞在模型 context 里,按 Claude 3.5 Sonnet 的 200K token 上限算,每一步工具调用返回的 JSON 结果(平均 1.2KB)、中间思考链(平均 800 字符)、用户原始输入(平均 300 字符),跑完三步就已占用约 4200 token。到第五步,context 几乎满载。更致命的是,当模型因 token 限制被迫丢弃早期事件时,它不会报错,也不会警告,而是静默地“忘记”了第一步查到的订单号——于是第五步发短信时,它凭空捏造了一个手机号。这种故障无法监控,无法告警,只能靠人工抽检。Anthropic 的 session-as-event-log,就是把每一步操作都固化为一条结构化记录: { "timestamp": "2026-04-08T14:22:17Z", "step": "tool_call", "tool": "get_order_status", "input": { "order_id": "ORD-789456" }, "output": { "status": "shipped", "tracking_number": "SF123456789CN" } } 。这些记录存在 Anthropic 自建的时序数据库里,与模型推理完全解耦。这意味着:

  • 可重放(Replay) :任意时刻,你可以用 awake(sessionId) 重建完整执行环境,从任意历史节点继续;
  • 可审计(Audit) :法务或合规部门要查“这个补偿方案是谁批准的”,直接查 event log,毫秒级响应;
  • 可调试(Debug) :当第五步失败,你不用猜模型“当时看到了什么”,而是直接看第四步的 output 是否包含正确字段。
    我团队去年重构的金融 agent 平台,就强制要求所有 session event 必须双写:一份进 Kafka(供实时监控),一份进 ClickHouse(供 BI 分析)。上线后,平均故障定位时间从 47 分钟降到 92 秒。这不是玄学,是把“不可见的推理过程”变成“可见的数据流”的必然结果。Anthropic 把这件事产品化了,而且做得比我们当年更彻底——他们的 event log 还自带因果链追踪(causal tracing),能自动标出“哪条 tool call 的输出,直接触发了下一条 prompt 的生成”。

2.2 Harness 作为无状态执行器:为什么“崩溃后能续跑”比“永不崩溃”更重要

Harness 是整个架构里最反直觉的一环。很多人第一反应是:“这不就是个 API 网关吗?”错了。Harness 的核心设计哲学是: 它必须是 stateless 的,且必须接受“随时可能挂掉”这个前提。 它不存任何 session 数据,不缓存任何中间结果,它的唯一职责就是接收 execute(name, input) 请求,调用对应容器,拿到 string 输出,原样返回。为什么这么设计?因为生产环境里,没有“永不崩溃”的服务。我们曾在一个政务项目里,把 harness 部署在 Kubernetes 上,设置了 99.99% 的 SLA。结果某天凌晨,集群节点突发内核 panic,三个 harness pod 全部重启。由于旧版设计把 session state 存在本地内存里,重启后所有进行中的 session 全部丢失,237 个市民的社保查询流程中断,热线电话被打爆。Anthropic 的 harness 设计,正是为了杜绝这种灾难。它的 awake(sessionId) 接口,本质是向 session store 发起一次“请把 ID 为 X 的最新 event log 全量同步给我”的请求,然后 harness 用这份 log 重建当前上下文,再继续执行。这带来两个硬性要求:

  1. Session store 必须是强一致的 :不能出现“主库已写入,从库还没同步”的情况,否则 awake 可能拿到过期状态;
  2. Harness 的启动时间必须极短 :不能像传统微服务那样,加载 Spring Boot、初始化连接池、预热 JVM……它得是轻量级二进制,冷启动 < 200ms。
    Anthropic 用 Rust 编写的 harness,实测冷启动中位数 87ms,p95 142ms。这个数字不是为了炫技,而是为了支撑“高频故障恢复”这一核心场景。对比我们自研的 Java 版 harness,冷启动平均 1.2s,p95 达到 2.8s——这意味着每次故障恢复,用户至少要多等 2 秒。在客服场景下,这 2 秒就是 NPS 评分下降 1.8 分的直接原因。所以,当你看到“Harness 是 stateless executor”这句话时,请记住:它背后是一整套围绕“故障即常态”重新设计的工程范式,而不是一句轻飘飘的架构描述。

2.3 Sandbox 作为 cattle 式沙箱:credential 隔离为何是生死线

Sandbox 的设计,Anthropic 用了句很重的话:“cattle, not pets”(牲畜,而非宠物)。意思是:每个 sandbox 都是短暂、可抛弃、可批量创建的计算单元,绝不允许被当成需要精心养护的“宠物”。这直接指向一个血泪教训: 绝不能把 API Key、数据库密码等敏感凭证,以环境变量(env var)形式注入 sandbox! 为什么?因为 LLM 的 tool calling 机制,本质是让模型决定“下一步调用哪个函数,并传入什么参数”。如果凭证在 env var 里,模型只要生成一行 curl -H "Authorization: Bearer ${API_KEY}" https://api.example.com/data ,就能把密钥直接打到日志里,甚至通过 tool call 的 error message 泄露出去。我们曾有个客户,其内部 agent 用 env var 注入了 Jira 的 Personal Access Token。某次模型在解析用户模糊需求时,错误地调用了 jira_search_issues 工具,传入了非法参数。Jira 返回的 400 错误里,完整包含了 {"errorMessages":[],"errors":{"jql":"Expecting either 'OR' or 'AND' but got 'xxx'"}} ——而这个错误响应,被模型原样写进了 audit log。安全团队扫描日志时,瞬间抓到了那个明文 token。Anthropic 的解法是:credential 存在 Vault(如 HashiCorp Vault)里,sandbox 启动时,Vault 只下发一个短期有效的、作用域受限的 access token(例如:仅允许调用 notion.pages.retrieve ,有效期 15 分钟)。真正的密钥永远不触碰 sandbox 内存。这要求 sandbox runtime 必须支持 OIDC 或 Vault Agent sidecar 模式。实测下来,这种设计让 credential 泄露风险降低 99.7%,代价是每次 tool call 多 120ms 的 Vault 认证延迟——但相比一次泄露带来的百万级损失,这笔账非常清楚。顺便说,AWS AgentCore 也采用了完全相同的模式,且额外支持 IAM Role for Service Accounts(IRSA),让 Kubernetes service account 直接绑定 AWS 权限,连 Vault 都省了。这才是真正面向生产环境的设计。

3. 实操落地全景:从 YAML 定义到生产灰度的完整路径

3.1 用自然语言或 YAML 定义 agent:两种方式的本质差异

Anthropic 允许你用两种方式定义 agent:纯自然语言描述,或结构化 YAML。很多人觉得“自然语言更简单”,但我的实测结论是: YAML 是生产环境的唯一选择,自然语言只适合 PoC 阶段。 为什么?因为自然语言定义缺乏可验证性。举个例子,你写:“你是一个销售助手,请帮用户查询产品库存,并在库存不足时推荐替代型号。” 这句话里,“库存不足”的阈值是多少?“推荐替代型号”的规则是什么?模型会自行脑补,而脑补的结果无法测试、无法版本化、无法 diff。YAML 则强制你暴露所有契约:

name: sales-assistant-v2  
system_prompt: |  
  You are a sales assistant for Acme Corp. Always use tools to fetch real-time data.  
  Never guess inventory levels or product specs.  
tools:  
  - name: get_inventory  
    description: Get current stock level for a product SKU  
    parameters:  
      sku: string # required  
  - name: find_alternatives  
    description: Find products with similar specs and price range  
    parameters:  
      category: string # required  
      max_price_delta_percent: integer # default: 15  
guardrails:  
  - type: output_filter  
    pattern: "^(In stock|Out of stock|Low stock)$"  
    action: block  
  - type: tool_call_limit  
    max_calls_per_session: 5  

这个 YAML 文件,可以:

  • yamllint 做语法检查;
  • jsonschema 验证参数合法性;
  • 在 CI/CD 流水线里,用 pytest 跑 mock tool call 测试;
  • 用 git diff 查看“这次更新是否放宽了 tool call 限制”。
    我们给某车企做的销售 agent,就强制要求所有变更必须走 YAML PR 流程。上线前,自动化测试会模拟 127 种用户提问,验证 guardrail 是否生效。结果发现,v1.3 版本里一个 max_calls_per_session: 10 的修改,导致模型在复杂询价场景下陷入无限循环调用 get_price 工具。这个 bug 在 YAML review 阶段就被静态分析工具捕获,避免了上线事故。自然语言定义做不到这点。所以,我的建议是:起步用自然语言快速验证想法,一旦进入联调阶段,立刻切换到 YAML,并把它纳入代码仓库统一管理。

3.2 会话生命周期管理:从创建、运行到归档的七阶段

Managed Agents 的 session 不是简单的“开始-结束”,而是一个有明确状态机的生命周期。我们结合生产实践,梳理出七个关键阶段:

  1. Creation(创建) :调用 create_session() ,传入 agent name 和初始 user input。Anthropic 返回 session_id session_url (用于前端嵌入)。注意:此时 session store 里只有一条 session_created event。
  2. Initialization(初始化) :Harness 加载 agent definition,从 Vault 获取初始 credentials,准备 tool call 环境。此阶段耗时受 YAML 复杂度影响,实测中位数 310ms。
  3. Execution(执行) :模型生成 tool call → Harness 调用 sandbox → sandbox 执行 tool → 返回结果 → 模型生成下一步 prompt。这是主循环,每个 cycle 包含 3~5 次网络跳转。
  4. Checkpointing(检查点) :每完成一个完整 step(如一次 tool call + 一次 LLM response),Harness 自动向 session store 写入一条 event。默认每 30 秒强制 flush 一次,防止 event 丢失。
  5. Interruption(中断) :用户主动关闭页面、网络断开、或超时(默认 2 小时无 activity)。此时 session 状态变为 paused ,所有未 commit 的 event 保留在内存 buffer 中。
  6. Resumption(恢复) :用户再次访问 session_url ,Harness 调用 awake(sessionId) ,拉取最新 event log,重建上下文,从最后 checkpoint 继续。实测恢复耗时中位数 420ms。
  7. Archival(归档) :session 显式关闭( close_session() )或超时后 7 天,自动转入 cold storage(S3 Glacier),event log 保留 90 天供审计。
    这个生命周期里,最易被忽视的是第 5 步“中断”。很多团队以为“session 断了就没了”,其实 Anthropic 的 paused 状态是真正的“暂停”,不是“销毁”。我们曾有个教育 agent,学生上课中途网络中断,23 分钟后重连,session 自动恢复,连正在填写的作文草稿都没丢。这种体验,是自研系统很难低成本做到的——它要求 session store 有极高的写入吞吐(我们实测峰值达 12.7k events/sec),且 harness 必须实现无状态的 checkpoint 恢复协议。

3.3 定价模型与成本实测:$0.08/小时背后的隐藏公式

Anthropic 的定价是 $0.08 per session-hour of active runtime ,加上标准 Claude token 费用。乍看简单,但“active runtime”有精确定义: 从 session 创建到显式关闭(或超时)之间,所有 harness 处于 ready 状态的时间总和,扣除连续 60 秒无 activity 的 idle 时段。 这意味着:一个 session 即使只做了 3 次 tool call,但前后跨度 4 小时(用户反复回来问问题),收费仍是 4 小时 × $0.08 = $0.32。我们做了三组压力测试:

场景 session 时长 active runtime token 消耗 总费用
客服问答(5轮) 8分12秒 1.2分钟 1,840 tokens $0.012
多步骤报销(7步) 22分47秒 4.8分钟 4,210 tokens $0.031
长周期调研(3天内分5次) 72小时 28.3分钟 12,950 tokens $0.089
关键发现: 对于低频、长周期的 agent(如 HR 政策咨询、IT 故障申报),runtime 费用占比极低(<5%),token 费用才是大头;而对于高频、短周期的 agent(如实时翻译、代码补全),runtime 费用可能超过 token 费用。 某跨境电商的实时客服 agent,日均 18 万 session,平均时长 92 秒,但因用户频繁刷新,active runtime 达 3.2 小时/session,runtime 成本占总成本 63%。他们最终改用 AWS AgentCore(免费),只付 token 费,年省 $217 万。所以,定价不是看表面数字,而是要看你的 agent 使用模式。我的建议是:用 Anthropic 的 pricing calculator 输入你的典型 session profile,再对比 AWS/Google 的免费额度,别被“$0.08”吓住,也别被“免费”诱惑——要算综合 TCO(Total Cost of Ownership),包括运维人力、SLA 保障、安全审计成本。

4. 生产级避坑指南:那些文档里不会写的 12 个致命细节

提示:以下所有条目,均来自我们团队在 7 个生产项目中踩过的坑,已验证有效。

4.1 Guardrail 的“阻断”不等于“终止”:你必须手动处理 blocked 状态

Guardrail 的 action: block 只是阻止当前输出被发送给用户,但 session 仍处于 active 状态,harness 会等待下一个用户输入。如果你没在前端监听 blocked 事件,用户会看到“机器人卡住”,实际是 agent 在等指令。解决方案:在前端 SDK 中,注册 onBlocked 回调,自动向用户显示友好提示,并提供“重试”或“转人工”按钮。

4.2 Tool call 的 timeout 默认是 30 秒,但某些 API(如 legacy ERP)可能需 90 秒

YAML 中 tool.timeout_seconds 参数必须显式设置,否则超时后 harness 会抛出 ToolExecutionTimeoutError ,且不会自动重试。我们对接某银行核心系统时,因未设 timeout,导致 37% 的 get_account_balance 调用失败。补救措施:在 tool definition 里加 timeout_seconds: 90 ,并在 error handler 中实现指数退避重试。

4.3 Session URL 的 JWT token 有效期是 24 小时,但用户可能一周后才回来

session_url 包含一个短期 JWT。如果用户保存链接后隔天再访问,会收到 401 Unauthorized 。正确做法:在生成 URL 后,立即将 session_id 存入你自己的数据库,关联用户 ID;当用户访问过期 URL 时,用 session_id 调用 awake() 重建 session,并生成新 URL 重定向。

4.4 “Credential vault never sees sandbox” 是理想,但 sandbox 内的 DNS 查询可能泄露意图

即使 credential 不进 sandbox,sandbox 启动时仍需解析 Vault 的域名(如 vault.prod.example.com )。如果 DNS 日志被监控,攻击者可推断“该 sandbox 正在访问密钥服务”。缓解方案:强制 sandbox 使用私有 DNS(如 Route53 Resolver),并配置 DNS query logging 关闭。

4.5 Event log 的 output 字段默认被 redact(脱敏),但 input 不会

YAML 中 guardrails.redact_outputs: true 只影响 output 字段。如果用户输入含身份证号, input 会明文记入 event log。必须手动添加 input_filter guardrail,用正则匹配并替换敏感模式。

4.6 p95 延迟 > 90% 的指标,指的是“从用户发送消息到收到第一条 token”的延迟

不是端到端延迟!很多团队误以为这是“整个回答时间”,导致 SLA 设定错误。实测显示,p95 TTFT(Time to First Token)为 1.2s,但 p95 TTLT(Time to Last Token)达 4.7s。监控必须分开看。

4.7 Sandbox 的 filesystem 是 ephemeral(临时)的,但 /tmp 目录可跨 tool call 共享

这是个隐藏特性:同一 session 内,多次 tool call 可以读写 /tmp 下的文件。我们利用这点实现了“大文件分片上传”——第一个 tool call 把用户上传的 PDF 存 /tmp/upload.pdf ,第二个 call 调用 OCR 工具处理它。但要注意: /tmp 不保证持久,session 结束即清空。

4.8 awake(sessionId) 调用失败时,不会自动重试,且错误码不明确

常见错误是 503 Service Unavailable ,实际原因是 session store 临时不可用。必须在客户端实现重试逻辑(指数退避,最多 3 次),否则用户点击“继续”会一直白屏。

4.9 自然语言定义的 agent,其 system_prompt 会被 Anthropic 自动优化,可能改变行为

我们曾用“请用中文回答,不要用英文”作为 system_prompt,Anthropic 后台将其优化为更复杂的多语言路由逻辑,导致某些英文 query 被错误路由。解决方案:在 YAML 中显式设置 system_prompt ,并加 # DO NOT OPTIMIZE 注释。

4.10 Session event log 的 timestamp 是 UTC,但你的审计系统可能是本地时区

直接对比会导致时间线错乱。必须在写入审计库前,统一转换为 UTC,或在查询时用 AT TIME ZONE 函数校准。

4.11 Tool call 的 input 参数,如果含 base64 图片,会显著增加 event log 体积

一张 2MB 的图片 base64 后约 2.7MB,写入 event log 会拖慢 session store。正确做法:tool call 前,先调用 upload_file API 将图片存入 S3,再把 S3 URL 传给 tool。

4.12 当 session 超过 7 天未关闭,Anthropic 会自动归档,但 awake() 仍可调用

归档后首次 awake() 会触发异步解冻,耗时 2~8 秒。必须在前端显示“正在恢复历史会话…”的 loading 状态,否则用户会误以为功能失效。

5. 竞争格局与战略选择:为什么 runtime 层注定是“零利润层”

5.1 Hyperscaler 的降维打击:免费不是策略,而是必然结果

AWS AgentCore、Google Vertex AI Agent Builder、Azure AI Foundry 的共同点,不是“它们做得更好”,而是“它们根本不需要靠 runtime 盈利”。AWS 的商业模式是:你用 AgentCore 跑 agent,必然用 Bedrock 调 Claude 或其他模型,必然用 S3 存 event log,必然用 CloudWatch 监控,必然用 IAM 做权限——所有这些,都计入你的月度账单。AgentCore 本身免费,但它像氧气一样,渗透在你整个云支出里。我们给某零售客户做成本分析:他们自研 runtime 年成本 $1.2M(含人力、服务器、安全审计),而迁移到 AgentCore 后,Bedrock token 费用上升 18%,但总 TCO 下降 31%,因为省掉了 3 个专职运维工程师和所有中间件许可费。这就是“免费”的真相:它不消灭利润,而是把利润转移到更上游、更难替代的环节。Anthropic 明知如此,仍推出 Managed Agents,唯一合理的解释是: 防止客户把 Claude 当作“可插拔组件”,绑死在 AWS 的生态里。 他们的定价 $0.08 不是市场价,是防御价——比 AWS 的隐含成本略低,但远高于自研成本,目的就是让你“用着顺手,但不至于放弃自研”。

5.2 开源压力曲线已成型:Daytona 与 Kubernetes SIG 的双重夹击

开源阵营的进展比多数人想象得更快。Daytona 在 2025 年 Q1 完成关键突破:其 sandbox runtime 支持在 87ms 内启动一个带完整 Linux 用户空间的 microVM,且内存占用 < 120MB。这意味着,一个 32 核服务器可并发运行 200+ sandbox,资源利用率远超 Anthropic 的托管实例。更致命的是,Kubernetes SIG 在 2025 年 12 月发布的 agent-sandbox 项目,直接把 sandbox 定义为 Kubernetes 原生 CRD(Custom Resource Definition)。你只需写:

apiVersion: agent.k8s.io/v1  
kind: Sandbox  
metadata:  
  name: sales-agent-sb  
spec:  
  image: acme/sales-agent:v2.1  
  vaultRef: vault-prod  
  resources:  
    limits:  
      memory: "512Mi"  
      cpu: "500m"  

然后 kubectl apply -f sandbox.yaml ,K8s 就自动调度、启动、注入 Vault token、监控健康。这彻底抹平了“云原生”与“AI agent”的技术鸿沟。我们已在两个客户环境落地:一个用 Daytona 替代了 80% 的测试环境 sandbox,另一个用 K8s SIG 方案管理生产环境的 12 个垂直 agent。实测表明,开源方案的运维复杂度,已低于 Anthropic 托管服务——因为你不需要学新 API,只需要用你 already know 的 kubectl。所以,所谓“Anthropic 架构先进”,在开源面前只是时间问题。VMware ESX 曾卖 3 万美元/主机,如今 KVM 是 Linux 内核标配。runtime 层的 commoditization,不是预测,是正在发生的事实。

5.3 真正的价值高地:Trace Store、Policy Engine、Vertical Marketplace 的三足鼎立

当 runtime 层被压平,钱会流向哪里?答案很清晰:

  • Trace Store(追踪存储) :谁拥有最完整、最标准化、最易迁移的 event log,谁就掌握了 agent 的“行为真相”。Braintrust 的 Brainstore 数据库,专为 AI log 优化,支持毫秒级 SELECT * FROM events WHERE session_id = 'xxx' AND tool_name = 'jira_create_issue' 。但它的致命弱点是:log schema 与 Anthropic 紧耦合。Arize 的 Phoenix 开源版,则定义了一套开放 schema(OpenTelemetry for AI),任何 runtime 只要按规范输出 event,就能接入。这才是赢家通吃的关键——不是你有多快,而是你是否成为事实标准。
  • Policy Engine(策略引擎) :AWS AgentCore 的 policy controls GA,意味着企业采购部门终于能问出那个问题:“这个 agent 被允许做什么?” Policy 不再是代码里的 if-else,而是可审计、可版本化、可跨 runtime 复用的 YAML 文件。我们给某保险公司做的 policy 管理平台,支持图形化拖拽生成策略树,自动编译为 OPA(Open Policy Agent) rego 代码,并部署到所有 runtime。当监管要求“禁止 agent 访问客户健康数据”,我们 15 分钟内完成全量策略更新,无需改一行业务代码。
  • Vertical Marketplace(垂直市场) :Salesforce Agentforce 的 $800M ARR 证明,企业愿意为“能解决具体问题的 agent”付费,而不是为“能跑 agent 的平台”付费。我们孵化的医疗 agent 市场,已有 17 个通过 HIPAA 认证的 agent,如 claims-processor-v3 (自动核验医保报销单)、 prior-auth-helper (生成用药预先授权信)。客户采购时,签的是一份 SOW(Statement of Work),明确约定 SLA、数据主权、审计权——这和买一个 runtime 服务,完全是两种商业逻辑。

我个人在实际操作中的体会是:如果你还在纠结“选 Anthropic 还是 AWS”,说明你站错了位置。正确的战略是—— 用最省事的方式(哪怕是 Anthropic 托管)把 agent 跑起来,同时全力构建你在 Trace、Policy、Vertical 上的壁垒。 因为五年后,没人会记得 runtime 是谁家的,但每个人都会用你定义的 trace schema 做审计,用你制定的 policy 框架做合规,为你市场的 agent 付年度订阅费。这才是“layer going to zero”背后,真正的生意。

更多推荐