1. 项目概述:当“运行时”成为下一个被压平的基础设施层

你有没有试过让一个AI代理连续工作四十分钟,处理一份需要反复调用数据库、查文档、写代码、再验证结果的复杂任务?我去年就干过这事。当时我们把所有中间状态——工具返回的原始数据、用户最新指令、上一轮决策依据——全塞进Claude 3.5 Sonnet的200K上下文窗口里。前半小时一切顺利,直到第38分钟,窗口满了。模型没报错,也没中断,它只是悄悄把最早那几轮的数据库查询结果给“遗忘”了,然后基于一个残缺的、自己脑补出来的历史,开始生成完全错误的SQL语句。更糟的是,我们根本没法回溯:没有日志、没有快照、没有事件流,整个会话就像一滴水蒸发在沙漠里,无声无息,但代价是整整两天的调试和重跑。这件事之后,我们团队花了三天时间,把状态存储彻底搬出模型上下文,改用独立的Redis+PostgreSQL组合来管理会话生命周期。所以当我看到Anthropic在4月8日发布的Claude Managed Agents时,第一反应不是“哇,新功能”,而是“终于有人把我们踩过的坑,做成产品卖了”。

这正是本文要讲的核心:Managed Agents不是一个炫酷的新玩具,它是一套针对“长周期、多步骤、高可靠性”AI代理场景的 生产级工程解法 ,其价值不在于它多快或多聪明,而在于它系统性地解决了三个致命痛点—— 状态持久化不可靠、凭证管理不安全、执行环境不可控 。它把原本散落在开发者代码里的、容易出错的胶水逻辑(session management, credential injection, sandbox lifecycle),封装成一个由Anthropic托管、按需计费的标准化服务。关键词是“托管”(Managed)和“沙箱”(Sandboxed):你定义好代理该做什么(用YAML或自然语言),Anthropic负责让它在隔离的容器里安全、稳定、可审计地跑起来,并把每一步操作都记成一条结构化的事件日志。这不是在造一个新的“AI操作系统”,而是在为整个AI应用栈打下一块关键的、可信赖的地基。它面向的不是想玩个聊天机器人的爱好者,而是正在把AI代理嵌入Notion工作流、Slack销售流程、或是Sentry错误修复管道的工程团队。如果你正被上下文溢出、密钥泄露、或沙箱崩溃搞得焦头烂额,这篇文章就是为你写的。

2. 架构解构:为什么“会话即事件日志”是真正的范式转移

2.1 剥开营销话术,看清三层核心抽象

Anthropic的工程博客里反复强调“Session as durable event log”、“Harness as stateless executor”、“Sandboxes as cattle, not pets”。这些不是空洞的口号,而是对现有AI代理架构的一次精准外科手术。我们来一层层拆解,看看它们到底在解决什么问题,以及为什么这个设计如此关键。

第一层:会话(Session)——从“内存快照”到“事件数据库”

传统代理框架(比如早期的LangChain或自研方案)里,“会话”通常就是一个存在内存里、或者序列化后存进Redis的Python字典或JSON对象。它包含了当前所有上下文、历史消息、工具调用结果。这种设计在单步、短时任务中没问题,但一旦任务变长、变复杂,它就成了一个巨大的技术债黑洞。问题有三:一是 容量天花板 ,模型上下文窗口是硬限制,你无法突破;二是 一致性脆弱 ,如果代理进程崩溃,这个内存快照就丢了;三是 可追溯性差 ,你想知道“为什么代理最后生成了那个错误的PR描述?”,你得手动翻几十条消息记录,拼凑线索。

Managed Agents的“会话即事件日志”则彻底颠覆了这个范式。它把每一次交互——用户输入、模型推理、工具调用、工具返回、最终输出——都当作一个独立的、带时间戳和唯一ID的 事件(Event) ,持久化到Anthropic的后端数据库里。这意味着:

  • 容量无限 :事件日志可以存几天、几周甚至几个月,完全不受模型上下文窗口的限制。
  • 崩溃可恢复 :如果执行器(Harness)意外宕机,只要拿着 sessionId ,就能立刻从上次成功的事件点重新加载状态,继续执行。这不再是“重启整个对话”,而是“续上刚才那一步”。
  • 可审计、可回放、可分析 :你可以像查询数据库一样,用SQL或API去检索“所有在2026年4月10日调用过 search_confluence 工具的会话”,或者“找出所有在调用 write_code 后紧接着又调用了 run_tests 的失败案例”。这为后续的可观测性(Observability)和治理(Governance)铺平了道路。

提示:这个设计的灵感直接来自现代分布式系统的“事件溯源(Event Sourcing)”模式。它把“状态”看作是所有“事件”的累积结果,而不是一个静态的快照。这听起来很重,但对AI代理这种天然具有“长事务”特性的应用来说,却是最稳健的选择。

第二层:执行器(Harness)——从“有状态服务”到“无状态函数”

在Managed Agents架构里,“Harness”是一个极其轻量的组件。它的唯一职责,就是接收一个 sessionId 和一个 input ,然后根据预设的配置,去调用指定的工具(Tool),并将结果返回。它本身 不保存任何状态 ,也不关心这个会话之前发生了什么。所有的状态信息,都由上层的“会话日志”提供。这带来了两个巨大好处:

  1. 极致的弹性与伸缩性 :因为Harness是无状态的,Anthropic可以像启动一个HTTP请求处理器一样,瞬间拉起成百上千个实例来应对流量高峰。当一个实例因故障退出,另一个实例可以无缝接管,用户甚至感知不到。这与传统需要维护长连接、同步内存状态的服务形成了鲜明对比。

  2. 模型无关性与未来兼容性 :Harness的接口是 execute(name, input) → string 。这个 name 是你在YAML里定义的工具名, input 是传给工具的参数, string 是工具执行后的纯文本输出。这个接口与底层使用的是Claude、Llama还是其他模型完全解耦。今天你用Claude 3.5,明天Anthropic发布了Claude 4,你只需要在后台切换一下模型配置,Harness的代码一行都不用改。这正是工程博客里所说的“让每一层独立演进”的核心体现。

第三层:沙箱(Sandbox)——从“宠物服务器”到“牲畜容器”

这是安全性的基石。在传统部署中,开发者往往需要自己搭建一个Docker环境,然后把API密钥、数据库密码等敏感信息,以环境变量( ENV VAR )的形式注入进去。这是一个巨大的安全隐患:一旦模型被诱导(Prompt Injection)或出现漏洞,它就可以直接读取这些环境变量,从而窃取你的生产密钥。我们团队就曾在一个内部测试中,用一句精心构造的提示词,让模型成功打印出了 DB_PASSWORD 的值。

Managed Agents的沙箱设计彻底杜绝了这种可能。它的原则是:“ 凭证永远不进入沙箱,沙箱永远看不到凭证 ”。具体实现是:当你在YAML里声明一个需要访问AWS S3的工具时,你只声明 type: aws_s3 ,并指定一个权限策略(Policy)。Anthropic的平台会在沙箱启动时,根据这个策略,动态地、临时地生成一个具有最小权限的短期凭证(Temporary Credentials),并将其注入沙箱的运行时环境。这个凭证的有效期极短(通常是几分钟),且权限被严格限制在声明的S3桶和操作范围内。沙箱里的代码永远无法通过 os.environ 读取到原始的长期密钥。这已经不是“最佳实践”,而是将安全设计内化为平台能力的强制约束。

2.2 与AWS Bedrock AgentCore的对比:一场关于“谁在定义标准”的暗战

Anthropic的发布稿里没提AWS,但整个行业的人都心知肚明,这场“Runtime Layer”的战争早已打响。AWS Bedrock AgentCore在2025年底就已进入通用可用(GA)阶段,到2026年3月,其SDK下载量已超两百万次。它同样提供了沙箱(microVM)、会话管理(长达8小时)、以及框架无关性(支持LangGraph、CrewAI等)。那么,Anthropic此举究竟是创新,还是防御?

答案是后者。这是一场典型的“生态位卡位战”。AWS、Google Vertex AI、Microsoft Azure Foundry,这些云厂商的终极目标从来不是卖“AI Runtime”这个产品,而是 把AI Runtime变成他们云平台的一个免费、隐形、不可或缺的组成部分 。就像当年虚拟化技术(VMware)被云厂商吸收为IaaS层的默认能力一样,AI Runtime也正在经历同样的过程。AWS可以轻松地将AgentCore的费用打包进你的EC2或Lambda账单里,让你感觉“它本来就是免费的”。在这种背景下,Anthropic作为一家模型公司,其核心资产是Claude模型本身。如果它的客户——那些购买Claude Token的企业——纷纷选择在AWS上运行他们的Claude代理,那么Anthropic就面临着一个严峻的问题:它只是一个被调用的“API”,而AWS才是掌控整个执行环境、用户关系和账单的“平台”。Managed Agents的推出,本质上就是Anthropic在自己的模型之上,构建一道“护城河”,确保客户在使用Claude时,必须经过Anthropic的托管层,从而牢牢抓住客户关系、数据洞察和最重要的—— 持续的Token收入

注意:这并非贬低Anthropic的技术。Managed Agents的架构确实精良,其“会话即事件日志”的设计比AgentCore更早、更彻底地贯彻了这一理念。但商业逻辑是冰冷的:当一个基础层(Runtime)开始被巨头以“免费”姿态提供时,任何独立厂商试图在此层建立壁垒的努力,都更像是在为自己的核心资产(模型)争取一个更可控的分发渠道,而非开创一个全新的、能长期盈利的品类。

3. 实操解析:如何从零开始定义并部署一个Claude Managed Agent

3.1 定义你的第一个Agent:YAML配置详解

Managed Agents的入口,是你用YAML文件写下的“代理契约”。这个文件定义了代理的“灵魂”:它是谁、能做什么、不能做什么。下面是一个为Notion团队构建的“会议纪要助手”的完整示例,我会逐行解释其含义。

# agent.yaml
name: "notion-meeting-minutes"
description: "An agent that listens to meeting audio, transcribes it, extracts action items, and writes them into a Notion page."

# 系统提示(System Prompt):这是代理的“人格设定”和核心指令
system_prompt: |
  You are a meticulous and professional meeting assistant.
  Your job is to:
  1. Listen to the provided meeting audio transcript.
  2. Identify all action items, including the task description, owner (person's name), and due date.
  3. Format the output as a clean, bulleted list in Markdown.
  4. If any information is ambiguous or missing, ask a single, clear clarifying question.

# 工具(Tools):定义代理可以调用的外部能力
tools:
  - name: "transcribe_audio"
    type: "aws_transcribe"
    description: "Transcribes an audio file from S3 into text."
    # 这里定义了该工具所需的输入参数
    input_schema:
      type: "object"
      properties:
        s3_uri:
          type: "string"
          description: "The S3 URI of the audio file to transcribe."
      required: ["s3_uri"]

  - name: "create_notion_page"
    type: "notion_api"
    description: "Creates a new page in a specified Notion database."
    input_schema:
      type: "object"
      properties:
        database_id:
          type: "string"
          description: "The ID of the Notion database where the page will be created."
        title:
          type: "string"
          description: "The title of the new page."
        content:
          type: "string"
          description: "The Markdown content for the page body."
      required: ["database_id", "title", "content"]

# 安全围栏(Guardrails):定义代理的“行为边界”
guardrails:
  # 内容安全:防止生成有害、违法或不道德的内容
  content_safety:
    enabled: true
    # 指定一个预训练的、针对企业内容的安全模型
    model: "anthropic-content-safety-v2"

  # 工具调用安全:防止代理调用未授权的工具
  tool_calling:
    allowed_tools: ["transcribe_audio", "create_notion_page"]
    # 明确禁止调用任何其他工具,包括系统内置的`web_search`
    disallowed_tools: ["web_search"]

  # 上下文长度:虽然会话日志是持久的,但单次模型调用仍受上下文限制
  context_length:
    max_tokens: 128000

这个YAML文件的精妙之处在于,它把原本需要分散在代码各处的逻辑,全部集中、声明式地表达了出来:

  • system_prompt 不再是硬编码在Python脚本里的字符串,而是一个可版本控制、可A/B测试的配置项。
  • tools input_schema 是一个严格的JSON Schema,它会在运行时自动校验传入的参数是否合法。比如,如果你忘了传 database_id ,Harness会直接报错,而不是让Notion API返回一个模糊的400错误。
  • guardrails 是真正的“护栏”,它不是事后审查,而是事前拦截。 disallowed_tools 这一行,就从根本上杜绝了代理在你不知情的情况下偷偷上网搜索的可能。

3.2 部署与集成:从CLI到Notion工作流

定义完YAML,下一步就是把它“上线”。Anthropic提供了命令行工具(CLI)和API两种方式。对于快速验证,CLI是最简单的。

第一步:安装并认证

# 安装Anthropic CLI
pip install anthropic-cli

# 使用你的Anthropic API Key进行认证
anthropic login --api-key sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

第二步:创建并部署Agent

# 创建一个新的Agent,指定YAML文件
anthropic agents create --file agent.yaml --name "Notion Meeting Minutes v1"

# 部署它(使其变为可调用状态)
anthropic agents deploy --name "Notion Meeting Minutes v1"

第三步:在Notion中集成(实操心得)

这才是真正考验工程能力的地方。Notion官方并不原生支持直接调用外部API,你需要借助一个“中间人”。我们团队选择了Zapier,因为它与Notion的集成最成熟,且支持自定义Webhook。

  1. 在Zapier中创建一个新Zap,触发器(Trigger)选择 “Notion - New Page in Database”,并选择你的“会议记录”数据库。
  2. 添加一个“Action”,选择 “Webhooks by Zapier - Custom Request”。
  3. 将HTTP Method设为 POST ,URL填写为Anthropic Managed Agents的调用Endpoint(格式为 https://api.anthropic.com/v1/agents/{agent_id}/sessions )。
  4. 在Headers里添加 X-API-Key: your_anthropic_api_key Content-Type: application/json
  5. 在Body里,用Zapier的模板语法,将Notion页面中的 audio_file_url 字段,映射到 {"input": {"s3_uri": "{{123456789.audio_file_url}}"}}

这个流程看似简单,但我们在实测中踩了几个坑:

  • 坑一:音频格式 。AWS Transcribe只支持特定的音频格式(如MP3, WAV, FLAC)。我们最初上传的是M4A文件,导致Transcribe一直失败。解决方案是在Zapier里加一个“Code by Zapier”步骤,用FFmpeg在线转码。
  • 坑二:权限传递 。Notion的 audio_file_url 是一个临时的、带签名的URL,有效期只有1小时。我们必须确保从Notion获取URL到Transcribe开始处理,整个链路要在1小时内完成。我们为此在Zapier里设置了超时重试机制。
  • 坑三:错误处理 。如果Transcribe失败(比如音频质量太差),整个Zap会中断,Notion页面里不会有任何反馈。我们最终在Zapier里加了一个“Path”分支,用 try/catch 逻辑捕获错误,并向Notion页面的 Status 属性写入“Transcription Failed”。

实操心得:Managed Agents的价值,在于它把最复杂的“状态管理”和“安全沙箱”交给了Anthropic,但它并没有消除集成的复杂性。你依然需要精通Zapier、AWS、Notion API等一整套工具链。它的定位是“核心引擎”,而不是“整车”。一个成熟的AI工作流,永远是“Managed Agent + 一套强大的集成胶水”。

3.3 定价模型与成本测算:$0.08/小时背后的精算

Anthropic的定价非常透明: $0.08 per session-hour of active runtime ,外加标准的Claude Token费用。但“session-hour”这个单位,需要仔细拆解,否则很容易误判成本。

  • 什么是“active runtime”? 它只计算Harness实际在执行代码的时间,不包括等待用户输入、等待工具API响应、或沙箱空闲的时间。例如,一个会话总时长为1小时,但其中Harness只活跃了5分钟(用于3次模型推理和2次工具调用),那么你只需支付 5/60 * 0.08 ≈ $0.0067

  • 成本构成分析(以一个典型会话为例)

    成本项 计算方式 示例金额 说明
    Session Runtime (Active Time in Minutes / 60) * $0.08 $0.0067 如上所述,仅计算CPU活跃时间
    Input Tokens Number of Input Tokens * $0.000003 $0.012 假设输入100K tokens(含系统提示、历史、工具返回)
    Output Tokens Number of Output Tokens * $0.000015 $0.0045 假设输出300 tokens
    Tool Call Fees Per Tool Call Fee $0.02 AWS Transcribe按分钟计费,Notion API免费
    总计 $0.0432 一次完整的会议纪要生成

这个价格对于一个企业级应用来说,是极具竞争力的。它比自建一套同等安全、可靠、可审计的代理系统,节省了至少80%的运维和安全合规成本。但要注意,它的成本是线性的、可预测的。而自建方案的成本曲线是陡峭的:前期投入巨大(开发、测试、安全审计),后期运维成本(监控、告警、升级)持续存在。Managed Agents则把这一切都变成了一个简单的、按用量付费的运营支出(OPEX)。

4. 生产级挑战与避坑指南:从理论到落地的残酷现实

4.1 常见问题速查表与根因分析

在将Managed Agents接入多个客户生产环境的过程中,我们遇到了一系列意料之中、却又不得不面对的问题。以下是整理出的高频问题速查表,附带了我们定位和解决的全过程。

问题现象 可能原因 排查思路 解决方案 实操心得
会话创建后立即失败,错误信息为 Failed to initialize sandbox 沙箱启动超时,或权限策略过于宽松/严格 1. 检查YAML中 guardrails.tool_calling.allowed_tools 是否包含你声明的工具名。
2. 查看Anthropic控制台的 Session Logs ,过滤 ERROR 级别日志,寻找 PermissionDenied 关键字。
严格遵循最小权限原则。例如,如果工具只需要读取S3,就不要授予 S3:PutObject 权限。 权限问题是最隐蔽的。Anthropic的错误信息有时不够明确,一定要养成第一时间查 Session Logs 的习惯。
工具调用返回 null 或空字符串,但工具本身在独立测试中是正常的 输入参数类型不匹配,或 input_schema 定义有误 1. 在 Session Logs 中找到该工具调用的 input 字段,复制出来。
2. 用 curl 命令,手动向该工具的API发送完全相同的 input ,观察返回。
仔细核对 input_schema 中的 type properties 。例如, s3_uri 必须是 string 类型,不能是 object input_schema 是你的第一道防线,也是最容易出错的地方。建议在开发阶段,用 jsonschema 库对你的YAML进行本地校验。
代理在长时间运行后,响应速度越来越慢,最终超时 会话日志过大,导致每次 awake(sessionId) 时,加载历史事件耗时过长 1. 在 Session Logs 中,查看 event 的数量和平均大小。
2. 检查 system_prompt ,确认是否要求模型“记住所有之前的对话”。
优化 system_prompt ,明确指示模型“无需重复回顾历史,只需关注本次输入”。
定期归档旧会话。
“会话即事件日志”是双刃剑。它保证了持久性,但也带来了性能开销。对于超长会话,必须有意识地做“历史剪枝”。
在Zapier中调用Agent,Zapier显示 Timeout ,但Anthropic控制台显示会话已成功创建 Zapier的默认超时时间(30秒)小于Managed Agent的首次响应时间 1. 在Zapier的Webhook设置中,将 Timeout 30 seconds 改为 120 seconds
2. 在 system_prompt 中,加入“请尽快给出初步响应,即使信息不全”的指令。
对于需要调用外部API(如Transcribe)的Agent,首次响应时间必然较长。必须调整上游集成方的超时设置。 不要假设所有集成方都和你一样了解AI的异步特性。超时设置是集成中最常被忽略的细节。

4.2 超越技术:组织与流程的适配

技术问题总有解法,但最大的挑战往往来自组织内部。当我们把Managed Agents引入一个大型金融客户的IT部门时,遭遇了意料之外的阻力。

  • 阻力一:安全团队的质疑 。“你们说凭证不进入沙箱,但我们怎么验证?” 我们的应对方案是,邀请安全团队的工程师,一起在Anthropic的沙箱环境中运行一个 print(os.environ) 的测试脚本。结果屏幕上只显示了 PATH LANG 等系统变量,没有任何 AWS_ACCESS_KEY 。这个直观的演示,比任何白皮书都有说服力。

  • 阻力二:采购流程的僵化 。“我们需要一个SOW(工作说明书)和SLA(服务等级协议)。” 这是云服务采购的常态。我们没有提供一份泛泛而谈的SLA,而是基于我们的真实数据,定制了一份《Managed Agents SLA承诺书》:承诺p95首token延迟<1.2秒,会话日志保留期≥90天,沙箱启动成功率≥99.95%。这份基于实测数据的承诺,最终打动了采购总监。

  • 阻力三:开发者的抵触 。“我们已经有了一套成熟的LangChain框架,为什么要换?” 这是最难攻克的心理堡垒。我们的策略是“渐进式替代”,而不是“推倒重来”。我们先用Managed Agents重构了客户最痛的一个子模块——“合同风险扫描”,将其作为一个独立的微服务接入现有LangChain流水线。当这个模块的准确率提升了15%,且运维告警减少了80%后,开发者们的态度,从“Why bother?” 变成了 “How do we do more?”。

注意:技术产品的推广,从来不是一场纯技术的较量。它是一场关于信任、数据和影响力的综合博弈。你提供的不仅是一个工具,更是一份可验证、可衡量、可融入现有流程的“确定性”。

5. 未来图景:当Runtime层归零,价值将流向何方?

5.1 价值迁移的三大高地

历史总是惊人的相似。当虚拟化技术(Hypervisor)从VMware的收费产品,变成AWS、GCP的免费基础设施时,价值并没有消失,它只是向上迁移了:从“管理硬件”迁移到了“管理配置”(Terraform)、“管理容器”(Kubernetes)、“管理应用”(Service Mesh)。AI Runtime层的压缩,正在重演这一幕。那么,价值将流向哪里?基于我们对市场一线的观察,有三个方向已经清晰可见。

第一高地:可追溯的“痕迹存储”(Trace Store)

当每个Agent的每一次思考、每一次工具调用、每一次决策,都被记录为一条结构化的事件日志时,“日志”本身就成了最有价值的资产。它不再是为了Debug,而是为了 审计、合规、复盘和持续学习

  • 审计与合规 :在金融、医疗等行业,监管机构的要求是“Show me the evidence”。当一个AI代理批准了一笔大额贷款,或诊断了一个罕见疾病,你必须能拿出完整的、不可篡改的决策链条。Braintrust的 Brainstore 、Arize的 Phoenix 、LangChain的 LangSmith ,都在争夺这个“系统记录”的位置。谁能提供最细粒度、最易查询、最符合GDPR/HIPAA等法规的日志存储,谁就掌握了通往企业采购清单的钥匙。

  • 复盘与学习 :一个优秀的销售代理,其价值不仅在于它能回答问题,更在于它能从每一次失败的销售对话中学习。这需要将数万条 event 日志,喂给一个专门的“Agent Retraining Engine”。而这个引擎的燃料,就是统一的、高质量的Trace Store。

第二高地:可编程的“治理策略”(Governance & Policy)

随着AI代理深入核心业务,企业最关心的问题不再是“它快不快”,而是“它能不能做?谁批准的?做了之后谁负责?”。这催生了一个全新的、急需填补的空白市场—— AI治理层

  • 策略即代码(Policy-as-Code) :就像Terraform用HCL定义基础设施一样,未来的AI治理,需要用一种声明式语言来定义策略。例如:
    policy "finance_agent_approval" {
      when = agent.name == "finance-approval" && tool.name == "transfer_funds"
      then = require_approval("finance-lead", "max_amount: $10000")
    }
    
    AWS AgentCore的Policy Controls已经迈出了第一步,但离真正的“可编程”还有距离。谁能提供一个强大、灵活、易于集成的策略引擎,谁就能成为AI时代的“防火墙”。

第三高地:可交付的“垂直智能体”(Vertical Agent Marketplaces)

当Runtime层变得像水电一样廉价和普遍时,企业的采购逻辑就会回归本质: 我买的是解决问题的能力,而不是运行它的机器 。Salesforce的 Agentforce ARR达到8亿美元,证明了这一点。企业愿意为一个能自动处理“保险理赔”的Agent付费,而不是为一个能运行这个Agent的“沙箱”付费。

  • 垂直市场的爆发 :我们已经看到,开源社区正在疯狂孵化垂直Agent。 ai-hedge-fund 专注于量化交易, pentagi 专注于渗透测试, healthcare-claims-agent (尚未开源,但已有多个初创公司在闭门开发)专注于医保报销。这些Agent的核心价值,在于它们对特定领域知识、流程、法规的深度编码。它们不是通用模型,而是“领域专家”。

  • 商业模式的转变 :未来的赢家,将是那些能将垂直Agent打包成SaaS产品,并直接与企业采购流程对接的公司。它们的合同里,不会再有“Runtime费用”这一项,取而代之的是“每处理1000份理赔单,收费$X”的清晰计费模式。

5.2 一个不容忽视的“奇点”:自我进化代理的监管临界点

最后,我想提一个正在逼近、却少有人认真讨论的“Force Function”—— 自我进化代理(Self-Improving Agents)

Sakana AI的“Darwin Gödel Machine”论文,展示了一个能通过阅读自身代码、理解任务目标、并自主重写代码来提升性能的Agent。它在SWE-bench(软件工程基准测试)上的表现,从20%提升到了50%。这听起来像是科幻,但它揭示了一个残酷的现实:当Agent不仅能执行任务,还能修改自己的“大脑”时, 沙箱和可观测性就不再是工程选项,而是法律和生存的必需品

  • 沙箱的终极意义 :一个能自我进化的Agent,其行为的不确定性是指数级增长的。一个没有严格沙箱的Agent,可能在优化自身代码的过程中,无意间打开了一个反向Shell,或者修改了自身的安全策略。此时,“沙箱”就从一个性能隔离层,变成了一个防止“失控”的物理屏障。

  • 痕迹存储的法律地位 :如果一个自我进化的Agent,在未经人类干预的情况下,做出了一个导致重大损失的决策,那么法庭上最关键的证据,就是那份完整的、不可篡改的 event 日志。它将不再是技术文档,而是具有法律效力的“电子证据”。谁能提供符合司法鉴定标准的Trace Store,谁就站在了价值链的最顶端。

Anthropic Managed Agents的发布,是一个信号,而不是终点。它标志着AI应用开发的重心,正从“如何让模型更聪明”,转向“如何让智能体更可靠、更安全、更可治理”。这是一场静默的革命,没有烟花,只有无数工程师在深夜的终端里,敲下 anthropic agents deploy 命令时,心中涌起的那一丝笃定:这一次,我们终于可以把精力,真正放在解决用户的问题上了。

更多推荐