1. 一段话总结

2025年10月6日,OpenAI推出AgentKit——一套面向开发者和企业的完整工具集,用于构建、部署和优化智能体(Agents),解决了此前构建智能体时工具碎片化、需复杂编排、无版本控制、手动评估等问题;其核心组件包括Agent Builder(可视化画布,支持多智能体工作流创建与版本控制)、Connector Registry(集中管理数据与工具连接的控制台)、Chat Kit(快速嵌入定制化聊天式智能体界面的工具包),同时新增数据集、轨迹评分、自动提示词优化、第三方模型支持等评估功能,并扩展了强化微调(RFT) 能力(支持O4 - mini全量使用、GPT - 5私有测试版,新增自定义工具调用和自定义评分器);目前Chat Kit和新评估功能已全面可用,Agent Builder处于测试阶段,Connector Registry正面向部分拥有全局管理控制台的用户测试,且所有工具均包含在标准API模型定价中,此前已有Klarna、Ramp等企业借助相关工具实现智能体高效落地。

在这里插入图片描述


2. 思维导图(mindmap)

## 核心背景
- 发布时间:2025年10月6日
- 发布主体:OpenAI
- 解决痛点:构建智能体时工具碎片化、无版本控制、需手动评估、前端开发耗时长
## 核心组件(AgentKit)
- Agent Builder
  - 功能:可视化画布(拖拽节点)、多智能体工作流版本控制、预览运行、内联评估配置
  - 优势:缩短开发周期(如Ramp从数月缩至数小时)、支持空白画布/预构建模板
  - 案例:Ramp(数小时构建采购智能体)、LY Corporation(2小时内构建工作助手智能体)
- Connector Registry
  - 功能:集中管理多工作区/组织数据与工具连接、整合ChatGPT与API数据源
  - 支持:Dropbox/Google Drive等预构建连接器、第三方MCP
  - 前提:需全局管理控制台(用于管理域名、SSO、多API组织)
- Chat Kit
  - 功能:嵌入聊天式智能体界面、支持流式响应/线程管理/品牌定制
  - 优势:缩短开发时间(如Canva节省2周时间,1小时内集成)
  - 案例:Canva(开发者社区支持智能体)、HubSpot(客户支持智能体)
## 核心能力扩展
- 评估功能(新增4项)
  - 数据集:从零构建智能体评估、支持自动评分器/人工标注扩展
  - 轨迹评分:端到端评估智能体工作流、自动评分定位不足
  - 自动提示词优化:基于人工标注/评分器输出生成优化提示词
  - 第三方模型支持:在OpenAI评估平台评估其他提供商模型
  - 案例:Carlyle(开发时间减少50%,智能体准确率提升30%)
- 强化微调(RFT)
  - 可用性:O4 - mini全量可用、GPT - 5私有测试版
  - 新增功能:自定义工具调用(精准调用工具提升推理)、自定义评分器(设置核心评估标准)
## 定价与可用性
- 已全面可用:Chat Kit、新评估功能
- 测试阶段:Agent Builder(Beta)、Connector Registry(面向部分用户Beta推送)
- 定价:所有工具包含在标准API模型定价中
- 未来计划:新增独立工作流API、ChatGPT智能体部署选项
## 客户案例(此前落地)
- Klarna:构建支持智能体,处理2/3工单
- Clay:通过销售智能体实现10倍增长

3. 详细总结

一、发布背景与核心定位

  1. 发布基础信息:OpenAI于2025年10月6日正式推出AgentKit,定位为面向开发者和企业的“智能体全生命周期工具集”,旨在解决此前构建智能体的核心痛点。
  2. 痛点解决:此前构建智能体需应对工具碎片化问题,包括复杂编排无版本控制、需自定义连接器、手动评估流程、提示词调优繁琐,且上线前需数周前端开发,AgentKit通过整合工具实现效率提升。
  3. 前期基础:自2025年3月发布Responses API和Agents SDK后,已有企业落地案例,如Klarna构建的支持智能体处理2/3工单,Clay通过销售智能体实现10倍增长;AgentKit基于Responses API进一步优化,提升智能体构建的效率与可靠性。

二、AgentKit核心组件详情

组件名称 核心功能 关键优势 落地案例
Agent Builder 1. 可视化画布:支持拖拽节点组合逻辑、连接工具、配置自定义安全护栏
2. 版本管理:全量版本控制,支持预览运行、内联评估配置
3. 启动方式:空白画布或预构建模板
1. 缩短开发周期:将数月工作量压缩至数小时(如Ramp)
2. 跨团队协作:让产品、法务、工程团队协同,迭代周期减少70%
3. 快速上线:支持智能体在2个冲刺周期(而非2个季度)内上线
1. Ramp:从空白画布起步,数小时内构建采购智能体
2. LY Corporation(日本科技企业):2小时内构建多智能体工作流的工作助手智能体
Connector Registry 1. 集中管理:企业级数据与工具连接管理,覆盖多工作区和组织
2. 数据源整合:在单一管理面板中整合ChatGPT与API的数据源
3. 连接器支持:包含Dropbox、Google Drive、SharePoint、Microsoft Teams等预构建连接器,及第三方MCP
1. 统一管控:避免数据分散,简化跨产品数据流转
2. 前提条件:需启用全局管理控制台(用于管理域名、SSO、多API组织)
- 暂未提及具体企业案例,处于Beta逐步推送阶段
Chat Kit 1. 界面嵌入:快速将聊天式智能体界面嵌入应用或网站
2. 功能支持:处理流式响应、管理对话线程、显示模型思考过程
3. 定制化:支持匹配产品主题或品牌风格
1. 大幅缩短开发时间:减少数周前端工作量(如Canva节省2周)
2. 快速集成:部分场景可1小时内完成集成
1. Canva:为开发者社区构建支持智能体,节省2周开发时间,1小时内完成集成
2. HubSpot:用于构建客户支持智能体,优化客户服务流程

三、核心能力扩展(评估与微调)

1. 评估功能升级(新增4项核心能力)

  • 数据集(Datasets):支持从零构建智能体评估体系,可通过自动评分器和人工标注逐步扩展评估范围,解决评估数据匮乏问题。
  • 轨迹评分(Trace Grading):对智能体工作流进行端到端评估,通过自动化评分精准定位工作流中的不足(如工具调用错误、逻辑漏洞),减少人工评估成本。
  • 自动提示词优化(Automated Prompt Optimization):基于人工标注结果和评分器输出,自动生成优化后的提示词,提升智能体响应准确性,无需手动反复调优。
  • 第三方模型支持(Third - Party Model Support):允许在OpenAI评估平台内评估其他提供商的模型,方便开发者对比不同模型在特定场景下的表现,选择更适配的模型。
  • 企业案例Carlyle(凯雷集团)借助该评估平台,将多智能体尽职调查框架的开发时间减少50%,同时使智能体准确率提升30%。

2. 强化微调(RFT)能力扩展

  • 基础可用性
    • O4 - mini:强化微调功能已全面可用,开发者可直接用于定制推理模型。
    • GPT - 5:强化微调处于私有测试版阶段,OpenAI正与数十家客户合作优化,后续将逐步扩大使用范围。
  • 新增功能
    • 自定义工具调用:训练模型在合适时机调用正确工具,提升复杂任务的推理能力(如自动判断何时调用数据库查询工具、数据分析工具)。
    • 自定义评分器:允许开发者根据自身业务场景设置核心评估标准(如客户支持智能体的“响应满意度”“问题解决率”),使微调更贴合实际需求。

四、定价与可用性说明

工具/功能 可用性状态 备注
Chat Kit 全面可用(Generally Available) 所有开发者均可使用,包含在标准API模型定价中
新评估功能(数据集、轨迹评分等) 全面可用(Generally Available) 同上,无需额外付费
Agent Builder Beta测试阶段 已开放使用,功能持续迭代
Connector Registry Beta逐步推送 仅面向拥有全局管理控制台的用户(API用户、ChatGPT企业版/教育版用户),需先启用控制台
全局管理控制台 前置条件 用于管理域名、SSO、多API组织,是启用Connector Registry的必要条件
未来计划 - 1. 新增独立工作流API
2. 为ChatGPT添加智能体部署选项

4. 关键问题

问题1:AgentKit包含哪些核心组件?各组件的核心价值与当前可用性分别是什么?

答案

AgentKit包含三大核心组件,具体信息如下:

组件名称 核心价值 当前可用性
Agent Builder 1. 可视化拖拽画布降低多智能体工作流构建难度,支持版本控制与预览
2. 跨团队协作效率提升,迭代周期缩短70%
3. 数小时内完成原本需数月的开发(如Ramp案例)
Beta测试阶段
Connector Registry 1. 集中管理多工作区/组织的数据源与工具连接,避免数据碎片化
2. 整合ChatGPT与API的连接器(含Dropbox等预构建选项)
Beta逐步推送,仅面向拥有“全局管理控制台”的用户
Chat Kit 1. 1小时内完成聊天式智能体界面嵌入,节省2周前端开发时间(如Canva案例)
2. 支持流式响应、品牌定制,适配应用/网站场景
全面可用

问题2:OpenAI为AgentKit新增的评估功能有哪些?这些功能能为企业带来什么实际效益?

答案

  1. 新增的4项评估功能
    • 数据集:从零构建评估体系,支持自动评分器与人工标注扩展;
    • 轨迹评分:端到端评估智能体工作流,自动定位不足;
    • 自动提示词优化:基于标注/评分结果生成优化提示词;
    • 第三方模型支持:在OpenAI平台评估其他厂商模型。
  2. 企业实际效益
    • 降低开发成本:减少人工评估与提示词调优的时间投入,如Carlyle借助该功能将多智能体开发时间减少50%;
    • 提升智能体质量:通过精准评估与优化,Carlyle的智能体准确率提升30%;
    • 增强灵活性:支持第三方模型评估,帮助企业选择更适配业务的模型,避免单一模型依赖。

问题3:强化微调(RFT)在AgentKit中的定位是什么?其可用性与新增功能如何帮助开发者优化智能体性能?

答案

  1. RFT的定位:是AgentKit中用于“定制OpenAI推理模型”的核心能力,帮助开发者根据业务场景调整模型行为,提升智能体在特定任务中的表现。
  2. 可用性
    • O4 - mini:强化微调功能已全面可用,所有开发者可直接使用;
    • GPT - 5:处于私有测试版阶段,OpenAI正与数十家客户合作优化,后续将扩大使用范围。
  3. 新增功能对性能优化的帮助
    • 自定义工具调用:训练模型“在正确时机调用正确工具”(如自动触发数据分析工具处理复杂计算),避免工具滥用或遗漏,提升推理准确性;
    • 自定义评分器:允许开发者设置贴合业务的评估标准(如电商智能体的“订单转化率”“客户咨询解决率”),使微调方向更聚焦核心目标,避免通用微调与业务需求脱节。
Logo

更多推荐