什么是AgentKit
OpenAI推出AgentKit,加速企业智能体开发 2025年10月,OpenAI发布AgentKit工具集,帮助企业快速构建、部署和优化智能体(Agents)。该工具集包含三大核心组件: Agent Builder(测试版):可视化拖拽界面,支持多智能体工作流设计,案例显示Ramp公司仅用数小时完成采购智能体开发; Connector Registry(限量测试):集中管理企业数据连接,支持D
·
1. 一段话总结
2025年10月6日,OpenAI推出AgentKit——一套面向开发者和企业的完整工具集,用于构建、部署和优化智能体(Agents),解决了此前构建智能体时工具碎片化、需复杂编排、无版本控制、手动评估等问题;其核心组件包括Agent Builder(可视化画布,支持多智能体工作流创建与版本控制)、Connector Registry(集中管理数据与工具连接的控制台)、Chat Kit(快速嵌入定制化聊天式智能体界面的工具包),同时新增数据集、轨迹评分、自动提示词优化、第三方模型支持等评估功能,并扩展了强化微调(RFT) 能力(支持O4 - mini全量使用、GPT - 5私有测试版,新增自定义工具调用和自定义评分器);目前Chat Kit和新评估功能已全面可用,Agent Builder处于测试阶段,Connector Registry正面向部分拥有全局管理控制台的用户测试,且所有工具均包含在标准API模型定价中,此前已有Klarna、Ramp等企业借助相关工具实现智能体高效落地。

2. 思维导图(mindmap)
## 核心背景
- 发布时间:2025年10月6日
- 发布主体:OpenAI
- 解决痛点:构建智能体时工具碎片化、无版本控制、需手动评估、前端开发耗时长
## 核心组件(AgentKit)
- Agent Builder
- 功能:可视化画布(拖拽节点)、多智能体工作流版本控制、预览运行、内联评估配置
- 优势:缩短开发周期(如Ramp从数月缩至数小时)、支持空白画布/预构建模板
- 案例:Ramp(数小时构建采购智能体)、LY Corporation(2小时内构建工作助手智能体)
- Connector Registry
- 功能:集中管理多工作区/组织数据与工具连接、整合ChatGPT与API数据源
- 支持:Dropbox/Google Drive等预构建连接器、第三方MCP
- 前提:需全局管理控制台(用于管理域名、SSO、多API组织)
- Chat Kit
- 功能:嵌入聊天式智能体界面、支持流式响应/线程管理/品牌定制
- 优势:缩短开发时间(如Canva节省2周时间,1小时内集成)
- 案例:Canva(开发者社区支持智能体)、HubSpot(客户支持智能体)
## 核心能力扩展
- 评估功能(新增4项)
- 数据集:从零构建智能体评估、支持自动评分器/人工标注扩展
- 轨迹评分:端到端评估智能体工作流、自动评分定位不足
- 自动提示词优化:基于人工标注/评分器输出生成优化提示词
- 第三方模型支持:在OpenAI评估平台评估其他提供商模型
- 案例:Carlyle(开发时间减少50%,智能体准确率提升30%)
- 强化微调(RFT)
- 可用性:O4 - mini全量可用、GPT - 5私有测试版
- 新增功能:自定义工具调用(精准调用工具提升推理)、自定义评分器(设置核心评估标准)
## 定价与可用性
- 已全面可用:Chat Kit、新评估功能
- 测试阶段:Agent Builder(Beta)、Connector Registry(面向部分用户Beta推送)
- 定价:所有工具包含在标准API模型定价中
- 未来计划:新增独立工作流API、ChatGPT智能体部署选项
## 客户案例(此前落地)
- Klarna:构建支持智能体,处理2/3工单
- Clay:通过销售智能体实现10倍增长
3. 详细总结
一、发布背景与核心定位
- 发布基础信息:OpenAI于2025年10月6日正式推出AgentKit,定位为面向开发者和企业的“智能体全生命周期工具集”,旨在解决此前构建智能体的核心痛点。
- 痛点解决:此前构建智能体需应对工具碎片化问题,包括复杂编排无版本控制、需自定义连接器、手动评估流程、提示词调优繁琐,且上线前需数周前端开发,AgentKit通过整合工具实现效率提升。
- 前期基础:自2025年3月发布Responses API和Agents SDK后,已有企业落地案例,如Klarna构建的支持智能体处理2/3工单,Clay通过销售智能体实现10倍增长;AgentKit基于Responses API进一步优化,提升智能体构建的效率与可靠性。
二、AgentKit核心组件详情
| 组件名称 | 核心功能 | 关键优势 | 落地案例 |
|---|---|---|---|
| Agent Builder | 1. 可视化画布:支持拖拽节点组合逻辑、连接工具、配置自定义安全护栏 2. 版本管理:全量版本控制,支持预览运行、内联评估配置 3. 启动方式:空白画布或预构建模板 |
1. 缩短开发周期:将数月工作量压缩至数小时(如Ramp) 2. 跨团队协作:让产品、法务、工程团队协同,迭代周期减少70% 3. 快速上线:支持智能体在2个冲刺周期(而非2个季度)内上线 |
1. Ramp:从空白画布起步,数小时内构建采购智能体 2. LY Corporation(日本科技企业):2小时内构建多智能体工作流的工作助手智能体 |
| Connector Registry | 1. 集中管理:企业级数据与工具连接管理,覆盖多工作区和组织 2. 数据源整合:在单一管理面板中整合ChatGPT与API的数据源 3. 连接器支持:包含Dropbox、Google Drive、SharePoint、Microsoft Teams等预构建连接器,及第三方MCP |
1. 统一管控:避免数据分散,简化跨产品数据流转 2. 前提条件:需启用全局管理控制台(用于管理域名、SSO、多API组织) |
- 暂未提及具体企业案例,处于Beta逐步推送阶段 |
| Chat Kit | 1. 界面嵌入:快速将聊天式智能体界面嵌入应用或网站 2. 功能支持:处理流式响应、管理对话线程、显示模型思考过程 3. 定制化:支持匹配产品主题或品牌风格 |
1. 大幅缩短开发时间:减少数周前端工作量(如Canva节省2周) 2. 快速集成:部分场景可1小时内完成集成 |
1. Canva:为开发者社区构建支持智能体,节省2周开发时间,1小时内完成集成 2. HubSpot:用于构建客户支持智能体,优化客户服务流程 |
三、核心能力扩展(评估与微调)
1. 评估功能升级(新增4项核心能力)
- 数据集(Datasets):支持从零构建智能体评估体系,可通过自动评分器和人工标注逐步扩展评估范围,解决评估数据匮乏问题。
- 轨迹评分(Trace Grading):对智能体工作流进行端到端评估,通过自动化评分精准定位工作流中的不足(如工具调用错误、逻辑漏洞),减少人工评估成本。
- 自动提示词优化(Automated Prompt Optimization):基于人工标注结果和评分器输出,自动生成优化后的提示词,提升智能体响应准确性,无需手动反复调优。
- 第三方模型支持(Third - Party Model Support):允许在OpenAI评估平台内评估其他提供商的模型,方便开发者对比不同模型在特定场景下的表现,选择更适配的模型。
- 企业案例:Carlyle(凯雷集团)借助该评估平台,将多智能体尽职调查框架的开发时间减少50%,同时使智能体准确率提升30%。
2. 强化微调(RFT)能力扩展
- 基础可用性:
- O4 - mini:强化微调功能已全面可用,开发者可直接用于定制推理模型。
- GPT - 5:强化微调处于私有测试版阶段,OpenAI正与数十家客户合作优化,后续将逐步扩大使用范围。
- 新增功能:
- 自定义工具调用:训练模型在合适时机调用正确工具,提升复杂任务的推理能力(如自动判断何时调用数据库查询工具、数据分析工具)。
- 自定义评分器:允许开发者根据自身业务场景设置核心评估标准(如客户支持智能体的“响应满意度”“问题解决率”),使微调更贴合实际需求。
四、定价与可用性说明
| 工具/功能 | 可用性状态 | 备注 |
|---|---|---|
| Chat Kit | 全面可用(Generally Available) | 所有开发者均可使用,包含在标准API模型定价中 |
| 新评估功能(数据集、轨迹评分等) | 全面可用(Generally Available) | 同上,无需额外付费 |
| Agent Builder | Beta测试阶段 | 已开放使用,功能持续迭代 |
| Connector Registry | Beta逐步推送 | 仅面向拥有全局管理控制台的用户(API用户、ChatGPT企业版/教育版用户),需先启用控制台 |
| 全局管理控制台 | 前置条件 | 用于管理域名、SSO、多API组织,是启用Connector Registry的必要条件 |
| 未来计划 | - | 1. 新增独立工作流API 2. 为ChatGPT添加智能体部署选项 |
4. 关键问题
问题1:AgentKit包含哪些核心组件?各组件的核心价值与当前可用性分别是什么?
答案
AgentKit包含三大核心组件,具体信息如下:
| 组件名称 | 核心价值 | 当前可用性 |
|---|---|---|
| Agent Builder | 1. 可视化拖拽画布降低多智能体工作流构建难度,支持版本控制与预览 2. 跨团队协作效率提升,迭代周期缩短70% 3. 数小时内完成原本需数月的开发(如Ramp案例) |
Beta测试阶段 |
| Connector Registry | 1. 集中管理多工作区/组织的数据源与工具连接,避免数据碎片化 2. 整合ChatGPT与API的连接器(含Dropbox等预构建选项) |
Beta逐步推送,仅面向拥有“全局管理控制台”的用户 |
| Chat Kit | 1. 1小时内完成聊天式智能体界面嵌入,节省2周前端开发时间(如Canva案例) 2. 支持流式响应、品牌定制,适配应用/网站场景 |
全面可用 |
问题2:OpenAI为AgentKit新增的评估功能有哪些?这些功能能为企业带来什么实际效益?
答案
- 新增的4项评估功能:
- 数据集:从零构建评估体系,支持自动评分器与人工标注扩展;
- 轨迹评分:端到端评估智能体工作流,自动定位不足;
- 自动提示词优化:基于标注/评分结果生成优化提示词;
- 第三方模型支持:在OpenAI平台评估其他厂商模型。
- 企业实际效益:
- 降低开发成本:减少人工评估与提示词调优的时间投入,如Carlyle借助该功能将多智能体开发时间减少50%;
- 提升智能体质量:通过精准评估与优化,Carlyle的智能体准确率提升30%;
- 增强灵活性:支持第三方模型评估,帮助企业选择更适配业务的模型,避免单一模型依赖。
问题3:强化微调(RFT)在AgentKit中的定位是什么?其可用性与新增功能如何帮助开发者优化智能体性能?
答案
- RFT的定位:是AgentKit中用于“定制OpenAI推理模型”的核心能力,帮助开发者根据业务场景调整模型行为,提升智能体在特定任务中的表现。
- 可用性:
- O4 - mini:强化微调功能已全面可用,所有开发者可直接使用;
- GPT - 5:处于私有测试版阶段,OpenAI正与数十家客户合作优化,后续将扩大使用范围。
- 新增功能对性能优化的帮助:
- 自定义工具调用:训练模型“在正确时机调用正确工具”(如自动触发数据分析工具处理复杂计算),避免工具滥用或遗漏,提升推理准确性;
- 自定义评分器:允许开发者设置贴合业务的评估标准(如电商智能体的“订单转化率”“客户咨询解决率”),使微调方向更聚焦核心目标,避免通用微调与业务需求脱节。
更多推荐


所有评论(0)