什么是AgentKit

OpenAI推出AgentKit，加速企业智能体开发 2025年10月，OpenAI发布AgentKit工具集，帮助企业快速构建、部署和优化智能体（Agents）。该工具集包含三大核心组件： Agent Builder（测试版）：可视化拖拽界面，支持多智能体工作流设计，案例显示Ramp公司仅用数小时完成采购智能体开发； Connector Registry（限量测试）：集中管理企业数据连接，支持D

言之。

5447人浏览 · 2025-10-20 12:50:11

言之。 · 2025-10-20 12:50:11 发布

1. 一段话总结

2025年10月6日，OpenAI推出AgentKit——一套面向开发者和企业的完整工具集，用于构建、部署和优化智能体（Agents），解决了此前构建智能体时工具碎片化、需复杂编排、无版本控制、手动评估等问题；其核心组件包括Agent Builder（可视化画布，支持多智能体工作流创建与版本控制）、Connector Registry（集中管理数据与工具连接的控制台）、Chat Kit（快速嵌入定制化聊天式智能体界面的工具包），同时新增数据集、轨迹评分、自动提示词优化、第三方模型支持等评估功能，并扩展了强化微调（RFT） 能力（支持O4 - mini全量使用、GPT - 5私有测试版，新增自定义工具调用和自定义评分器）；目前Chat Kit和新评估功能已全面可用，Agent Builder处于测试阶段，Connector Registry正面向部分拥有全局管理控制台的用户测试，且所有工具均包含在标准API模型定价中，此前已有Klarna、Ramp等企业借助相关工具实现智能体高效落地。

在这里插入图片描述

2. 思维导图（mindmap）

## 核心背景
- 发布时间：2025年10月6日
- 发布主体：OpenAI
- 解决痛点：构建智能体时工具碎片化、无版本控制、需手动评估、前端开发耗时长
## 核心组件（AgentKit）
- Agent Builder
  - 功能：可视化画布（拖拽节点）、多智能体工作流版本控制、预览运行、内联评估配置
  - 优势：缩短开发周期（如Ramp从数月缩至数小时）、支持空白画布/预构建模板
  - 案例：Ramp（数小时构建采购智能体）、LY Corporation（2小时内构建工作助手智能体）
- Connector Registry
  - 功能：集中管理多工作区/组织数据与工具连接、整合ChatGPT与API数据源
  - 支持：Dropbox/Google Drive等预构建连接器、第三方MCP
  - 前提：需全局管理控制台（用于管理域名、SSO、多API组织）
- Chat Kit
  - 功能：嵌入聊天式智能体界面、支持流式响应/线程管理/品牌定制
  - 优势：缩短开发时间（如Canva节省2周时间，1小时内集成）
  - 案例：Canva（开发者社区支持智能体）、HubSpot（客户支持智能体）
## 核心能力扩展
- 评估功能（新增4项）
  - 数据集：从零构建智能体评估、支持自动评分器/人工标注扩展
  - 轨迹评分：端到端评估智能体工作流、自动评分定位不足
  - 自动提示词优化：基于人工标注/评分器输出生成优化提示词
  - 第三方模型支持：在OpenAI评估平台评估其他提供商模型
  - 案例：Carlyle（开发时间减少50%，智能体准确率提升30%）
- 强化微调（RFT）
  - 可用性：O4 - mini全量可用、GPT - 5私有测试版
  - 新增功能：自定义工具调用（精准调用工具提升推理）、自定义评分器（设置核心评估标准）
## 定价与可用性
- 已全面可用：Chat Kit、新评估功能
- 测试阶段：Agent Builder（Beta）、Connector Registry（面向部分用户Beta推送）
- 定价：所有工具包含在标准API模型定价中
- 未来计划：新增独立工作流API、ChatGPT智能体部署选项
## 客户案例（此前落地）
- Klarna：构建支持智能体，处理2/3工单
- Clay：通过销售智能体实现10倍增长

3. 详细总结

一、发布背景与核心定位

发布基础信息：OpenAI于2025年10月6日正式推出AgentKit，定位为面向开发者和企业的“智能体全生命周期工具集”，旨在解决此前构建智能体的核心痛点。
痛点解决：此前构建智能体需应对工具碎片化问题，包括复杂编排无版本控制、需自定义连接器、手动评估流程、提示词调优繁琐，且上线前需数周前端开发，AgentKit通过整合工具实现效率提升。
前期基础：自2025年3月发布Responses API和Agents SDK后，已有企业落地案例，如Klarna构建的支持智能体处理2/3工单，Clay通过销售智能体实现10倍增长；AgentKit基于Responses API进一步优化，提升智能体构建的效率与可靠性。

二、AgentKit核心组件详情

组件名称	核心功能	关键优势	落地案例
Agent Builder	1. 可视化画布：支持拖拽节点组合逻辑、连接工具、配置自定义安全护栏 2. 版本管理：全量版本控制，支持预览运行、内联评估配置 3. 启动方式：空白画布或预构建模板	1. 缩短开发周期：将数月工作量压缩至数小时（如Ramp） 2. 跨团队协作：让产品、法务、工程团队协同，迭代周期减少70% 3. 快速上线：支持智能体在2个冲刺周期（而非2个季度）内上线	1. Ramp：从空白画布起步，数小时内构建采购智能体 2. LY Corporation（日本科技企业）：2小时内构建多智能体工作流的工作助手智能体
Connector Registry	1. 集中管理：企业级数据与工具连接管理，覆盖多工作区和组织 2. 数据源整合：在单一管理面板中整合ChatGPT与API的数据源 3. 连接器支持：包含Dropbox、Google Drive、SharePoint、Microsoft Teams等预构建连接器，及第三方MCP	1. 统一管控：避免数据分散，简化跨产品数据流转 2. 前提条件：需启用全局管理控制台（用于管理域名、SSO、多API组织）	- 暂未提及具体企业案例，处于Beta逐步推送阶段
Chat Kit	1. 界面嵌入：快速将聊天式智能体界面嵌入应用或网站 2. 功能支持：处理流式响应、管理对话线程、显示模型思考过程 3. 定制化：支持匹配产品主题或品牌风格	1. 大幅缩短开发时间：减少数周前端工作量（如Canva节省2周） 2. 快速集成：部分场景可1小时内完成集成	1. Canva：为开发者社区构建支持智能体，节省2周开发时间，1小时内完成集成 2. HubSpot：用于构建客户支持智能体，优化客户服务流程

三、核心能力扩展（评估与微调）

1. 评估功能升级（新增4项核心能力）

数据集（Datasets）：支持从零构建智能体评估体系，可通过自动评分器和人工标注逐步扩展评估范围，解决评估数据匮乏问题。
轨迹评分（Trace Grading）：对智能体工作流进行端到端评估，通过自动化评分精准定位工作流中的不足（如工具调用错误、逻辑漏洞），减少人工评估成本。
自动提示词优化（Automated Prompt Optimization）：基于人工标注结果和评分器输出，自动生成优化后的提示词，提升智能体响应准确性，无需手动反复调优。
第三方模型支持（Third - Party Model Support）：允许在OpenAI评估平台内评估其他提供商的模型，方便开发者对比不同模型在特定场景下的表现，选择更适配的模型。
企业案例：Carlyle（凯雷集团）借助该评估平台，将多智能体尽职调查框架的开发时间减少50%，同时使智能体准确率提升30%。

2. 强化微调（RFT）能力扩展

基础可用性：
- O4 - mini：强化微调功能已全面可用，开发者可直接用于定制推理模型。
- GPT - 5：强化微调处于私有测试版阶段，OpenAI正与数十家客户合作优化，后续将逐步扩大使用范围。
新增功能：
- 自定义工具调用：训练模型在合适时机调用正确工具，提升复杂任务的推理能力（如自动判断何时调用数据库查询工具、数据分析工具）。
- 自定义评分器：允许开发者根据自身业务场景设置核心评估标准（如客户支持智能体的“响应满意度”“问题解决率”），使微调更贴合实际需求。

四、定价与可用性说明

工具/功能	可用性状态	备注
Chat Kit	全面可用（Generally Available）	所有开发者均可使用，包含在标准API模型定价中
新评估功能（数据集、轨迹评分等）	全面可用（Generally Available）	同上，无需额外付费
Agent Builder	Beta测试阶段	已开放使用，功能持续迭代
Connector Registry	Beta逐步推送	仅面向拥有全局管理控制台的用户（API用户、ChatGPT企业版/教育版用户），需先启用控制台
全局管理控制台	前置条件	用于管理域名、SSO、多API组织，是启用Connector Registry的必要条件
未来计划	-	1. 新增独立工作流API 2. 为ChatGPT添加智能体部署选项

4. 关键问题

问题1：AgentKit包含哪些核心组件？各组件的核心价值与当前可用性分别是什么？

答案

AgentKit包含三大核心组件，具体信息如下：

组件名称	核心价值	当前可用性
Agent Builder	1. 可视化拖拽画布降低多智能体工作流构建难度，支持版本控制与预览 2. 跨团队协作效率提升，迭代周期缩短70% 3. 数小时内完成原本需数月的开发（如Ramp案例）	Beta测试阶段
Connector Registry	1. 集中管理多工作区/组织的数据源与工具连接，避免数据碎片化 2. 整合ChatGPT与API的连接器（含Dropbox等预构建选项）	Beta逐步推送，仅面向拥有“全局管理控制台”的用户
Chat Kit	1. 1小时内完成聊天式智能体界面嵌入，节省2周前端开发时间（如Canva案例） 2. 支持流式响应、品牌定制，适配应用/网站场景	全面可用

问题2：OpenAI为AgentKit新增的评估功能有哪些？这些功能能为企业带来什么实际效益？

答案

新增的4项评估功能：
- 数据集：从零构建评估体系，支持自动评分器与人工标注扩展；
- 轨迹评分：端到端评估智能体工作流，自动定位不足；
- 自动提示词优化：基于标注/评分结果生成优化提示词；
- 第三方模型支持：在OpenAI平台评估其他厂商模型。
企业实际效益：
- 降低开发成本：减少人工评估与提示词调优的时间投入，如Carlyle借助该功能将多智能体开发时间减少50%；
- 提升智能体质量：通过精准评估与优化，Carlyle的智能体准确率提升30%；
- 增强灵活性：支持第三方模型评估，帮助企业选择更适配业务的模型，避免单一模型依赖。

问题3：强化微调（RFT）在AgentKit中的定位是什么？其可用性与新增功能如何帮助开发者优化智能体性能？

答案

RFT的定位：是AgentKit中用于“定制OpenAI推理模型”的核心能力，帮助开发者根据业务场景调整模型行为，提升智能体在特定任务中的表现。
可用性：
- O4 - mini：强化微调功能已全面可用，所有开发者可直接使用；
- GPT - 5：处于私有测试版阶段，OpenAI正与数十家客户合作优化，后续将扩大使用范围。
新增功能对性能优化的帮助：
- 自定义工具调用：训练模型“在正确时机调用正确工具”（如自动触发数据分析工具处理复杂计算），避免工具滥用或遗漏，提升推理准确性；
- 自定义评分器：允许开发者设置贴合业务的评估标准（如电商智能体的“订单转化率”“客户咨询解决率”），使微调方向更聚焦核心目标，避免通用微调与业务需求脱节。

北京朝阳AI社区

更多推荐

基于强化学习的自适应推理策略动态优化

随着人工智能技术的不断发展，在诸多复杂场景下，如自动驾驶、智能机器人控制、金融交易决策等，需要系统能够根据实时变化的环境信息进行高效、准确的推理和决策。传统的静态推理策略难以适应动态变化的环境，而基于强化学习的自适应推理策略动态优化技术应运而生。本文的目的在于全面深入地介绍这一技术，涵盖从核心概念、算法原理、数学模型到实际应用等多个方面，旨在为读者提供一个系统的知识体系，帮助他们理解和掌握该技术，