LangChain框架中Agent类型的总体认识

追求与 OpenAI 模型的最佳集成和工具调用的准确性：create_openai_functions_agent或 create_tool_calling_agent是首选，尤其是 create_tool_calling_agent，它代表了更新的设计思路。需要模型推理透明化、使用非 OpenAI 模型或处理复杂推理任务：create_react_agent非常合适，它能提供清晰的决策链条。

左越_730

699人浏览 · 2025-09-25 17:56:17

左越_730 · 2025-09-25 17:56:17 发布

LangChain框架中Agent类型的总体认识

以下基于langchain==0.3.27，需要安装pip install langchain langchain-openai

LangChain作为AI应用开发的重要框架，其提供了多种不同思维链模式的Agent。本文就这个主题，将每种模式进行对比，以便在开发中更合适的选择。

create_openai_functions_agent 和 create_react_agent

create_openai_functions_agent 和 create_react_agent是两种不同的智能体（Agent）实现方式，它们各有特点，适用于不同的场景。

特性维度	create_openai_functions_agent	create_react_agent
核心机制	利用 OpenAI 模型的原生函数调用能力	遵循 “思考-行动-观察”（Reason-Act-Observe）的循环推理模式
输出格式	JSON 格式的函数调用请求	自然语言文本，明确包含 “Thought:”, “Action:”, “Observation:” 等步骤
适用模型	专为 OpenAI 模型（如 GPT-3.5-turbo, GPT-4）设计	理论上可适配任何足够强大的语言模型（包括开源模型）
推理过程透明度	较低，模型内部决定函数调用，不显式输出推理步骤	较高，完整的思考过程和工具调用结果清晰可见，便于调试和理解
错误处理	函数调用格式标准化，解析错误较少	输出为文本，可能需要更强的解析和错误处理机制（如正则表达式匹配）
典型适用场景	需要与 OpenAI 生态紧密集成、要求高精度工具调用的应用	复杂推理任务、需要透明化决策过程或使用非 OpenAI 模型的场景

简单来说：

OpenAI Functions Agent 更专注于利用 OpenAI 模型的原生能力，调用精确，但过程像“黑盒”。
ReAct Agent 则强调一步步的推理和行动，过程透明，灵活性强，更像是在看一个AI的“思考笔记”。

Plan-and-Execute Agent 与 create_react_agent

Plan-and-Execute 和基于 ReAct 的 create_react_agent是构建大模型智能体（Agent）的两种不同架构范式，它们在处理任务的方式上有着本质的区别。

特性维度	Plan-and-Execute (规划执行) Agent	ReAct (思考行动) Agent (如 create_react_agent)
核心哲学	先规划，后执行。像项目经理，先制定完整计划，再按部就班执行。	边思考，边行动。像侦探破案，一步步推理、执行、观察并调整。
工作流程	清晰的两个阶段：规划阶段 → 执行阶段（可能含重规划）。	循环迭代的单一阶段：Thought → Action → Observation → … → Final Answer。
决策方式	集中式规划。由规划器（Planner）生成全局计划，执行器（Executor）遵循计划。	分布式决策。Agent 自己在每个循环中决定下一步做什么。
任务适应性	更擅长复杂、多步骤、子任务间有依赖且流程相对可预测的任务。	更擅长探索性、信息不全、需实时调整或目标相对简单的任务。
资源与成本	规划阶段可能消耗较多Token，但执行阶段调用次数可能更少，总成本取决于计划复杂度。	LLM调用次数多（每步都需思考），Token消耗和API调用成本随步骤增加而上升，延迟较高。
透明度与可控性	全局计划清晰可见，易于人类审查、干预和优化整体流程。	逐步推理过程可见，便于调试单步决策，但整体路径难以预知。
错误处理与鲁棒性	若初始计划有缺陷或遇意外，依赖重规划机制（Replanner）调整，否则可能失败。	能根据观察即时调整下一步行动，对意外和变化的适应性较强。
典型应用场景	生成深度分析报告、软件项目开发辅助、复杂数据处理流程、多步骤信息整合与撰写。	智能客服多轮对话、即时问答、简单计算或搜索、需要动态调整策略的场景。

create_xml_agent 和 create_json_chat_agent

特性	create_xml_agent	create_json_chat_agent
数据格式	XML	JSON
适用场景	需要严格结构化、支持复杂嵌套数据的场景	现代Web API集成、需要轻量级结构的场景
可读性	标签结构清晰，但冗余较多	更简洁，但复杂结构可读性较差
工具输入	XML字符串	JSON对象
工具输出	XML字符串	JSON字符串
错误处理	XML解析器通常更严格	JSON解析更宽松，容错性更好
扩展性	通过XML Schema定义严格结构	通过JSON Schema定义结构
性能	解析和处理开销较大	解析和处理效率较高

这两种结构化Agent都提供了比纯文本Agent更可靠的数据交换格式，减少了自然语言解析的歧义性，特别适合企业级应用和系统集成场景。它们和 create_react_agent的核心工作原理在范式层面是相似的（都遵循“感知-思考-行动”的智能体模式），但在实现机制和数据交互格式上存在本质区别。下面通过对比表格和架构图说明：
核心范式相似性（三者共通）

维度	说明
感知	接收用户输入/环境信息
思考	分析任务、决定行动策略（是否调用工具/直接回答）
行动	执行工具调用或生成最终响应
循环	支持多步推理循环（除简单任务外）
学习	依赖预训练大模型的推理能力，无在线学习

核心区别（结构化 vs ReAct）

特性	create_xml_agent/ create_json_chat_agent	create_react_agent
通信格式	严格结构化 (XML/JSON)	半结构化文本 (带标记的自然语言)
输出约束	强制模型输出预定义标签（如或 “action”）	依赖提示词引导输出 Thought:/Action:等标记
解析可靠性	极高（可用XML/JSON解析器校验）	?? 中等（需正则/启发式解析，可能出错）
工具调用方式	直接传递结构化参数（如北京）	需从文本中提取参数（如 Action Input: “北京”）
错误处理	格式错误可被解析器捕获	依赖容错解析器处理格式偏差
适用模型	需理解XML/JSON结构的模型（如GPT-4）	通用文本模型（包括较小模型）
系统集成	原生兼容企业系统（SOAP/JSON API）	? 需额外转换层
开发调试	结构化数据易于日志分析	需人工阅读推理链

LangChain 提供的其他常见 Agent

Agent 类型 (创建函数)	主要特点	适用场景
create_tool_calling_agent	支持具有原生工具调用能力的现代模型（如 Claude 3、GPT-4-turbo）	希望利用模型自身工具调用机制时
create_xml_agent	使用 XML 格式来组织推理和工具调用的指令和输出	需要高度结构化输入输出的场景，或模型擅长处理 XML 时
create_self_ask_with_search_agent	通过自问自答（Self-Ask）的方式将复杂问题分解为多个子问题，常配合搜索工具	研究类、需要多步信息检索和综合的任务
create_structured_chat_agent	为多输入参数的工具设计，提供更严格的对话控制和结构化的输出	订单处理、问卷调查等需要特定格式输出的业务流程
create_json_chat_agent	输入和输出都期望是 JSON 格式	需要与现有 JSON API 进行交互或处理结构化数据的场景
create_conversational_retrieval_agent	专为对话场景优化，通常结合检索增强生成（RAG）技术，保持对话上下文	聊天机器人、智能客服、教育辅导等交互式应用
Plan-and-Execute Agent	先规划所有步骤，再执行，适合有明确步骤的任务	需要长期规划的复杂任务

如何选择 Agent

选择哪种 Agent，主要取决于具体需求、使用的模型以及开发偏好：

优先考虑 create_openai_functions_agent或 create_tool_calling_agent当：
- 主要使用 OpenAI 的模型（如 GPT-3.5-turbo, GPT-4）。
- 希望工具调用更准确、可靠，减少解析错误。
- 不需要显式地看到模型的每一步推理过程。
- 针对持具有原生工具调用能力的现代模型
优先考虑 create_react_agent当：
- 使用的是非 OpenAI 的模型（如本地部署的 Llama、DeepSeek-V2 等）。
- 任务非常复杂，需要模型进行多步推理。或者：任务目标在开始时并非完全明确，需要在执行过程中逐步探索和明确。
- 希望调试和观察模型的完整思考过程，透明度对很重要。
- 愿意处理可能稍多的输出解析和错误处理。

3.优先使用Plan-and-Execute Agent当：

任务复杂、多步骤，且步骤间存在明显的依赖关系（例如，前一步的输出是后一步的输入）。
需要任务的执行流程清晰、可预测且易于监控。
对任务的最终输出质量和结构完整性有很高要求。
典型场景：自动化报告生成（如市场分析、财务报告）、复杂数据处理流水线、辅助编码（需多步操作）等。

考虑其他特定类型 Agent 当：
- create_conversational_retrieval_agent：构建多轮对话应用，如客服机器人。
- create_structured_chat_agent：处理需要特定格式输入输出的业务流程。
- create_self_ask_with_search_agent：任务需要大量搜索和信息整合。
优先使用create_json_chat_agent当：
- 需要高可靠性工具调用或企业系统集成
- 与现代Web API和服务集成
- 需要轻量级、高效的数据交换
- 与前端JavaScript应用交互
- 处理移动应用请求
- 需要更简洁的数据表示
优先使用create_xml_agent当：
- 需要高可靠性工具调用或企业系统集成
- 需要与遗留系统集成（许多企业系统使用XML）
- 需要严格的文档结构验证
- 处理复杂嵌套数据结构
- 需要支持XML命名空间等高级特性

总结与建议

追求与 OpenAI 模型的最佳集成和工具调用的准确性：create_openai_functions_agent或 create_tool_calling_agent是首选，尤其是 create_tool_calling_agent，它代表了更新的设计思路。
需要模型推理透明化、使用非 OpenAI 模型或处理复杂推理任务：create_react_agent非常合适，它能提供清晰的决策链条。
有特定场景需求：如对话（conversational）、严格结构（structured）、搜索（self-ask-with-search），则选择对应的专用 Agent。
对于刚接触 LangChain Agent 的开发者，可以从 create_react_agent开始，因为它能帮助很好地理解 Agent 的工作机制。若专注于 OpenAI 模型并希望快速实现功能，create_openai_functions_agent或 create_tool_calling_agent会更高效。

愿你我都能在各自的领域里不断成长，勇敢追求梦想，同时也保持对世界的好奇与善意!

北京朝阳AI社区

更多推荐