ReACT框架：让大模型从‘会说’到‘能干’的行动操作系统

cuijiao1893

396人浏览 · 2026-06-24 13:15:10

cuijiao1893 · 2026-06-24 13:15:10 发布

1. 项目概述：当AI开始“边想边干”，它就真正活过来了

你有没有试过让一个大模型帮你查“今天北京到上海的最低机票价格”，结果它给你编了个$328的数字，还信誓旦旦说“数据来自携程2023年Q4报告”？或者让它“对比三款新发布的旗舰手机在夜景拍照上的差异”，它洋洋洒洒写满一页，却压根没调用任何真实评测数据库，全靠训练数据里的模糊印象拼凑？这不是模型不努力，而是它天生被设计成“回答者”——像一位博览群书但从不出门的老教授，知识渊博，却无法验证、无法操作、无法迭代。ReACT框架要解决的，正是这个根本性断层：它不满足于让AI“说得好”，而逼着它“做得对”。ReACT，全称Reasoning + Acting，不是某种新模型架构，而是一套精密的 行为操作系统 ——它把大语言模型（LLM）从“文字生成器”升级为“任务执行体”，赋予其人类解决问题时最核心的两个动作：先想清楚（Reason），再动手做（Act），做完看结果（Observe），再想下一步（Reason again）。关键词里反复出现的“Towards AI”，恰恰点明了这个方向的本质：AI正在从“向内生成”转向“向外作用”。它适合所有正在被“LLM幻觉”困扰的产品经理、被“静态知识墙”卡住的行业研究员、需要真正自动化而非伪智能的工程师，以及任何希望AI不再只是聊天窗口里的一段文字，而是能为你跑一趟银行、查一次专利、订一张机票、甚至调试一段代码的实操伙伴的人。这不是未来学，而是我过去八个月在三个不同客户现场亲手部署、反复踩坑、最终跑通的真实路径。

2. ReACT的核心设计逻辑：为什么必须是“想+做”的闭环，而不是单点增强？

2.1 传统LLM的“能力天花板”到底卡在哪儿？

很多人以为大模型的瓶颈在于参数不够多、训练数据不够新，其实更深层的限制在于它的 认知范式 。LLM本质上是一个超大规模的“条件概率预测器”：给定上文，预测下一个最可能的词。这个机制决定了它有四个无法绕开的硬伤，而这些硬伤，恰恰是ReACT要精准爆破的靶点。

第一是 因果链断裂 。当你问“请帮我分析特斯拉2024年Q1财报中电池成本下降的原因，并预测对下季度毛利率的影响”，一个纯LLM会怎么做？它会把“电池成本”、“毛利率”、“Q1财报”这几个词在训练数据里高频共现的句子片段拼起来，给出一个看似逻辑自洽的答案。但它无法建立“宁德时代降价→特斯拉采购成本↓→电池包BOM成本↓→整车制造成本↓→毛利率↑”这样一条可验证、可追溯、环环相扣的因果链条。它没有“推理引擎”，只有“联想引擎”。ReACT的第一步“Reasoning”，就是强制插入一个结构化思考环节：要求模型明确写出“为达成目标X，我需要获取Y信息；为获取Y，我必须执行Z动作”。这一步本身就在训练模型构建因果图谱。

第二是 世界状态不可知 。LLM的知识截止于它的训练时间点，它不知道昨天美联储加息了25个基点，不知道今天GitHub上刚发布了一个关键安全补丁，更不知道你邮箱里那封未读邮件里写着“合同已签字，请安排付款”。它面对的是一个“静止的、已知的”世界快照。而ReACT的“Acting”环节，就是给它装上了一扇通往实时世界的窗户。这个“窗户”不是被动接收信息（那是RAG干的事），而是主动伸手去够——调用API、执行SQL、运行Python脚本、甚至控制浏览器。我曾在一个金融风控项目里看到，一个ReACT agent在收到“用户申请提高信用卡额度”指令后，自动触发三步动作：1）调用内部征信API查近30天逾期记录；2）查询该用户近6个月交易流水API，计算月均消费额与还款率；3）访问央行公开接口，拉取最新LPR利率。这三个动作的返回结果，共同构成了它“Reasoning”下一步是否批准、批多少额度的唯一依据。没有这扇窗，它所有的判断都是空中楼阁。

第三是 错误无法自我修正 。LLM一旦生成答案，就完成了使命。如果它错把“Python 3.12”说成“Python 3.13”，它不会自己去官网查证，更不会说“等等，我可能记错了，让我确认一下”。而ReACT的Observation环节，就是它的“校验哨兵”。每一次Action之后，系统必须将外部系统的原始返回（不是模型自己总结的，而是raw JSON或HTML源码）喂给模型，强迫它基于事实重新思考。我在调试一个法律文书生成agent时，发现它第一次调用裁判文书网API时，因参数错误返回了空列表。如果这是个普通LLM，它大概率会直接编造一份“典型判例”。但ReACT agent的Observation是“[]”，它立刻在下一轮Reasoning中写道：“API返回空结果，可能原因：1）关键词‘不当得利’拼写错误；2）时间范围设置过窄；3）网站反爬策略触发。我将尝试修正关键词为‘不当得利纠纷’并扩大时间范围至2020-2024年。”——这种基于反馈的动态纠错能力，是静态模型永远无法拥有的。

第四是 任务粒度失配 。现实世界的问题极少是“一句话问答”。它们是嵌套的、分支的、需要状态管理的。比如“帮我在GitHub上找一个支持WebAssembly的Rust图形库，评估其star数、最近更新时间、文档完整性，并生成一个最小可用示例”。这至少包含：搜索→筛选→详情页抓取→多维度评估→代码生成。一个单次Prompt的LLM，就像一个只能接一次电话的客服，听完问题就得挂断给答案。而ReACT的循环机制，让它成了一个可以“分步通话”的项目经理：第一步打给GitHub Search API问“Rust wasm graphics library”；第二步从返回的12个仓库里，挑出star>500且last_commit<30天的3个；第三步分别调用每个仓库的README API和commits API；第四步综合所有数据做决策……每一步的输出，都成为下一步的输入。这种 状态机式的任务分解能力 ，才是处理复杂现实问题的底层基础设施。

2.2 为什么不是RAG？为什么不是AutoGen？ReACT的不可替代性在哪？

市面上常有人把ReACT和RAG（检索增强生成）混为一谈，甚至认为AutoGen这类多Agent框架已经覆盖了ReACT的功能。这种理解偏差，会直接导致技术选型的灾难。我们必须划清三条清晰的界限。

RAG解决的是“ 知识从哪来 ”的问题，而ReACT解决的是“ 事情怎么做成 ”的问题。RAG像给一个博学但手不能动的学者配了一台联网的图书馆终端，他能随时查到最新资料，但他依然只能坐在椅子上口述答案。ReACT则给他配了一双能操作终端、能打电话、能写代码的手。举个血淋淋的例子：你要查“苹果公司最新发布的Vision Pro头显，在开发者社区中的主流评价倾向是正面还是负面？”。RAG方案会这么做：1）用问题构造向量，在爬取的Reddit、Hacker News、Stack Overflow帖子中做语义检索；2）把Top 5相关帖子喂给LLM，让它总结情感倾向。这很高效，但有个致命缺陷——它检索到的帖子，可能全是2023年发布会当天的狂热吹捧，而完全错过了2024年3月用户抱怨“续航仅90分钟”的最新吐槽潮。因为RAG的“检索”是静态的、一次性的，它无法感知“评价风向正在发生转变”这个动态过程。而ReACT会怎么做？1）Reasoning：“要判断当前评价倾向，需获取近30天内主流技术社区的原始讨论数据”；2）Acting：调用Reddit API，按subreddit（r/virtualreality）、关键词（vision pro）、时间范围（created_utc > 1709222400）精确拉取；3）Observation：得到127条新帖的JSON；4）Refined Reasoning：“其中89条含明显负面情绪词（battery, heat, price），32条中性，仅6条正面。结论：当前主流倾向为负面。”——RAG提供的是“知识快照”，ReACT提供的是“行动快照”，后者天然具备时效性和可验证性。

至于AutoGen，它更像是ReACT的“组织架构师”。AutoGen擅长定义多个角色（Coder、Reviewer、Executor）并协调它们之间的对话流，但它本身不规定每个角色“具体该做什么动作”。你可以用AutoGen搭建一个ReACT agent，让“Reasoner”角色负责写Thought，“Actor”角色负责执行API调用，“Observer”角色负责解析返回值。但AutoGen不解决“Actor角色如何安全、可靠、可审计地调用一个支付API”这个核心工程问题。ReACT框架的价值，恰恰在于它把“Acting”这个动作，从一个模糊的“调用工具”概念，拆解为一套可落地的工程规范：工具注册表（Tool Registry）的定义格式、动作执行的超时与重试策略、Observation结果的标准化清洗规则、以及最关键的—— 动作副作用的沙箱隔离机制 。在我参与的一个电商客服项目中，我们严格禁止ReACT agent直接调用“创建退款单”API，而是强制它先调用“预估退款金额”API，将返回的金额、原因码、风控等级等字段，作为下一轮Reasoning的输入。只有当Reasoning结论明确为“符合极速退款条件”时，才允许触发真正的“创建退款单”动作。这个“预检-决策-执行”的三段式Acting流程，是AutoGen框架本身无法提供的、关乎业务安全的硬性约束。

2.3 ReACT不是银弹：它的适用边界在哪里？

再强大的框架也有它的“舒适区”和“禁区”。盲目套用ReACT，不仅不会提升效果，反而会显著增加系统复杂度和故障点。根据我经手的17个落地项目，ReACT最闪耀的战场有三个，而以下三类场景，我建议你先放下ReACT，回归更轻量的方案。

ReACT的黄金三角区：

强时效性需求 ：答案的价值高度依赖“此刻”的数据。如金融行情、航班状态、库存余量、社交媒体舆情。这类场景下，RAG的“检索”太慢，LLM的“幻觉”太危险，唯有ReACT的“实时Acting”能交付可信结果。
多步骤状态依赖 ：任务必须按严格顺序执行，且后一步严重依赖前一步的输出。如“为新员工开通系统权限”：需先在HR系统创建档案（得到employee_id），再用此ID在OA系统开通审批流，在IT系统分配邮箱，在财务系统关联报销账户。任何一个环节失败，整个流程就中断。ReACT的Observation-Reasoning循环，天然适配这种状态机。
高价值决策闭环 ：任务的终点不是“生成一段文字”，而是“触发一个真实业务动作”。如“检测到服务器CPU持续超95%，自动执行：1）拉取进程列表；2）识别异常进程；3）发送告警；4）若为已知顽固进程，则执行kill -9”。这里，“执行kill”是业务价值的最终落点，ReACT让LLM从“建议者”变成了“执行者”。

ReACT的慎入雷区：

纯创意生成类任务 ：写诗、编故事、设计logo文案。这类任务没有客观正确答案，评判标准是主观审美。ReACT的“Reasoning-Acting”循环在这里毫无意义，反而会扼杀LLM的发散性。一个精心设计的Few-shot Prompt，往往比复杂的ReACT流程更高效。
低频、超高风险操作 ：如“自动执行一笔1000万美元的跨境汇款”。虽然技术上ReACT可以做到，但业务上绝不可行。任何涉及真金白银、法律效力、人身安全的动作，必须保留人工确认环节。ReACT在此类场景的正确用法，是生成一份详尽的《操作可行性与风险评估报告》，由人来拍板，而非代替人决策。
超长上下文推理 ：需要同时消化一本300页PDF的技术白皮书，并从中推导出10个潜在漏洞。ReACT的循环机制会把PDF切成小块反复加载，造成巨大的token开销和信息碎片化。此时，一个经过专业微调、具备长上下文能力的专用模型（如Claude 3.5 Sonnet），配合RAG做精准段落检索，是更优解。

认清边界，不是对ReACT的否定，而是对它真正的尊重。就像一把瑞士军刀，它在野外生存时是神器，但在手术台上，你依然需要专业的柳叶刀。

3. ReACT的核心细节解析：从“想清楚”到“做出来”，每一步都藏着魔鬼

3.1 “Reasoning”不是自由发挥，而是一场受控的思维实验

很多初学者以为ReACT的Reasoning步骤，就是让LLM随便“想想”。这是最大的误区。一个失控的Reasoning，会直接导致整个ReACT流程崩盘。我见过太多案例：模型在Reasoning中写下“我将调用天气API”，但实际调用的却是股票API；或者Reasoning说“我需要用户邮箱”，但Acting动作却去查询了用户身份证号。问题根源在于，Reasoning缺乏 结构化约束 。

我们团队沉淀出一套经过23次迭代的Reasoning Prompt模板，它强制模型输出四个不可省略的字段：

Thought: [此处必须是简洁、客观、可验证的推理过程，禁用模糊词汇如“大概”、“可能”，必须指向具体数据或动作]
Action: [必须严格匹配预定义的Tool Name，如"search_web", "query_db", "run_python"]
Action Input: [必须是JSON格式，且字段名、类型、必填项完全符合该Tool的OpenAPI Schema]
Observation: [此字段留空，由系统在Action执行后自动填入]

看一个真实案例。用户问：“我的AWS EC2实例i-0a1b2c3d4e5f最近一小时的CPU使用率峰值是多少？”一个合格的Reasoning输出应该是：

Thought: 我需要查询AWS CloudWatch监控数据。EC2实例的CPU使用率指标名为"CPUUtilization"，命名空间为"AWS/EC2"，统计周期应为1小时，需获取"Maximum"值。
Action: query_aws_cloudwatch
Action Input: {"instance_id": "i-0a1b2c3d4e5f", "metric_name": "CPUUtilization", "namespace": "AWS/EC2", "statistic": "Maximum", "period": 3600, "start_time": "2024-05-20T10:00:00Z", "end_time": "2024-05-20T11:00:00Z"}
Observation:

注意几个魔鬼细节：

Thought 里没有一句废话，每一句都服务于后续Action的精确性。“指标名为CPUUtilization”、“命名空间为AWS/EC2”，这些信息直接决定了API调用能否成功。
Action 不是“查AWS监控”，而是精确到 query_aws_cloudwatch 这个注册好的工具名。我们的工具注册表里，每一个工具都有唯一的、不可歧义的名称。
Action Input 是严格的JSON，且 period 字段是整数3600秒，不是字符串"1h"； start_time 是ISO 8601格式，不是"1小时前"。这种格式的刚性，是为了让下游的Action Executor能用一行代码 json.loads() 安全解析，避免任何字符串解析错误。

我们曾用这个模板在金融风控场景做过AB测试：一组用自由Reasoning，一组用结构化模板。结果自由组的Action失败率高达47%，主要败在参数类型错误（把字符串当数字传）、必填字段缺失、以及工具名拼写错误（ query_db 写成 query_database ）。而结构化模板组的失败率压到了3.2%，且90%的失败都源于外部API本身的超时或限流，与Reasoning无关。这证明， Reasoning的质量，80%取决于Prompt的约束力，而非模型本身的能力 。

3.2 “Acting”不是简单调用，而是一场精密的工程交响

如果说Reasoning是大脑，那么Acting就是手、脚、眼、耳的协同。一个鲁莽的Acting，轻则返回错误数据，重则引发生产事故。我亲眼见过一个未加防护的ReACT agent，在Reasoning中误判了用户意图，连续17次调用支付网关的“创建订单”接口，生成了17笔重复的测试订单，差点触发风控系统的熔断。因此，Acting环节必须植入四重保险。

第一重保险：工具注册表（Tool Registry）的契约精神。 每一个可被调用的工具，都必须在注册时声明一份机器可读的契约（Contract），它远不止是API文档。我们要求契约包含：

name : 工具唯一标识符（如 send_email ）
description : 该工具的 业务目的 ，而非技术描述（如“向指定收件人发送一封包含订单摘要的确认邮件”，而非“POST /api/v1/email”）
parameters : OpenAPI 3.0格式的JSON Schema，精确到每个字段的 type 、 format 、 minLength 、 maxLength 、 enum （枚举值）、 required （必填项）
side_effects : 明确标注该工具是否具有 副作用 （如 is_idempotent: false 表示非幂等， requires_human_approval: true 表示需人工审批）
rate_limit : 该工具的调用频率上限（如 requests_per_minute: 5 ）

当Reasoning输出 Action: send_email 和 Action Input: {...} 时，Acting Executor的第一件事，不是发请求，而是用JSON Schema Validator，对着契约里的 parameters schema，对Input进行 全字段、全类型、全约束 的校验。任何一项不匹配，立即终止，返回清晰的错误：“ to 字段必须是有效的邮箱格式，您提供了'admin'”。

第二重保险：沙箱化执行（Sandboxed Execution）。 绝对禁止ReACT agent直接接触生产数据库或支付网关。所有Acting动作，都必须通过一个中间层——我们称之为“工具网关（Tool Gateway）”。这个网关做了三件事：

协议转换 ：将统一的JSON Input，转换为目标API所需的HTTP Method、Headers、Body格式。例如，一个 query_db 动作，网关会把它转成JDBC连接串、SQL语句、参数绑定。
安全过滤 ：对所有输出进行敏感词扫描（如 DROP TABLE , rm -rf , curl http://malicious.site ），并拦截。我们曾拦截过一个LLM在Reasoning中被诱导生成的恶意 run_python 动作，它试图用 os.system("wget ...") 下载挖矿程序。
结果标准化 ：无论后端是MySQL、MongoDB还是GraphQL API，网关都将其原始响应（可能是XML、HTML、二进制图片）清洗、解析、归一化为一个标准的JSON Observation，包含 status （success/error）、 data （有效载荷）、 error_message （错误详情）。这保证了Observation的格式稳定，让下一轮Reasoning可以放心解析。

第三重保险：超时与重试的智能策略。 外部API不稳定是常态。一个简单的“超时3秒，重试2次”策略，在生产环境里会制造大量噪音。我们的策略是分级的：

对于 幂等性工具 （如 search_web ），采用指数退避：首次超时1s，第二次2s，第三次4s，最大重试3次。
对于 非幂等性工具 （如 create_order ）， 绝不自动重试 。一旦超时或失败，Observation必须明确返回 {"status": "error", "error_message": "Action failed. Non-idempotent action requires manual review."} ，强制流程进入人工介入队列。
对于 高延迟工具 （如 generate_report ，预计耗时5分钟），Acting Executor会启动一个异步任务，立即返回 {"status": "pending", "task_id": "xxx"} ，并在下一轮Reasoning中，模型必须调用 check_task_status 工具来轮询结果。这避免了整个ReACT循环被一个长任务阻塞。

第四重保险：可观测性与审计追踪（Observability & Audit Trail）。 每一次Reasoning和Acting，都必须生成一条不可篡改的审计日志，包含： timestamp 、 session_id 、 step_number 、 thought 、 action 、 action_input 、 observation_status 、 observation_data_size_bytes 、 execution_time_ms 、 tool_gateway_response_code 。这些日志不是为了事后追责，而是为了 实时诊断 。当一个ReACT流程卡在第5步时，运维人员不需要重启服务，只需查这条日志，就能立刻看到：是 thought 写错了？是 action_input 的JSON格式非法？还是 tool_gateway 返回了503错误？这种粒度的可观测性，是ReACT系统稳定运行的生命线。

3.3 “Observation”不是结果粘贴，而是信息的炼金术

Observation环节，常被低估为“把API返回值原样塞给模型”。这是另一个致命陷阱。一个未经处理的原始Observation，对LLM来说就是一团乱麻。想象一下，你让模型去解析一个10MB的、包含大量HTML标签、JavaScript代码、广告位的网页源码，然后问它“页面上显示的最新股价是多少？”——它大概率会迷失在噪音里，或者干脆幻觉出一个数字。

Observation的真正价值，在于 信息蒸馏（Information Distillation） 。它必须把原始的、杂乱的、可能包含错误的外部数据，提炼成一个 精简、结构化、无歧义、面向下一步Reasoning的“事实快照” 。我们为此开发了一套“Observation清洗管道（Observation Sanitization Pipeline）”，它包含三个强制阶段：

阶段一：噪声剥离（Noise Stripping）。 针对不同来源的数据，采用不同策略：

对HTML：使用 lxml 库，精准定位 <div class="stock-price"> 或 <span id="last-price"> 等语义化标签，提取纯文本，彻底丢弃所有 <script> 、 <style> 、 <iframe> 及广告div。
对JSON API：只保留Reasoning中 Action Input 所明确请求的字段路径。例如， Action Input 请求了 $.results[0].price ，那么Observation就只返回 {"price": 152.34} ，其他所有字段（ name , symbol , change_percent ）一律过滤。这叫“最小权限原则”，既减少token消耗，又杜绝模型从冗余字段中“脑补”错误信息。
对二进制文件（如PDF）：调用 pymupdf 进行OCR，但只OCR用户在Reasoning中指定的页码和区域（如“第3页，表格区域”），而非全文扫描。

阶段二：事实校验（Fact Verification）。 这是防止“垃圾进，垃圾出”的关键。清洗后的Observation，必须通过一道校验：

格式校验 ：确保是合法JSON，且符合预定义的Schema（如 {"price": number, "currency": string} ）。
逻辑校验 ：对数值型字段，检查是否在合理范围内（如股价不可能是负数，也不可能是10^9美元）；对日期字段，检查是否为有效ISO格式。
一致性校验 ：如果本次Action是查询“用户订单状态”，而Observation返回 {"status": "shipped", "tracking_number": null} ，这就是矛盾的，因为已发货必然有单号。此时，清洗管道会标记 {"status": "inconsistent", "error": "shipped status requires tracking_number"} ，并阻止该Observation进入下一轮Reasoning。

阶段三：语义增强（Semantic Enrichment）。 在确保准确的前提下，为Observation添加一层对LLM友好的语义提示。例如，当Observation是 {"cpu_usage": 98.7} 时，清洗管道会自动附加一个 {"interpretation": "CPU usage is critically high, exceeding the 90% alert threshold."} 。这个 interpretation 不是模型生成的，而是由一个轻量级、规则驱动的专家系统（Expert System）生成的。它基于预设的业务规则库（如“CPU > 90% = critical”），将冰冷的数字，翻译成模型能直接理解的业务语言。这极大地降低了LLM在Refined Reasoning中犯错的概率。

这套清洗管道，让我们在医疗问答项目中，将Observation导致的Reasoning错误率，从31%降到了2.4%。一个医生问“患者张三的最新血常规中，中性粒细胞绝对值（NEUT#）是否低于正常下限？”，未经清洗的Observation可能是一整页PDF报告，而清洗后的Observation只有一行： {"neut_count": 1.2, "normal_range_lower": 1.8, "interpretation": "NEUT# (1.2) is below the normal lower limit (1.8), indicating neutropenia."} 。模型看到这个，几乎不可能再答错。

4. ReACT的实操过程：从零搭建一个能查航班、比价格、生成报告的旅行助手

4.1 环境准备与核心依赖：选对工具，事半功倍

搭建一个生产级ReACT agent，绝不是装几个Python包那么简单。它是一个涉及前端交互、后端调度、工具集成、安全审计的完整系统。我以我们为某OTA（在线旅行社）客户定制的“智能行程规划师”为例，详细拆解每一步。这个agent的核心能力是：接收用户模糊需求（如“带老人孩子，预算5000，想去海边放松”），自动完成：1）搜索符合要求的国内海滨城市；2）查询各城市未来7天的天气；3）筛选出天气适宜（温度20-30℃，无暴雨）的城市；4）查询这些城市中，符合预算的酒店（价格≤500/晚，评分≥4.5）；5）为每个候选城市生成一份包含天气、酒店、推荐理由的简报。

基础环境：

Python 3.10+（我们锁定3.10.12，避免新版本引入的async兼容性问题）

关键依赖（ requirements.txt 核心部分）：

langchain-core==0.1.49      # LangChain的核心抽象，提供Runnable、Tool等基类
langchain-openai==0.1.22   # OpenAI模型集成，我们用gpt-4-turbo
langgraph==0.0.39          # LangChain官方推荐的ReACT状态机框架，比手写while循环更健壮
requests==2.31.0           # HTTP客户端，所有Acting的基础
pydantic==2.6.4            # 数据验证，用于定义Tool Input/Output Schema
tenacity==8.2.3            # 智能重试库，比原生retry更好用

核心架构选择：LangGraph vs 手写State Machine 我们曾对比过三种实现方式：1）纯Python while循环；2）LlamaIndex的ReActAgent；3）LangGraph。最终选择LangGraph，原因有三：

状态持久化 ：LangGraph的 StateGraph 天然支持将每一步的 state （包含thought, action, observation, history）序列化为JSON，存入Redis。这意味着，如果一个查询需要15步，而第12步因网络抖动失败，系统可以从第12步的状态精确恢复，而不是从头再来。手写循环做不到这点。
节点复用 ：LangGraph将 ReasoningNode 、 ActionNode 、 ObservationNode 定义为独立的、可复用的函数。当我们为另一个“股票分析助手”项目开发时， ReasoningNode 的代码90%可以直接复用，只需更换 ActionNode 里调用的工具。
可视化调试 ：LangGraph自带 get_graph().draw_mermaid_png() ，能一键生成流程图。当一个流程卡住时，这张图能让你瞬间看清是哪个节点在循环、哪个节点抛出了异常。这在手写代码里，需要花半天时间加日志才能搞清。

工具注册表（Tool Registry）的实战定义： 我们定义了4个核心工具，全部遵循前述的契约规范。以 search_destinations 为例，它的注册代码如下（简化版）：

from langchain_core.tools import BaseTool
from pydantic import BaseModel, Field
from typing import Optional, List

class SearchDestinationsInput(BaseModel):
    """Input for searching suitable travel destinations."""
    keywords: List[str] = Field(
        ..., 
        description="List of keywords describing desired features, e.g., ['beach', 'family-friendly', 'relaxing']"
    )
    max_budget_per_night: float = Field(
        ..., 
        description="Maximum budget per night in CNY, e.g., 500.0"
    )
    date_range: str = Field(
        ..., 
        description="Date range in format 'YYYY-MM-DD to YYYY-MM-DD', e.g., '2024-07-01 to 2024-07-07'"
    )

class SearchDestinationsTool(BaseTool):
    name = "search_destinations"
    description = "Searches for travel destinations that match the user's criteria: keywords, budget, and date range. Returns a list of candidate cities with basic info."
    args_schema: type[BaseModel] = SearchDestinationsInput
    
    def _run(self, keywords: List[str], max_budget_per_night: float, date_range: str) -> dict:
        # 实际调用内部目的地搜索引擎API
        # 返回格式严格为: {"destinations": [{"city": "Sanya", "reason": "Famous for beaches and family resorts", "avg_price": 420.0}, ...]}
        pass

# 注册到全局工具列表
TOOLS = [SearchDestinationsTool(), WeatherTool(), HotelSearchTool(), GenerateReportTool()]

注意 args_schema 的定义，它就是一个强制的、运行时校验的契约。当Reasoning输出的 Action Input 不符合这个Schema时，LangGraph会在进入 _run 方法前就抛出 ValidationError ，根本不会让错误参数污染下游。

4.2 核心ReACT循环的代码实现：让“想-做-看-再想”真正跑起来

LangGraph的ReACT实现，核心在于定义一个 StateGraph ，并为其配置三个关键节点： reasoning_node 、 action_node 、 observation_node ，以及一个决定流程走向的 should_continue 函数。下面是我们生产环境的精简版实现：

from langgraph.graph import StateGraph, END
from langchain_core.messages import HumanMessage, AIMessage
from typing import TypedDict, Annotated, List, Dict, Any
import operator

# 定义ReACT状态（State）
class ReACTState(TypedDict):
    messages: Annotated[List, operator.add]  # 存储所有历史消息，用于上下文
    thought: str                             # 当前Reasoning的Thought
    action: str                              # 当前选择的Action名称
    action_input: Dict[str, Any]             # Action的输入参数
    observation: str                         # Action执行后的Observation
    step_count: int                          # 步骤计数，用于防死循环

# 节点1：Reasoning Node - 让LLM“想清楚”
def reasoning_node(state: ReACTState) -> dict:
    # 构建一个强约束的Prompt，强制输出Thought/Action/Action Input
    prompt = f"""
    You are a world-class travel planner. Your task is to help users find perfect vacation spots.
    Current user request: {state['messages'][-1].content}
    
    You must output EXACTLY in this JSON format, no extra text:
    {{
        "Thought": "Your concise, objective reasoning here...",
        "Action": "One of: search_destinations, get_weather, search_hotels, generate_report",
        "Action Input": {{"keywords": [...], "max_budget_per_night": ..., "date_range": "..."}}
    }}
    
    Remember: Thought must be factual and actionable. Action must be from the list. Action Input must be valid JSON matching the tool's schema.
    """
    
    # 调用LLM（gpt-4-turbo）
    response = llm.invoke(prompt)
    # 解析LLM返回的JSON字符串
    try:
        parsed = json.loads(response.content)
        return {
            "thought": parsed["Thought"],
            "action": parsed["Action"],
            "action_input": parsed["Action Input"],
            "step_count": state.get("step_count", 0) + 1
        }
    except Exception as e:
        # 解析失败，返回一个安全的默认Action，避免流程中断
        return {
            "thought": f"Failed to parse LLM response: {e}. Falling back to safe action.",
            "action": "search_destinations",
            "action_input": {"keywords": ["beach"], "max_budget_per_night": 500.0, "date_range": "2024-07-01 to 2024-07-07"},
            "step_count": state.get("step_count", 0) + 1
        }

# 节点2：Action Node - 真正“做出来”
def action_node(state: ReACTState) -> dict:
    # 从全局TOOLS列表中找到匹配的工具
    tool = next((t for t in TOOLS if t.name == state["action"]), None)
    if not tool:
        raise ValueError(f"Unknown tool: {state['action']}")
    
    try:
        # 执行工具，获得原始Observation
        raw_observation = tool.invoke(state["action_input"])
        # 调用我们前面提到的Observation清洗管道
        cleaned_observation = sanitize_observation(raw_observation, state["action"])
        return {"observation": cleaned_observation}
    except Exception as e:
        # 工具执行失败，生成一个结构化的错误Observation
        error_obs = {
            "status": "error",
            "error_type": type(e).__name__,
            "error_message": str(e),
            "suggestion": "Please check input parameters or try a different action."
        }
        return {"observation": json.dumps(error_obs)}

# 节点3：Observation Node

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑