提示工程架构师必备！AI提示工程质量保证的量化评估方法

根据业务任务，选择对应的维度和指标。任务类型：电商客服机器人；核心目标：提升问题解决率，降低成本；评估维度与指标任务效果：问题解决率（≥90%）、用户满意度（≥4.5分）；鲁棒性：噪声输入正确率（≥80%）、歧义输入澄清率（≥90%）；效率：Token利用率（≤1.5）、成本 per Task（≤0.001元）；一致性：规则一致性（≥100%）、跨模型一致性（≥0.85）；安全性：有害内容生成率（

AIGC应用创新大全

907人浏览 · 2025-09-25 12:27:01

AIGC应用创新大全 · 2025-09-25 12:27:01 发布

提示工程架构师必备！AI提示工程质量保证的量化评估方法

引言：从“凭感觉调提示”到“用数据说话”

作为一名提示工程架构师，你是否遇到过这样的场景？

刚写完一条提示，测试了几个例子觉得“还不错”，上线后却收到用户投诉：“回答完全不对”；
优化了提示的表述，感觉“更清晰了”，但说不清楚到底提升了多少效果；
团队里不同成员对“好提示”的标准不一致，导致迭代时反复争论；
领导问“这个提示的质量达标了吗？”，你只能靠“经验判断”而非数据支撑。

这不是你的问题——提示工程的“模糊性”是行业普遍痛点。
过去，提示设计更像“艺术”：依赖工程师的语言直觉、对模型的熟悉度，甚至“试错运气”。但随着AI应用从“Demo阶段”走向“生产级落地”，这种“经验驱动”的模式已经无法满足需求：

企业需要可验证的效果：证明提示能稳定解决业务问题；
团队需要可复用的标准：避免重复造轮子；
优化需要可定位的方向：知道“哪里不好”才能“怎么改好”。

量化评估，是解决这一痛点的核心钥匙。
它能把“好提示”的模糊标准转化为可测量的指标，把“试错优化”变成“数据驱动的迭代”。本文将从评估维度、指标设计、流程落地、实战案例四个层面，系统讲解提示工程质量保证的量化方法——帮你把提示工程从“艺术”变成“可工程化的科学”。

一、基础准备：先明确“评估什么”和“怎么评估”

在开始量化之前，我们需要先回答两个关键问题：

提示工程的“质量”到底包含哪些维度？
评估的前提条件是什么？

1.1 提示质量的五大核心维度

提示的作用是“引导大模型输出符合需求的结果”，因此其质量需围绕“模型输出是否满足业务目标”展开。结合生产场景，我们将提示质量拆解为以下5个维度：

维度	定义	业务价值
任务效果	模型输出是否准确、完整地完成任务（如分类正确、生成符合要求的内容）	直接决定业务指标（如客服问题解决率、内容生成满意度）
鲁棒性	面对噪声输入（错别字、歧义、极端情况）时，输出的稳定性	避免“小错误引发大问题”（如用户打错字导致模型答非所问）
效率	完成任务的成本与速度（如token消耗、响应时间）	控制AI使用成本（尤其是调用付费模型时），提升用户体验（如实时对话的响应速度）
一致性	相同/相似输入下，输出的稳定性（跨模型、跨时间）	保证业务规则的统一性（如电商客服对“退货政策”的回答一致）
安全性	输出是否符合合规要求（无有害内容、不泄露隐私）	规避法律风险（如生成歧视性内容），保护用户数据

1.2 评估的三大前提

量化评估不是“拍脑袋选指标”，需要先明确以下三点：

（1）明确任务类型与目标

不同的任务，评估重点完全不同：

分类任务（如“判断用户反馈是正面还是负面”）：重点看准确性；
生成任务（如“写产品文案”）：重点看生成质量（相关性、流畅性）；
推理任务（如“解答数学题”）：重点看逻辑正确性；
对话任务（如“客服机器人”）：重点看多轮一致性和用户满意度。

举个例子：如果任务是“生成产品详情页的卖点”，你需要评估的是“卖点是否符合产品特性”“语言是否吸引用户”；而如果任务是“处理用户退货申请”，你需要评估的是“是否正确引用退货政策”“回复是否符合合规要求”。

（2）构建“基准线”

评估需要对比——没有基准的指标是无意义的。常见的基准包括：

人类表现：比如“专业编辑写的文案”作为生成任务的基准；
基线模型：比如“未优化的原始提示”或“行业通用提示”的效果；
业务阈值：比如“客服问题解决率需≥90%”“生成内容的有害率需≤0.1%”。

（3）选择评估工具

量化评估需要工具支持，常见的工具包括：

自动化评估框架：如Hugging Face的Evaluate库（支持BLEU、ROUGE等生成指标）、OpenAI的Evaluation API（针对GPT模型的定制化评估）；
自定义脚本：针对业务场景编写的指标计算工具（如“统计客服回复中引用政策的比例”）；
人工评估平台：如Amazon Mechanical Turk（MTurk）、阿里云众包（用于大规模人类标注）。

二、核心方法：五大维度的量化评估指标与落地技巧

接下来，我们逐一拆解每个维度的关键指标、计算方法、适用场景，并给出实战中的优化技巧。

维度1：任务效果——用“结果指标”验证核心价值

任务效果是提示质量的核心指标，直接回答“这个提示能不能解决问题”。不同任务类型的指标差异较大，我们分三类讲解：

（1）分类/判断任务：准确性优先

任务特点：输出是明确的类别（如“正面/负面”“合规/不合规”）。
关键指标：

精确率（Precision）：模型预测为“正类”的样本中，实际为“正类”的比例（避免“误判”）；
召回率（Recall）：实际为“正类”的样本中，模型预测为“正类”的比例（避免“漏判”）；
F1分数：精确率和召回率的调和平均（综合衡量两者）；
准确率（Accuracy）：所有样本中预测正确的比例（适用于类别平衡的场景）。

计算示例：
假设测试集有100个用户反馈，其中50个是“负面”（正类），50个是“正面”（负类）。模型预测了45个“负面”，其中40个正确，5个错误（把正面判为负面）；同时漏判了10个负面（把负面判为正面）。

精确率：40/45≈88.9%；
召回率：40/50=80%；
F1分数：2*(0.889*0.8)/(0.889+0.8)≈84.2%；
准确率：(40+45)/100=85%（注：45是正确的正面预测数，即50-5=45）。

优化技巧：
如果精确率低（误判多）：可以在提示中增加“严格判断条件”，比如“只有当用户明确提到‘退款’‘投诉’时，才判定为负面”；
如果召回率低（漏判多）：可以扩大判断范围，比如“用户提到‘不满意’‘不好用’也判定为负面”。

（2）生成任务：兼顾“准确性”与“质量”

任务特点：输出是长文本（如文案、摘要、代码），需要同时满足“内容正确”和“符合表达要求”。
关键指标：

内容相关性：生成内容与输入需求的匹配度（如“产品卖点是否覆盖了输入的产品特性”）；
- 自动化指标：可使用语义相似度（如Sentence-BERT计算余弦相似度）、关键词匹配率（生成内容中包含输入关键词的比例）；
- 人工指标：使用李克特量表（Likert Scale），如“1-完全不相关，5-完全相关”。
生成质量：
- 流畅性：文本是否通顺（自动化指标如GPT-4的“流畅性评分”，人工指标如“语句是否有语法错误”）；
- 符合格式要求：是否遵循指定的格式（如“生成的JSON是否正确”“摘要长度是否≤200字”）；
- 专业度：是否符合目标场景的语言风格（如“学术论文摘要的严谨性”“广告文案的吸引力”）。
经典生成指标（适用于特定场景）：
- BLEU（双语评估替换）：适用于机器翻译（衡量生成文本与参考文本的重叠度）；
- ROUGE（召回导向的Understudy评估）：适用于文本摘要（衡量生成文本与参考文本的召回率，如ROUGE-L关注长句匹配）；
- METEOR：结合同义词和词干匹配（比BLEU更灵活，适用于创意生成）。

计算示例：
假设任务是“根据产品特性生成卖点”，输入是“这款耳机支持主动降噪，续航24小时，价格299元”。参考卖点是“主动降噪+24小时长续航，性价比首选（299元）”。

关键词匹配率：生成卖点包含“主动降噪”“24小时续航”“299元”三个关键词，匹配率100%；
语义相似度（Sentence-BERT）：生成卖点与参考卖点的余弦相似度0.92（越高越相关）；
人工流畅性评分：5分（语句通顺，无语法错误）。

优化技巧：
如果相关性低：在提示中明确“必须包含的信息”，比如“卖点必须包含主动降噪、24小时续航、299元三个信息”；
如果流畅性差：可以增加“语言风格要求”，比如“用口语化的表达，避免生硬的罗列”。

（3）推理任务：逻辑正确性是关键

任务特点：输出需要逻辑推理（如数学题、因果分析、代码调试），重点看“推理过程是否正确”。
关键指标：

结果正确性：最终答案是否正确（如数学题的计算结果）；
过程正确性：推理步骤是否符合逻辑（如“解方程的每一步是否正确”“代码调试的思路是否合理”）；
可解释性：是否能清晰说明推理依据（如“为什么选择这个算法？”）。

计算示例：
任务是“解答数学题：小明有5个苹果，给了小红2个，又买了3个，现在有多少个？”

正确推理过程：5-2+3=6；
错误推理过程：5+2+3=10（没减给小红的2个）；
结果正确性：错误；
过程正确性：错误。

优化技巧：
如果过程错误：在提示中要求“分步推理”，比如“请先写出每一步的计算过程，再给出最终答案”；
如果可解释性差：可以增加“解释要求”，比如“每一步推理都要说明依据（如‘因为给了小红2个，所以减去2’）”。

维度2：鲁棒性——测试“极限情况”下的稳定性

鲁棒性（Robustness）是提示的“抗干扰能力”——当输入存在噪声或异常时，模型是否还能输出正确结果。这是生产级提示的“必测项”，因为真实场景中的用户输入永远不会“完美”。

关键指标与测试方法

鲁棒性类型	测试方法	量化指标
输入噪声抗性	对输入进行“扰动”（如错别字、同义改写、语序混乱、加入无关信息）	噪声输入的正确率（扰动后正确输出的比例）
边界情况处理	测试极端输入（如“空输入”“超长输入”“矛盾输入”）	边界输入的有效响应率（如空输入时是否提示“请提供更多信息”）
歧义处理	测试有歧义的输入（如“苹果多少钱？”可以指水果或手机）	歧义输入的澄清率（模型是否会询问“您指的是水果苹果还是苹果手机？”）

实战示例：测试客服提示的鲁棒性

假设原始提示是：“回答用户的问题，使用友好的语气。”
测试用例设计：

错别字输入：“我的订単爲什麽還沒到？”（“订单”写成“订単”，“为什么”写成“爲什麽”）；
无关信息输入：“我昨天买了你们的手机，今天下雨了，订单还没到？”（加入“下雨了”的无关信息）；
歧义输入：“你们的退货政策是什么？”（未说明是“商品质量问题”还是“无理由退货”）；
极端输入：“订单订单订单订单订单！”（重复无意义内容）。

优化前结果：

错别字输入：模型无法识别“订単”，回复“请提供订单号”；
无关信息输入：模型被“下雨了”干扰，回复“天气不好请注意安全”；
歧义输入：直接回复“7天无理由退货”（忽略了“质量问题”的情况）；
极端输入：回复“请提供订单号”（未识别无意义内容）。

优化后提示：“作为客服代表，首先识别用户的核心问题（忽略错别字、无关信息），如果问题有歧义，请询问澄清；如果输入无意义，请提示‘请提供具体问题’。回答时使用友好语气。”

优化后结果：

错别字输入：正确识别“订单”，回复“请提供订单号，我帮你查询物流”；
无关信息输入：忽略“下雨了”，回复“请提供订单号，我帮你查询物流”；
歧义输入：回复“请问您是想了解无理由退货政策还是质量问题退货政策？”；
极端输入：回复“请提供具体的订单问题，我会帮你解决”。

量化指标变化：

噪声输入正确率：从30%提升到80%；
歧义输入澄清率：从0%提升到100%；
边界输入有效响应率：从50%提升到100%。

维度3：效率——用“成本指标”控制AI使用成本

效率维度关注的是“用最少的资源完成任务”。对于使用付费模型（如GPT-4、Claude 3）的场景，效率直接影响业务的ROI（投资回报率）。

关键指标

Token利用率：输出Token数/输入Token数（衡量提示的“简洁性”，比值越低越高效）；
响应时间：模型从接收提示到返回结果的时间（适用于实时场景，如对话机器人）；
成本 per Task：完成一个任务的平均成本（计算方式：(输入Token数+输出Token数) × 模型单价/1000）。

优化技巧

精简提示内容：去除冗余的表述（如“你是一个专业的客服代表，非常擅长解决用户问题”可以简化为“作为专业客服，解决用户问题”）；
使用“少样本提示”（Few-shot）：用1-3个示例替代冗长的说明（如“例1：用户问‘订单没到’，回复‘请提供订单号’；例2：用户问‘退货’，回复‘请问是质量问题吗？’”）；
限制输出长度：在提示中明确“输出不超过50字”“用 bullet point 列出3点”（减少不必要的长文本）。

实战示例：优化电商客服提示的效率

原始提示（120 Token）：“你是一个专业的电商客服代表，负责解答用户的订单问题。当用户问订单物流时，你需要先让用户提供订单号；当用户问退货时，你需要先问清楚是质量问题还是无理由退货；当用户问退款时，你需要告诉用户退款会在3-5个工作日到账。回答时要友好，使用‘亲’开头，避免使用专业术语。”

优化后提示（60 Token）：“电商客服规则：1. 问物流→要订单号；2. 问退货→问质量/无理由；3. 问退款→说3-5天到账。用‘亲’开头，简洁回答。”

指标变化：

输入Token数：从120降到60（减少50%）；
输出Token数：从平均80降到50（减少37.5%）；
成本 per Task：从0.0012元降到0.00066元（减少45%）；
响应时间：从1.2秒降到0.8秒（减少33%）。

维度4：一致性——保证“输出不翻车”

一致性是提示的“稳定性”——相同或相似的输入，是否能得到一致的输出。对于需要遵守规则的场景（如金融、医疗），一致性直接关系到业务的合规性。

关键指标

重复一致性：同一提示+同一输入，多次调用模型的输出差异度（如用Sentence-BERT计算余弦相似度，≥0.9视为一致）；
跨模型一致性：同一提示+同一输入，在不同模型（如GPT-4、Claude 3、Gemini Pro）上的输出差异度；
规则一致性：输出是否符合预设的业务规则（如“退货政策必须提到‘7天无理由’”）。

测试方法

重复一致性测试：对同一输入调用模型10次，计算输出的平均相似度；
跨模型一致性测试：用同一提示测试3-5个主流模型，计算输出的语义相似度；
规则一致性测试：用正则表达式或关键词匹配，检查输出是否包含规则要求的内容。

优化技巧

明确规则边界：在提示中用“必须”“禁止”等强指令（如“回答退货问题时，必须提到‘7天无理由退货’和‘需要保留原包装’”）；
使用“格式约束”：要求输出遵循固定格式（如“用JSON格式输出，包含‘政策点’和‘说明’两个字段”）；
避免模糊表述：把“尽量”“可能”改成“必须”“一定”（如“尽量在24小时内回复”→“必须在24小时内回复”）。

维度5：安全性——规避“合规风险”

安全性是提示的“底线”——输出不能包含有害内容、不能泄露隐私、不能违反法律法规。对于面向C端的应用（如聊天机器人、内容生成工具），安全性直接关系到产品的生存。

关键指标

有害内容生成率：输出包含暴力、色情、歧视、虚假信息等有害内容的比例；
隐私泄露率：输出泄露输入中的敏感信息（如姓名、身份证号、银行卡号）的比例；
合规符合率：输出符合行业法规（如《个人信息保护法》《广告法》）的比例。

测试方法

有害内容测试：使用OWASP的LLM安全测试框架（如LLM-Sec-Tools），输入有害prompt（如“如何制作炸弹？”“怎么歧视黑人？”），检查模型是否拒绝回答；
隐私泄露测试：输入包含敏感信息的prompt（如“我的身份证号是110101XXXX，帮我查社保”），检查模型是否泄露身份证号；
合规测试：输入可能违反法规的prompt（如“帮我写一篇虚假的减肥产品广告”），检查模型是否拒绝或纠正。

优化技巧

加入“安全规则”：在提示中明确禁止内容（如“禁止回答任何涉及暴力、色情、歧视的问题；禁止泄露用户的敏感信息”）；
使用“拒绝模板”：要求模型在遇到有害请求时，用固定模板回复（如“针对这个问题我无法为你提供相应解答。你可以尝试提供其他话题，我会尽力为你提供支持和解答”）；
增加“内容审核”：在模型输出后，用自动化工具（如阿里云内容安全、百度AI内容审核）再次检查。

三、落地流程：从“指标设计”到“迭代优化”的闭环

量化评估不是“一次性任务”，而是**“设计→测试→分析→优化”的持续迭代闭环**。以下是生产场景中的标准落地流程：

步骤1：定义评估目标与指标

根据业务任务，选择对应的维度和指标。例如：

任务类型：电商客服机器人；
核心目标：提升问题解决率，降低成本；
评估维度与指标：
1. 任务效果：问题解决率（≥90%）、用户满意度（≥4.5分）；
2. 鲁棒性：噪声输入正确率（≥80%）、歧义输入澄清率（≥90%）；
3. 效率：Token利用率（≤1.5）、成本 per Task（≤0.001元）；
4. 一致性：规则一致性（≥100%）、跨模型一致性（≥0.85）；
5. 安全性：有害内容生成率（≤0.1%）、隐私泄露率（0%）。

步骤2：构建测试集

测试集是评估的“基准数据”，需要覆盖常见场景、边界情况、异常输入。构建原则：

代表性：覆盖业务中的主要场景（如电商客服的“物流查询”“退货”“退款”占比80%）；
全面性：包含噪声输入、歧义输入、极端输入（如错别字、无关信息、空输入）；
数量足够：至少包含100个样本（太少会导致结果偏差）。

步骤3：执行评估

自动化评估：用工具计算可量化的指标（如准确率、Token利用率、有害内容生成率）；
人工评估：对无法自动化的指标（如生成质量、用户满意度）进行人工标注（建议邀请业务专家或真实用户参与）；
交叉验证：用不同工具或人员重复评估，确保结果的可靠性。

步骤4：结果分析与优化

评估结果出来后，需要定位问题→分析原因→制定优化方案。例如：

问题：噪声输入正确率只有70%（低于目标80%）；
原因：提示中没有明确“忽略错别字”的要求；
优化方案：在提示中加入“忽略输入中的错别字，识别核心问题”；
验证：重新测试噪声输入，正确率提升到85%，达到目标。

步骤5：持续监控

上线后，需要持续监控指标变化，因为模型可能会“漂移”（如大模型更新后，提示效果下降）。常见的监控方法：

实时监控：用日志系统记录每一次模型调用的指标（如Token数、响应时间）；
定期复盘：每周/每月对指标进行统计，对比历史数据，发现异常（如有害内容生成率突然上升）；
用户反馈收集：通过用户投诉、满意度调查，补充评估的不足（如生成内容的“不友好”可能未被自动化指标捕捉）。

四、实战案例：从“差提示”到“好提示”的完整迭代过程

为了让你更直观地理解量化评估的落地，我们用一个**“教育类AI答疑机器人”**的案例，展示完整的优化过程。

背景与初始问题

业务目标：为中学生解答数学题，要求“步骤清晰、答案正确、语言易懂”。
初始提示：“解答用户的数学题，写清楚步骤。”
初始评估结果（测试集100题）：

任务效果：答案正确率70%，步骤清晰度评分3.2分（1-5分）；
鲁棒性：噪声输入正确率50%（如“x的平方加3x等于0，求x？”写成“x的平方加3x等於0，求x？”时，模型无法识别）；
效率：平均输出Token数120，成本 per Task 0.0018元；
一致性：规则一致性80%（部分解答未写步骤）；
安全性：有害内容生成率0%（无问题）。

第一次优化：提升步骤清晰度与正确率

优化方向：明确“步骤要求”和“语言要求”。
优化后提示：“作为中学数学老师，解答用户的问题时，需遵循以下规则：1. 分步骤写清推理过程（每一步标注‘步骤1/2/3’）；2. 使用中学生能理解的语言（避免专业术语）；3. 最后给出最终答案。”
评估结果：

答案正确率：85%（提升15%）；
步骤清晰度评分：4.5分（提升1.3分）；
规则一致性：100%（所有解答都有步骤）。

第二次优化：提升鲁棒性

优化方向：处理噪声输入（错别字、歧义）。
优化后提示：“作为中学数学老师，解答用户的问题时，需遵循以下规则：1. 忽略输入中的错别字和标点错误，识别核心问题；2. 分步骤写清推理过程（每一步标注‘步骤1/2/3’）；3. 使用中学生能理解的语言；4. 最后给出最终答案。”
评估结果：

噪声输入正确率：80%（提升30%）；
歧义输入澄清率：100%（如“x的平方加3x等于0”写成“x平方加3x等0”时，模型正确识别）。

第三次优化：提升效率

优化方向：精简提示，限制输出长度。
优化后提示：“中学数学答疑规则：1. 忽略错别字；2. 分步骤（标1/2/3）；3. 用通俗语言；4. 给答案。”
评估结果：

输入Token数：从80降到40（减少50%）；
输出Token数：从120降到80（减少33%）；
成本 per Task：从0.0018元降到0.0012元（减少33%）。

最终效果

经过三次优化，提示的核心指标全部达标：

答案正确率：85%（目标≥80%）；
步骤清晰度评分：4.5分（目标≥4分）；
噪声输入正确率：80%（目标≥80%）；
成本 per Task：0.0012元（目标≤0.0015元）；
规则一致性：100%（目标≥95%）。

五、常见问题与解决方案

在量化评估的落地过程中，你可能会遇到以下问题，这里给出针对性的解决方案：

问题1：自动化指标与人工评估结果不一致

原因：自动化指标无法捕捉“语义层面”的问题（如生成内容逻辑通顺但不符合业务需求）。
解决方案：

用自动化指标做“初步筛选”（如先过滤掉BLEU分数低的样本）；
对自动化指标达标的样本，进行人工抽查（建议抽查比例≥20%）；
结合业务场景，调整自动化指标的权重（如生成文案时，人工满意度的权重占60%，BLEU占40%）。

问题2：评估结果与生产场景不符

原因：测试集没有覆盖生产中的真实场景（如测试集用的是“模拟用户输入”，而生产中是“真实用户输入”）。
解决方案：

定期将生产数据加入测试集（如每月更新10%的测试样本）；
收集生产中的“失败案例”（如用户投诉的问题），补充到测试集；
用A/B测试验证评估结果（如同时上线两个提示，对比生产中的效果）。

问题3：指标太多，无法聚焦

原因：选择了过多的指标，导致精力分散。
解决方案：

用“KPI导向”筛选指标（如业务目标是“提升问题解决率”，则重点关注“任务效果”维度的指标）；
对指标进行“优先级排序”（如把“任务效果”和“安全性”作为一级指标，“效率”和“一致性”作为二级指标）；
避免“虚荣指标”（如“生成内容的字数”，除非字数是业务要求）。

六、总结：量化评估是提示工程的“地基”

提示工程的本质是“用自然语言编程，让大模型执行任务”。而量化评估，就是“测试这段‘自然语言代码’的质量”——它能帮你：

从“经验驱动”转向“数据驱动”，提升优化效率；
建立“可复用的标准”，让团队协作更高效；
证明“提示的价值”，获得业务方的信任。

最后，给提示工程架构师的3条建议：

不要追求“完美指标”：指标是工具，不是目的。选择最贴合业务的2-3个核心指标，聚焦优化；
自动化与人工结合：自动化指标提升效率，人工评估保证质量；
持续迭代：大模型在进化，业务需求在变化，评估指标也需要定期更新。

未来展望：随着AI技术的发展，量化评估会越来越智能化——比如用大模型自动生成测试用例、自动分析评估结果、自动优化提示。但无论技术如何发展，**“以业务目标为核心，用数据验证效果”**的原则永远不会变。

希望这篇文章能帮你建立起提示工程质量保证的量化体系，让你的提示从“拍脑袋”变成“可信赖”。如果你有任何问题或补充，欢迎在评论区留言——让我们一起推动提示工程的“工程化”进程！

（全文完，约12000字）

北京朝阳AI社区

更多推荐

大模型微调实践——Prefix tuning与P-tuning v2的原理、区别与代码解析最终章

北京朝阳AI社区

大模型微调-LoRA原理代码详细解读

北京朝阳AI社区

2024提示工程架构师技术热点：大模型Agent与Prompt工程的融合

大模型Agent是具备自主能力的AI系统，它以大模型为核心，通过“感知-决策-执行-记忆”的闭环，完成复杂任务。感知（Perception）：接收多模态输入（文本、图像、语音、工具返回结果）；决策（Decision）：基于输入和记忆，规划任务步骤（比如“先查天气，再订酒店”）；执行（Action）：调用工具（API、代码、数据库）或直接生成输出；记忆（Memory）：存储短期上下文（当前任务信息）