我测了同一个 Agent 在 6 种 Prompt 写法下的表现，最好和最差差了 4.2 倍

Aliaoo

72人浏览 · 2026-06-19 14:30:32

Aliaoo · 2026-06-19 14:30:32 发布

我测了同一个 Agent 在 6 种 Prompt 写法下的表现，最好和最差差了 4.2 倍

核心观点：Prompt 不是写得越长越好——Zero-shot 排第三、Few-shot 稳赢、但"角色扮演+思维链"组合拳才是真正的王者，任务完成率 87% vs 基础写法 21%。

我用同一个 AI Agent、同一个任务（从一段混乱的日志中提取结构化数据），换了 6 种 Prompt 写法，各跑了 30 次。结果让我重新思考了一个问题：我们平时写的 Prompt，到底有多少是废话？

测试设计：6 种 Prompt × 30 次 × 1 个任务

任务很简单：给 Agent 一段模拟的服务器日志（~500 行），让它提取出所有 ERROR 级别的事件，按时间排序，输出 JSON。

测试的 6 种 Prompt 写法：

#	写法	示例
1	基础指令	“提取所有ERROR事件，输出JSON”
2	详细指令	“请仔细阅读日志，找出ERROR…（200字说明）”
3	Zero-shot	直接给日志，不写指令
4	Few-shot (3例)	给 3 个正确输出示例
5	角色扮演	“你是一名SRE工程师，正在排查故障…”
6	角色 + CoT	角色扮演 + “请逐步分析：先筛选→再提取→最后格式化”

模型用 DeepSeek V3，Agent 框架用 LangChain 的 create_react_agent。评分标准：完全正确的 JSON / 30 次运行 = 任务完成率。

from langchain_deepseek import ChatDeepSeek
from langgraph.prebuilt import create_react_agent
import json, random

llm = ChatDeepSeek(model="deepseek-chat")
prompts = [...]  # 6 种写法

for i, prompt in enumerate(prompts):
    success = 0
    for run in range(30):
        agent = create_react_agent(llm, tools=[extract_errors])
        result = agent.invoke({"messages": [("user", prompt + logs)]})
        try:
            json.loads(result["messages"][-1].content)
            success += 1
        except:
            pass
    print(f"Prompt #{i+1}: {success}/30 = {success/30:.0%}")

结果：最好 87%，最差 21%——差了 4.2 倍

写法	完成率	平均耗时	我的感受
基础指令	21%	8.3s	JSON 格式经常错
详细指令	43%	9.1s	有进步，但不稳定
Zero-shot	57%	7.2s	⚡ 意外地强
Few-shot (3例)	73%	8.7s	稳，但贵（token多）
角色扮演	67%	9.8s	格式好，偶尔漏数据
角色 + CoT	87%	11.2s	🏆 稳如老狗

3 个反常识发现

1. Zero-shot 比"详细指令"强 14 个百分点。 我之前一直以为 Prompt 写得越长越详细越好。实际上，对于结构清晰的提取类任务，模型自己比你的指令更懂怎么干。你写的 200 字"注意事项"反而可能干扰了模型的判断。

2. "角色扮演"解决的是格式问题，不是准确性。 加了 SRE 角色后，JSON 格式错误从 19 次降到 4 次，但漏数据从 3 次升到 7 次——角色给模型套了个"工程师腔"，格式漂亮了，但注意力偏了。

3. "角色 + 思维链"组合拳 = 1+1>2。 单纯角色扮演 67%，单纯 Few-shot 73%，但"角色 + CoT"直接干到 87%。原因是：角色稳定了输出风格，CoT 强制了推理路径，两者互补。

这个结果怎么用？一个决策树

根据你的任务类型，选 Prompt 策略：

任务需要精确格式？（JSON/XML/CSV）
  ├─ YES → 需要高准确率？
  │         ├─ YES → 角色 + CoT （87%，推荐）
  │         └─ NO  → Zero-shot（57%，最快）
  └─ NO  → 需要创意/多样性？
            ├─ YES → 详细指令（别给太多约束）
            └─ NO  → Few-shot（73%，最稳）

通用规则：如果你只有 5 秒写 Prompt，选 Few-shot——给 2-3 个示例，不写指令，73% 的完成率够大多数场景了。如果有时间调优，用角色+CoT，多花 3 秒但多拿 14 个百分点。

一个可直接用的 Prompt 模板

你是一名[领域]工程师，正在处理[具体任务]。

请按以下步骤分析：
1. 先识别输入中的关键信息
2. 提取并验证每条数据
3. 按[排序规则]输出[格式]

输入：{user_input}

把方括号里的内容替换成你的场景就行。这 4 句话模板在测试里贡献了 87% 的完成率。

你平时写 Prompt 是哪种风格？有没有遇到过"写了一大段反而不如一句话"的情况？评论区聊聊。

👉 CSDN 开发云常年折扣，新用户首单特惠

—— Aliaoo，一个每天都在跟 AI Agent 较劲的程序员

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

不用配置环境！OpenClaw 2.7.9 图形化一键部署详细步骤

龙虾开发者社区

开源小龙虾 OpenClaw 2.7.9 全功能讲解，文件 / 浏览器自动化【附安装包】

龙虾开发者社区

AI狼人杀的策略RAG实现

在做狼人杀 AI Agent 的过程中，我发现一个很有意思的问题：很多时候，Agent 表现不好，并不是因为它“不知道怎么玩狼人杀”，而是因为它把不该当成事实的东西当成了事实。比如它会突然说：User 是真人玩家，所以威胁更大Bot3 位置居中，可能是神职某玩家发言少，所以可疑狼队已经刀过某人，所以女巫可能救了他这些判断看似像推理，其实很多都是幻觉。尤其在狼人杀这种强状态、强隐藏信息的游戏里，。