别再只卷 Prompt：给 AI Agent 做一个可落地的反馈系统

本文提出AI Agent开发应建立反馈系统而非仅优化prompt，并给出最小闭环方案：定义任务标准→记录执行结果→自动评估打分→策略迭代更新。核心模块包括任务定义、日志记录、自动评估和策略更新，强调评估可复现和策略可回滚。文章指出常见误区如标准多变、变量混杂等，建议开发者从30条样本基线开始，逐步建立评估体系。作者认为持续的反馈机制比精致的prompt更能提升Agent性能，是构建AI系统的关键护

小小程序猿~~~

468人浏览 · 2026-04-25 07:30:00

小小程序猿~~~ · 2026-04-25 07:30:00 发布

前言

很多团队做 AI Agent 时，第一反应都是继续打磨 prompt。
但线上效果不稳定时，你会发现一个现实：

没有反馈系统，再精致的 prompt 也很难持续进化。

这篇不讲空话，直接给你一个可落地的最小闭环：

定义任务与验收标准
记录每次执行结果
自动评估并打分
把结果回灌到下一轮策略

一、为什么只卷 Prompt 会卡住

典型症状有三个：

同一个需求，不同时间效果波动大
线上失败后，不知道到底失败在哪一环
团队靠“感觉”改词，缺少可比较的版本记录

一句话总结：
你在优化“输入文本”，但没有优化“系统行为”。

二、先定一个最小反馈闭环

先别上复杂框架，最小版本就够用：

用户请求 -> Agent 执行 -> 产出结果 -> 评估器打分 -> 写入日志 -> 策略更新

关键点只有两个：

评估可复现：每次结果要能按同一标准评分
策略可回滚：改坏了可以退回上一个版本

三、四个核心模块（工程上最实用）

1) 任务定义模块（Task Spec）

明确输入、输出、边界条件。比如：

输入：用户自然语言问题
输出：结构化 JSON（含 answer/confidence/source）
边界：不得编造来源，超出知识范围必须显式说明

没有这个模块，后面的评估就是玄学。

2) 观测与日志模块（Observability）

每次执行至少记录这些字段：

request_id、strategy_version
latency_ms、token_in、token_out
success、error_type
judge_score、user_feedback

很多团队只记错误日志，不记成功样本，导致后面没法做对比学习。

3) 自动评估模块（Evaluator）

至少覆盖三类指标：

正确性：答案是否命中预期
稳定性：同类问题是否波动过大
成本效率：是否用更少 token 达成同等质量

如果你没有标注集，先从 20~50 条核心样本开始。

4) 策略更新模块（Policy Update）

每周（或每天）固定节奏做一次：

保留 Top 策略（得分高、波动小）
淘汰劣化策略（得分低、成本高）
小步迭代新策略（A/B 测试，不直接全量）

四、最小代码示例（Python 伪代码）

from dataclasses import dataclass
from datetime import datetime

@dataclass
class RunRecord:
    request_id: str
    strategy_version: str
    output_text: str
    latency_ms: int
    token_in: int
    token_out: int
    judge_score: float
    success: bool
    created_at: str

def evaluate(output_text: str, expected_keywords: list[str]) -> float:
    hit = sum(1 for k in expected_keywords if k in output_text)
    return round(hit / max(len(expected_keywords), 1), 2)

def choose_next_strategy(history: list[RunRecord]) -> str:
    # 简化版：按最近 N 条平均分选最优策略
    by_version = {}
    for r in history:
        by_version.setdefault(r.strategy_version, []).append(r.judge_score)
    best = max(by_version.items(), key=lambda x: sum(x[1]) / len(x[1]))[0]
    return best

# 线上一次执行后：
record = RunRecord(
    request_id="req_1024",
    strategy_version="v1.3",
    output_text="...",
    latency_ms=920,
    token_in=540,
    token_out=210,
    judge_score=evaluate("...", ["结论", "依据", "边界"]),
    success=True,
    created_at=datetime.now().isoformat(timespec="seconds")
)