一句话缓解 Codex 降智,外网的这个帖子爆了!
一、结论
先说结论,L站大佬提供的缓解降智方案 将这句话放到 AGENTS.md 文件中可以缓解 Codex 降智:
DO NOT send optional commentary
516 概率 80% 降低到 20%
下面是实测数据:
说明:
- 只能缓解,不能根除,降智的根因不是这个
- 副作用会导致 Codex 不描述中间步骤,但不影响任务执行
二、补充测试
另一位 @dskdkj 佬对上述 AGENTS.md 是否真的能够缓解 Codex 降智提出了质疑。为了回应该质疑,博主又进行了另一个测试。
该测试采用一个降智的 Pro 20x 账号,Codex 直接登录。测试时采用两个不同的 project 目录,temp1 和 temp2,其中 temp1 为空,temp2 中包含上述缓解降智的 AGENTS.md。为了排除时间差造成的影响,两个 project 的测试交替进行,每个 project 测试 10 次。结果如下:
可以看到包含 AGENTS.md 的 temp2 正确率为 60%,显著高于 temp1 10%。这个测试结果至少证明,在我的测试环境中,该 AGENTS.md 的确能缓解降智。但是仍然只是缓解,并不能彻底解决。
三、原理
其原理来自于另一位 @neteroster 佬的调查结果,该调查发现屏蔽 commentary 可以缓解 Codex 降智。原文链接:
https://linux.do/t/topic/2489646
相较于 @neteroster 佬直接修改 Codex system prompt 的方法,在 AGENTS.md 中添加一句话更加简单,并且同样能达到缓解效果。
测试脚本链接:
https://github.com/haowang02/codex-candy-eval
3.1 Codex 降智测试
用本地 Codex CLI 批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。

3.2 用法
该脚本无任何第三方依赖,只需要您已安装并登录 Codex CLI
python codex_candy_eval.py -m gpt-5.5 -r high -n 5
3.3 一键运行
以下任选其一
wget -qO- "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5
curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5
参数:
-m, --model:codex 模型名,省略则用本地默认-r, --reasoning-effort:low/medium/high/xhigh(默认medium)-n, --tests:测试次数(默认 1)
正确答案为 21,脚本直接判断回答中是否出现独立的 21。
这一篇文章目前已经突破 6K 的浏览量,在外网获得了相当不错的反响:
在推特上面也有大量的大佬去进行了测试:
各位试用完可以在评论区讨论一下结果。
更多推荐



所有评论(0)