logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

我让 Claude 和 Codex 同时审计 26 个模块,它们只在 10 个上达成共识

SWE-bench Verified 排行榜上,Claude Opus 4.6 拿了 80.8%。OpenAI 直接不交卷了——他们认为这个榜单存在训练数据污染,分数已经不能反映真实能力。有意思。两家最强的编程 AI,一个考了高分,一个拒绝参考。那我换个考法:让它们干同一件活——审计我手里这个十几年的 C++ 遗产项目——看看实战结果差多少。注:截图中 Agent-2 显示为 "o4-mini"

到底了