KYgw2JKXc 个人主页

@KYgw2JKXc

KYgw2JKXc

2026-03-29 15:24:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

我让 Claude 和 Codex 同时审计 26 个模块，它们只在 10 个上达成共识

SWE-bench Verified 排行榜上，Claude Opus 4.6 拿了 80.8%。OpenAI 直接不交卷了——他们认为这个榜单存在训练数据污染，分数已经不能反映真实能力。有意思。两家最强的编程 AI，一个考了高分，一个拒绝参考。那我换个考法：让它们干同一件活——审计我手里这个十几年的 C++ 遗产项目——看看实战结果差多少。注：截图中 Agent-2 显示为 "o4-mini"

到底了