此前,OpenAI 在发布 GPT-5 时,曾因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。
而在近期,知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻——GPT-5 在跑 SWE-bench Verified(共 500 道题)测试时,竟然只做了 477 道题,少了整整 23 道。
对于上述缺少的「23 题」,OpenAI 方面则表示「这些题在我们现有的基础设施上无法运行。」
据了解,SWE-bench Verified 为一个专门用于测试 AI 编写代码能力的测试集,共计 500 题,同时该测试集也是业内普遍认为「最接近真实开发场景的 AI 测试之一」。
值得一提的是,SWE-bench Verified 这个测试集本身是由 OpenAI 在 2024 年推出。OpenAI 说,原始的 SWE-bench 数据集里有些题实在太难,几乎无法解决,会让 AI 的真实能力被低估。
为了让测试更合理,OpenAI 大手笔请了 93 名程序员,给 1699 道题目打分。但它将所有 2 分和 3 分题都扔了,只留下 0、1 分的题目。然后从中随机抽了 500 道,而 SWE-bench Verified 也因此成为了一个经过「净化」的测试集。
另据 swebench.com 原版排行榜显示,5 月 14 日版本的 Claude 4 Opus 反而领先于 GPT-5。
🔗 相关阅读:GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI
|