长沙站|武汉站|成都站|南京站|杭州站|攀枝花|苏州站
无锡站|常州站|重庆站|长春站|东莞站|佛山站|广州站
桂林站|贵阳站|惠州站|合肥站|江门站|嘉兴站|金华站
昆明站|柳州站|宁波站|南昌站|南宁站|青岛站|上海站
您当前的位置:首页 > 新闻资讯 > 快讯
GPT-5 新猫腻曝光:故意避开难题刷分
来源:一起淘      时间:2025-08-13      点击:

此前,OpenAI 在发布 GPT-5 时,曾因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。

而在近期,知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻——GPT-5 在跑 SWE-bench Verified(共 500 道题)测试时,竟然只做了 477 道题,少了整整 23 道。

对于上述缺少的「23 题」,OpenAI 方面则表示「这些题在我们现有的基础设施上无法运行。」

据了解,SWE-bench Verified 为一个专门用于测试 AI 编写代码能力的测试集,共计 500 题,同时该测试集也是业内普遍认为「最接近真实开发场景的 AI 测试之一」。

值得一提的是,SWE-bench Verified 这个测试集本身是由 OpenAI 在 2024 年推出。OpenAI 说,原始的 SWE-bench 数据集里有些题实在太难,几乎无法解决,会让 AI 的真实能力被低估。

为了让测试更合理,OpenAI 大手笔请了 93 名程序员,给 1699 道题目打分。但它将所有 2 分和 3 分题都扔了,只留下 0、1 分的题目。然后从中随机抽了 500 道,而 SWE-bench Verified 也因此成为了一个经过「净化」的测试集。

另据 swebench.com 原版排行榜显示,5 月 14 日版本的 Claude 4 Opus 反而领先于 GPT-5。

🔗 相关阅读:GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI

顶一下
回首页
回首页

一起淘最新邀请码、知买推客,注册邀请码免费发放 一起淘最新邀请码、知买推客,注册邀请码免费发放
来源:本地生活服务      点击:
2025-05-07 17:05:27