
Xinzhiyuan报告编辑:Dinghui [Xinzhiyuan简介] OpenAI仅完成了477个SWE Bench问题验证的编程测试,但宣布高分为74.9%。相比之下,人类克劳德(Claude)完成了所有500个问题。几天前,在OpenAI新闻发布会上,Ultraman宣布GPT-5达到了顶峰,据说这在全球范围内是代码功能。但是在新闻发布会上有一个很大的错误,52.8> 69.1 = 30.8?因此,在全球范围内,由Openai的天才以超过1亿的薪水(左侧)占据流行。尽管一开始在OpenAI的官方博客上,这种形式是准确的,但实际上,当GroAdcast播放到世界上时,它实际上造成了一个巨大的错误。除了未知方面,更重要但没有指出的是,GPT-5在SWE基础验证的基准测试中达到了74.9%的NA通过率。该分数略高于拟人化的克劳德(Claude Opus)4.1。 GPT-5突然使其成为领先的模型当前的软件工程工作基准。但是等等,这个标记...似乎有些棘手。 OpenAI并未运行所有500个SWE基础测试任务,而是删除了仅基于477个活动来运行和计算得分的23个任务。半分析特别提到了这个问题。拟人化也是该问题在其博客上的“含义”。 SWE-Bench已被证明有500个问题,而GPT-5仅提出了477个问题。它跳过了23个问题!那对手克劳德呢?老实说,有500个问题掉了。现在,自然已经改变。当然,Openai承认了这一点。他们在“注释”中解释了GPT-4.1:OpenAI基础架构无法运行以下23个问题。 。由此估计,如果认为23个问题是完全错误的,那么所有500个问题的实际通过率约为71.4%(74.9%×477/500,请注意,这是一个非常简单的计算)明显低于Claude Opus 4.1在500个问题上实现的74.5%。它应该在GPT-5中,强调23个已删除的任务并不是“微不足道的”。相反,它们是验证浓度的最困难问题。根据第三方审查,大多数模型无法解决经过验证的数据集中的任何“ 4小时”任务。该模型的性能非常明显,“困难”问题需要超过1小时才能完成。 Clau Langang Deconnet4(非思维模式),O3和GPT4.1可以在4小时内完成某些任务(每个33%)。这些非常困难的任务是对模型全面能力的认真测试。如果GPT-5无法执行这些任务,则Claude 4.1可能不会超过整体能力。在人类提供的信息中,Claude 4.1可能还测试了这些任务(拟人化并未声称其模型已跳过任何已验证的任务),因此其74.5%的商标包含所有难题的测试。 GPT-5的74.9%是去除这些“障碍”的结果。这一差异引起的主要争议NCE是:评论标记的比较和报告方法的透明度。即使是SWE Bench经过验证的数据集,即裁判,也是由Openai本人建造的。半分析认为,为了比较“公平”比较中的NG模型之间的结果,也许Swebench.com上的官方SWE-Bench等级可能是对此基地上当前模型性能的清晰描述。没有“验证”子集,该工具的使用受到限制(仅bash),并且大多数脚手架内容都是开放和可见的。在此前提下的基准测试中,5月14日的Claude 4 Opus Checkpoint(67.6)的表现优于GPT-5(65)。下一个问题是,什么是SWE-Branch,子集的“验证”是什么,为什么需要创建经过额外的SWE基础验证? SWE-BRENCH:AI世界中的“程序员大学入学考试”。您可以将其视为AI世界中的“程序员大学入学考试”。所有测试都是t的问题他真实的代码。想获得很高的分数吗?不仅要修复错误。尚未引入新的错误,AOF此标准是严格的。有时,AI只有20至30分,这是一个可怕的景象。例如,截至2024年8月5日,根据SWE-Bench等级,编码代理在SWE-Bench中的得分最高为20%。 SWE板凳Lite上的标记稍好一些,高达43%。但是现在AI令人惊叹,实际上所有前十个型号都可以超过50分。根据Openai的说法,SWE板凳非常困难,并且某些任务无法解决,因此无法正确评估模型的功能。 SWE基础测试集上的每个样本的SWE板台的简要介绍来自GitHub中有12个开源python存储库的解决的GitHub问题。每个样本都有相关的(PR)相关请求(PR),其中包含代码试验和单位测试以根据代码的准确性进行MAPPUT。在将解决方案代码添加到PR之前,这些试验单元失败了,但是是PA在添加后插图,因此称为fail_to_pass test。每个示例还具有相关的PASS_TO_PASS测试,该测试在PR之前和之后通过以检查PR是否在代码底部摧毁了现有和无关的功能。对于每个SWE基础样本,代理可以从GitHub问题中获取原始文本,即问题描述,并且可以访问代码库。因此,代理必须将文件编辑到代码底部以解决问题。测试用例未显示在代理中。通过运行fail_to_pass和pass_to_pass测试来评估模型提出的修改编辑。如果FAIL_TO_PASS测试通过,则表明该模型可以解决问题。如果PAS tests_to_pass通过,则意味着编辑不会意外打破代码库的无关部分。只有当所有这两组测试都能充分解决原始GitHub问题时。这是上述说明的:我们不仅应该修复错误,而且我们不应该引入新的错误。 Swe-BrenCH已证明:经过手动选择的SWE-Bench子集验证是SWE-Bench基准的人类验证子集,该子集由Openai和Swe-Bench的作者于2024年8月出版。 OpenAI与93个精通Python的软件开发人员合作,以手动筛选SWE Bench样品的质量。首先,1699年随机SWE基础测试集是“额定值”的。四个分数:0:清楚地描述了问题,并且成功分辨率所需的条件也很明显。 1:关于这个问题,仍然有一些Blangko可以填写,但是有一种合理的方法可以解释成功解决方案所需的内容。 2:这个问题被描述为模糊,存在歧义的差距,目前尚不清楚哪些属性应具有成功的解决方案。 3:如果没有更多信息,几乎不可能理解您需要做什么。如果您得分2和3分,则应该放弃并仅留下0和1分的问题。尽管此方法导致删除高度假阳性率在样本中,这将有助于提高对最终数据集样本质量的信心。然后从0和1点的问题中随机提取500点,这是要验证的最终SWE基础。通过说出标记,克劳德(Claude)接受了“一般主题”,并将其带到Byopenai是“选定版本”。您如何直接比较此结果?数字背后的故事更有趣。除了在新闻发布会上对图表的误解外,“涵盖”这一事实似乎并没有引起人们的注意。我们还可以在阴谋论中猜测,如果Openai做到了并使用小争议来涵盖SWE Bench的标记?毕竟,如果您想隐藏一个现实,那是不否认它的最佳方法,而是利用更大的“现实”来转移每个人的注意力。参考:https://x.com/semianalysis_/katanuan/1955028150217478177
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase” SEL的用户上传和发布F-Media平台。该平台仅提供信息存储服务。
请注意:上面的特征(包括照片和视频(如有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。