深揭示了Openai如何制作GPT_KU体育入口

深揭示了Openai如何制作GPT

栏目：成功案例发布时间：2025-08-26 11:02

Xinzhiyuan报告编辑：Dinghui [Xinzhiyuan简介] OpenAI仅完成了477个SWE Bench问题验证的编程测试，但宣布高分为74.9％。相比之下，人类克劳德（Claude）完成了所有500个问题。几天前，在OpenAI新闻发布会上，Ultraman宣布GPT-5达到了顶峰，据说这在全球范围内是代码功能。但是在新闻发布会上有一个很大的错误，52.8> 69.1 = 30.8？因此，在全球范围内，由Openai的天才以超过1亿的薪水（左侧）占据流行。尽管一开始在OpenAI的官方博客上，这种形式是准确的，但实际上，当GroAdcast播放到世界上时，它实际上造成了一个巨大的错误。除了未知方面，更重要但没有指出的是，GPT-5在SWE基础验证的基准测试中达到了74.9％的NA通过率。该分数略高于拟人化的克劳德（Claude Opus）4.1。 GPT-5突然使其成为领先的模型当前的软件工程工作基准。但是等等，这个标记...似乎有些棘手。 OpenAI并未运行所有500个SWE基础测试任务，而是删除了仅基于477个活动来运行和计算得分的23个任务。半分析特别提到了这个问题。拟人化也是该问题在其博客上的“含义”。 SWE-Bench已被证明有500个问题，而GPT-5仅提出了477个问题。它跳过了23个问题！那对手克劳德呢？老实说，有500个问题掉了。现在，自然已经改变。当然，Openai承认了这一点。他们在“注释”中解释了GPT-4.1：OpenAI基础架构无法运行以下23个问题。。由此估计，如果认为23个问题是完全错误的，那么所有500个问题的实际通过率约为71.4％（74.9％×477/500，请注意，这是一个非常简单的计算）明显低于Claude Opus 4.1在500个问题上实现的74.5％。它应该在GPT-5中，强调23个已删除的任务并不是“微不足道的”。相反，它们是验证浓度的最困难问题。根据第三方审查，大多数模型无法解决经过验证的数据集中的任何“ 4小时”任务。该模型的性能非常明显，“困难”问题需要超过1小时才能完成。 Clau Langang Deconnet4（非思维模式），O3和GPT4.1可以在4小时内完成某些任务（每个33％）。这些非常困难的任务是对模型全面能力的认真测试。如果GPT-5无法执行这些任务，则Claude 4.1可能不会超过整体能力。在人类提供的信息中，Claude 4.1可能还测试了这些任务（拟人化并未声称其模型已跳过任何已验证的任务），因此其74.5％的商标包含所有难题的测试。 GPT-5的74.9％是去除这些“障碍”的结果。这一差异引起的主要争议NCE是：评论标记的比较和报告方法的透明度。即使是SWE Bench经过验证的数据集，即裁判，也是由Openai本人建造的。半分析认为，为了比较“公平”比较中的NG模型之间的结果，也许Swebench.com上的官方SWE-Bench等级可能是对此基地上当前模型性能的清晰描述。没有“验证”子集，该工具的使用受到限制（仅bash），并且大多数脚手架内容都是开放和可见的。在此前提下的基准测试中，5月14日的Claude 4 Opus Checkpoint（67.6）的表现优于GPT-5（65）。下一个问题是，什么是SWE-Branch，子集的“验证”是什么，为什么需要创建经过额外的SWE基础验证？ SWE-BRENCH：AI世界中的“程序员大学入学考试”。您可以将其视为AI世界中的“程序员大学入学考试”。所有测试都是t的问题他真实的代码。想获得很高的分数吗？不仅要修复错误。尚未引入新的错误，AOF此标准是严格的。有时，AI只有20至30分，这是一个可怕的景象。例如，截至2024年8月5日，根据SWE-Bench等级，编码代理在SWE-Bench中的得分最高为20％。 SWE板凳Lite上的标记稍好一些，高达43％。但是现在AI令人惊叹，实际上所有前十个型号都可以超过50分。根据Openai的说法，SWE板凳非常困难，并且某些任务无法解决，因此无法正确评估模型的功能。 SWE基础测试集上的每个样本的SWE板台的简要介绍来自GitHub中有12个开源python存储库的解决的GitHub问题。每个样本都有相关的（PR）相关请求（PR），其中包含代码试验和单位测试以根据代码的准确性进行MAPPUT。在将解决方案代码添加到PR之前，这些试验单元失败了，但是是PA在添加后插图，因此称为fail_to_pass test。每个示例还具有相关的PASS_TO_PASS测试，该测试在PR之前和之后通过以检查PR是否在代码底部摧毁了现有和无关的功能。对于每个SWE基础样本，代理可以从GitHub问题中获取原始文本，即问题描述，并且可以访问代码库。因此，代理必须将文件编辑到代码底部以解决问题。测试用例未显示在代理中。通过运行fail_to_pass和pass_to_pass测试来评估模型提出的修改编辑。如果FAIL_TO_PASS测试通过，则表明该模型可以解决问题。如果PAS tests_to_pass通过，则意味着编辑不会意外打破代码库的无关部分。只有当所有这两组测试都能充分解决原始GitHub问题时。这是上述说明的：我们不仅应该修复错误，而且我们不应该引入新的错误。 Swe-BrenCH已证明：经过手动选择的SWE-Bench子集验证是SWE-Bench基准的人类验证子集，该子集由Openai和Swe-Bench的作者于2024年8月出版。 OpenAI与93个精通Python的软件开发人员合作，以手动筛选SWE Bench样品的质量。首先，1699年随机SWE基础测试集是“额定值”的。四个分数：0：清楚地描述了问题，并且成功分辨率所需的条件也很明显。 1：关于这个问题，仍然有一些Blangko可以填写，但是有一种合理的方法可以解释成功解决方案所需的内容。 2：这个问题被描述为模糊，存在歧义的差距，目前尚不清楚哪些属性应具有成功的解决方案。 3：如果没有更多信息，几乎不可能理解您需要做什么。如果您得分2和3分，则应该放弃并仅留下0和1分的问题。尽管此方法导致删除高度假阳性率在样本中，这将有助于提高对最终数据集样本质量的信心。然后从0和1点的问题中随机提取500点，这是要验证的最终SWE基础。通过说出标记，克劳德（Claude）接受了“一般主题”，并将其带到Byopenai是“选定版本”。您如何直接比较此结果？数字背后的故事更有趣。除了在新闻发布会上对图表的误解外，“涵盖”这一事实似乎并没有引起人们的注意。我们还可以在阴谋论中猜测，如果Openai做到了并使用小争议来涵盖SWE Bench的标记？毕竟，如果您想隐藏一个现实，那是不否认它的最佳方法，而是利用更大的“现实”来转移每个人的注意力。参考：https：//x.com/semianalysis_/katanuan/1955028150217478177 特别声明：上面的内容（包括照片或视频（如果有））已由“ NetEase” SEL的用户上传和发布F-Media平台。该平台仅提供信息存储服务。请注意：上面的特征（包括照片和视频（如有））已由NetEase Hao用户上传和发布，该用户是社交媒体平台，仅提供信息存储服务。

上一篇：独家视频丨确定SCO盛开“天津”彩票！天津夜幕

下一篇：Lijian 1号Yao 1成功发射

KU体育app

Contact

KU体育入口_KU体育app下载

联系地址：广东省广州市天河区88号
服务热线：400-123-4567
传真：+86-123-4567
电话：13988999988
邮箱：[email protected]

姓名

邮箱

电话

内容

提交

备案号：

TOP