AI三巨头惨遭滑铁卢：最新编程测试正确率全线跌破25%，GPT-5也难逃厄运

2025-09-23 09:15 · 来源： AIbase基地

AI界的三大巨头正在经历一场前所未有的挫败。当GPT-5、Claude Opus4.1和Gemini2.5这些被誉为人工智能皇冠上明珠的模型，面对Scale AI全新推出的SWE-BENCH PRO编程测评时，竟然全军覆没，没有一个模型能够突破25%的解决率大关。

这个消息如同一记重拳，狠狠击中了整个AI行业的信心。GPT-5仅仅取得了23.3%的成绩，Claude Opus4.1紧随其后拿到22.7%，而Google的Gemini2.5更是跌至13.5%的惨淡表现。这些数字背后透露出的信息让人不寒而栗:即便是当今最先进的AI模型，在面对真正复杂的编程挑战时，依然显得力不从心。

不过，当我们拨开表象的迷雾，真相却比想象中更加复杂。前OpenAI研究员Neil Chowdhury的深度分析为我们揭示了另一个维度的故事。他发现，GPT-5在那些它选择尝试解决的任务中，实际准确率高达63%，这个数字远远甩开了Claude Opus4.1的31%。这意味着，虽然GPT-5在整体表现上看似平庸，但在其擅长的领域内，这个模型仍然保持着相当的竞争优势。

那么，究竟是什么原因导致这些往日的AI霸主在新测试面前纷纷折戟沉沙呢?答案就隐藏在SWE-BENCH PRO的独特设计理念中。这个由OpenAI在2024年8月精心打造的测试集，就像一把锋利的手术刀，专门用来解剖当前AI模型的真实能力边界。

与过去那些动辄70%正确率的SWE-Bench-Verified测试相比，SWE-BENCH PRO的难度提升绝非简单的数字游戏。测试团队刻意规避了那些可能已经被用于模型训练的数据，彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是，模型们再也无法依靠记忆中的答案来蒙混过关，必须展现出真正的推理和解决问题的能力。

SWE-BENCH PRO的测试范围堪称庞大，涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被精心分为公共集、商业集和保留集三个层次，确保每一个模型在接受评测时都面临着全新的挑战。更令人印象深刻的是，研究团队还在测试过程中引入了人工增强机制，进一步提升了任务的复杂性和真实性。

测试结果毫不留情地暴露了当前AI模型的软肋。在解决实际商业问题时，这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上，各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现，不同模型在理解和处理同类任务时展现出了显著的差异化表现，这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

更加值得关注的是GPT-5高达63.1%的未回答率，这个数字就像一面镜子，清晰地映照出当前AI技术发展的真实状况。即使是最先进的模型，在面对复杂挑战时也经常选择保持沉默，而非冒险给出可能错误的答案。这种谨慎态度虽然在某种程度上体现了模型的自我认知能力，但同时也为整个行业的技术进步敲响了警钟。

这场测试不仅仅是一次简单的技术评估，更像是对整个AI行业发展现状的一次深刻审视。它提醒我们，尽管人工智能在某些领域已经取得了令人瞩目的成就，但在复杂的实际应用场景中，我们仍有很长的路要走。

相关推荐

途鸽科技创始人张衡IOTE 2025最新演讲：AI赋能智能产业下的全球新范式

2025年8月27日，IOTE国际物联网展期间在深圳举办“世界人工智能与物联网创新应用生态大会”。途鸽科技创始人张衡受邀发表主题演讲，分享AI与物联网深度融合趋势下，通信技术、人工智能和全球化三大关键发展方向。他指出，未来通信将从实体SIM卡向eSIM卡转变，5G向6G跨越，人工智能将成为通信架构核心，助力端到端网络革新。途鸽科技作为全球云通信服务平台，以平台化�

物联网人工智能途鸽科技
Testin 云测入选 “2025 新科技 100 强金 i 奖”，AI测试技术成核心壁垒

9月19日，Testin云测凭借AI测试技术入选“2025新科技100强金i奖”，获评“AI测试领航服务商”。其推出的Testin XAgent系统通过自然语言处理、视觉识别与自主探索能力，实现测试用例自动生成与全流程覆盖，推动软件测试从自动化向智能化升级。同时，Testin积极参与行业标准制定，联合信通院启动智能测试能力评估体系，助力构建规范化行业生态。目前，Testin已服务超300万款应用，未来将持续以AI为核心引擎，重塑软件研发质量效能，彰显中国技术在AI测试领域的领先实力。

AI测试荣誉加身数智化转型
荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
免费公开测试！使命召唤黑色行动7测试再开启，全民可参与！

《使命召唤：黑色行动7》抢先体验阶段即将结束，10月6日起开启新一轮全民测试。游戏背景设定在2035年混乱世界，主角大卫·梅森需揭开威胁人类的阴谋。新增中文配音及中国特遣队员林薇，引入跳跃背包、电棍等新装备，加入蹬墙跳等动作系统。游戏在剧情和机制上升级优化，被评价为"堪比好莱坞大片"。公开测试持续72小时至10月9日凌晨1点，推荐使用加速器保障流畅体验。

使命召唤黑色行动7 抢先体验
荐如何正确理解Token经济学？

去年5月，当大模型厂商卷起价格战时，Tokens大概率是出镜率最高的英文单词。简单来说，Tokens是大语言模型（LLM）用来切割自然语言文本的基本单位，可以直观的理解为“字”或“词”。就像工业时代用“千瓦时”度量电力消耗，互联网时代用“GB”度量数据流量，AI时代用“Token”来度量模型的工作量。一个Token可以理解为一个词或词片段（中文里可能是一个字或词语）。

大模型 Tokens 自然语言处理
“无人测试”新趋势：2025服贸会公布领先AI测试平台——Testin XAgent

在数字化浪潮下，软件质量成为企业核心竞争力。传统测试依赖人工，面临效率瓶颈、覆盖局限和技术门槛三大痛点。AI技术正推动测试从自动化向智能化变革。Testin云测发布新一代AI智能测试系统Testin+XAgent，融合大语言模型和智能体技术，实现自然语言驱动测试、高精度视觉识别、全自动API测试和自主探索式测试，重塑测试流程。该系统代表软件测试向“无人测试”升级，助力中国技术出海，彰显AI+测试的全球竞争力。

软件测试 AI智能测试无人测试
Infobip亮相2025云栖大会，发布对话式 AI 解决方案，助力中国企业出海

2025云栖大会于9月24-26日在杭州举办，聚焦超级人工智能（ASI）发展路径，定义智能涌现、自主行动、自我迭代三阶段。大会设三大展馆、110余场论坛，吸引全球超12万人次线下参会及6700万线上观看。全球云通信平台Infobip展示全渠道沟通、AI营销等方案，助力企业实现智能化、个性化客户互动，强调整合消息应用与AI技术以满足多样化需求，推动数字化转型与全球化发展。

云栖大会超级人工智能 AI云技术
知名IPv6连接测试网站宣布年底关闭！开发者结束15年“为爱发电”

知名IPv6测试网站test-ipv6.com宣布将于年底关闭。开发者jfesler表示，自2010年以来已为这个无收入项目投入大量资源，现在决定将精力转向家庭。网站镜像运营商需在12月前停止更新。部分源代码已在GitHub公开，但仍有未公开内容。域名不会转让，可能交由公益组织管理。针对添加广告的建议，开发者明确拒绝，称"世界上广告已经够多了"。

IPv6 网站关闭开源代码
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问

今日大家都在搜的词：

热文

3 天
7天

AI三巨头惨遭滑铁卢：最新编程测试正确率全线跌破25%，GPT-5也难逃厄运

途鸽科技创始人张衡IOTE 2025最新演讲：AI赋能智能产业下的全球新范式

Testin 云测入选 “2025 新科技 100 强金 i 奖”，AI测试技术成核心壁垒

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

免费公开测试！使命召唤黑色行动7测试再开启，全民可参与！

荐如何正确理解Token经济学？

“无人测试”新趋势：2025服贸会公布领先AI测试平台——Testin XAgent

Infobip亮相2025云栖大会，发布对话式 AI 解决方案，助力中国企业出海

知名IPv6连接测试网站宣布年底关闭！开发者结束15年“为爱发电”

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

今日大家都在搜的词：

热文

小米回应“小米汽车突然自己开走”：排除车辆质量问题

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

马斯克个人财富达5000亿美元特斯拉市值飙升助力

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

站长商机