首页 > AI头条  > 正文

AI奥赛金牌战:OpenAI与谷歌DeepMind上演“气氛”对决,谁是真赢家?

2025-07-22 08:54 · 来源: AIbase基地

近日,人工智能领域两大巨头OpenAI和谷歌DeepMind相继宣布,其AI模型在2025年国际数学奥林匹克竞赛(IMO)中荣获金牌。这一成就不仅彰显了人工智能系统惊人的发展速度,也意外点燃了两家公司之间一场关乎“领先地位”认知的激烈竞争。

IMO作为全球历史最悠久、最具挑战性的高中数学竞赛之一,其结果被视为衡量人工智能推理能力的重要基准。去年,谷歌以一个需要人工协助的“正式”系统在IMO中摘得银牌。而今年,OpenAI和谷歌都推出了更先进的**“非正式”系统**,这些系统能够直接从自然语言问题中提取信息,并生成有理有据的答案,无需人工转换。两家公司均声称,其AI模型在IMO考试中正确回答了六道题中的五道,超越了多数高中生和谷歌去年的AI模型表现。

机器人对决

推理模型突破与争议

在接受采访时,OpenAI和谷歌IMO项目的研究人员表示,这些金牌成绩代表了AI推理模型在不可验证领域的突破。这尤其重要,因为传统的AI推理模型擅长解决答案明确的问题(如简单数学或编程),但在解决方案模糊的任务上(如协助复杂研究)则表现欠佳。

然而,围绕此次金牌成绩的**“谁先宣布”和“如何宣布”**,两家公司爆发了激烈的争执。OpenAI在周六早上率先公布其AI模型获得金牌的消息,此举立即引来了谷歌DeepMind首席执行官和研究人员的批评。谷歌DeepMind高级研究员、IMO项目负责人Thang Luong向TechCrunch表示,谷歌选择等待官方结果公布是为了尊重参赛学生,并已与国际数学奥林匹克组织者合作准备考试,并于周一上午才公布了官方结果,该结果获得了IMO主席和官方评分的支持。Luong强调:“国际数学奥林匹克组织者有自己的评分标准。所以,任何不基于该标准的评估都不能声称其成绩达到了金牌水平。”

各执一词,竞争白热化

OpenAI参与IMO模型开发的Noam Brown则解释称,IMO数月前曾邀请OpenAI参加正式竞赛,但因当时专注于开发更具研究价值的自然语言系统而婉拒。Brown表示,OpenAI并不知晓IMO正与谷歌进行非正式测试。OpenAI方面称,他们聘请了三位熟悉评分系统的前IMO奖牌获得者作为第三方评估员,来评估其AI模型的表现。在得知金牌成绩后,OpenAI联系了IMO,但IMO建议其等到周五晚上的颁奖典礼结束后再公布结果。IMO方面尚未对TechCrunch的置评请求做出回应。

尽管谷歌在程序上或许更为严谨,但这场争论的背后,是全球领先AI实验室模型飞速进步的宏大图景。今年全球顶尖高中生齐聚IMO,但只有少数人的得分能与OpenAI和谷歌的AI模型匹敌。这表明,曾经遥遥领先的OpenAI,如今正面临着一场比以往任何时候都更加激烈的竞争。随着OpenAI预计在未来几个月发布GPT-5,维持其在AI领域的领先地位形象,无疑是当前“气氛”之战的关键所在。


  • 相关推荐
  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • AI日报:国产版Nano Banana?即梦图片4.0发布;阿里巴巴发布 Qwen3-Max-Preview;上海重磅发布AI广告扶持政策

    AI日报栏目聚焦人工智能领域最新动态。主要内容包括:即梦图集4.0发布,新增文生图、图像编辑等功能;阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview;小米AI眼镜上线支付宝“看一看”支付功能;微软开源14B参数模型rStar2-Agent在数学推理领域表现突出;MiniMax启动股权激励计划覆盖核心员工;谷歌明确Gemini使用限制,免费用户每日最多5次提示;上海发布AI广告扶持政策,最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

今日大家都在搜的词: