首页 > AI头条  > 正文

豆包团队开源SuperGPQA:挑战285学科AI推理极限

2025-03-04 14:03 · 来源: AIbase基地

近日,字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA,一个覆盖285个研究生级学科、包含26,529道专业问题的知识推理基准测试。

QQ20250304-140137.pngQQ20250304-140137.png

该数据集不仅涵盖数学、物理等主流学科,还首次将轻工业、农业、服务科学等长尾学科纳入评估体系,填补了现有基准测试在长尾知识领域的空白。SuperGPQA已被用于揭示开源与闭源模型的性能差距,成为AI发展的重要工具。

传统基准如MMLU和GPQA学科覆盖不足50个,长尾学科占比不到5%,且因数据来源单一(如维基百科)和众包标注不可靠,难以衡量模型在复杂场景中的推理能力。SuperGPQA通过专家-LLM协同机制,从权威来源筛选问题,历时半年构建而成。其题目平均提供9.67个选项,42.33%需数学计算或形式推理,兼具广度与深度。实验显示,最优模型DeepSeek-R1准确率仅61.82%,表明当前大语言模型在多样知识领域仍有提升空间。

QQ20250304-140147.png

SuperGPQA采用三阶段流程提升质量:专家筛选原始问题、规范化转录、多层质量检验(规则过滤、LLM检测、专家复审)。评测结果表明,指令微调显著提升性能,如DeepSeek-V3得分超基础版,但开源模型在困难题目上仍落后闭源方案。

论文链接:https://arxiv.org/pdf/2502.14739

数据链接:https://huggingface.co/datasets/m-a-p/SuperGPQA

代码链接:https://github.com/SuperGPQA/SuperGPQA

  • 相关推荐
  • 中国UP主成为不了MrBeast

    影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”,无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间,全平台总观看量超过两亿,弹幕数以百万计,甚至带动了直播带货的即时转化。 从数据到热搜,此次直播堪称完美演绎了“爆款”的逻辑。 质疑声同样随之而来:这场直播与其说是“荒岛生存”,不如说是“带电度假”;也评论认为,它

  • 亚马逊CPF团队到访绿舟,为何选择绿舟?

    亚马逊CPF团队近日访问绿舟,高度认可其在绿色认证领域的专业能力,并释放出对绿色产品大力扶持的信号。绿舟作为亚马逊SPN首批CPF服务商,已服务超70%头部跨境卖家,提供从认证咨询到售后维护的全流程服务。调研显示,绿色产品流量增长显著,欧盟市场销量增幅达15%。未来亚马逊将持续推进CPF计划,与绿舟携手赋能卖家低碳转型,共同驶向绿色增长的蓝海。

  • 让天下没有难查的故障:2025 阿里云 AI 原生编程挑战赛正式启动

    阿里云主办的2025 AI原生编程挑战赛聚焦智能运维(AIOps)赛道,旨在通过AI技术解决云原生环境下的系统故障定位问题。比赛提供真实云原生环境及多模态可观测数据,鼓励开发者借助大语言模型(LLM)打造低成本、高效率的故障诊断智能体。冠军可获得3万元奖金,并有机会与行业专家交流。赛事致力于推动AI在运维领域的创新应用,提升系统稳定性与可用性。

  • 推荐2025年必种草的AI一键ppt转视频创作工具

    文章介绍了三款AI工具(课件帮、Visionstory、Fliki),可将静态PPT快速转换为动态视频微课。这些工具操作简便,支持自动生成口播稿、多语言配音、智能字幕及动画效果,适用于教育、企业培训等多种场景,无需专业技能即可上手,大幅提升视频制作效率。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • 百惠金控:2025年最大科技股IPO出炉 投资Figma潜力与挑战并存?

    Figma作为云端设计协作平台,近期在美股IPO引发市场关注。其颠覆性创新改变了产品设计流程,实现高效团队协作,用户粘性高且增长迅速。虽面临高估值、巨头竞争及宏观经济压力等挑战,但凭借巨大市场潜力、强大产品生态和持续创新能力,具备长期投资价值。投资者需理性看待其成长性,关注业务模式与行业竞争,以长远眼光布局。

  • 当折叠屏遇上AI 探秘开发Samsung One UI 8的幕后故事

    三星One UI 8与Galaxy Z Fold7/Flip7同步亮相,深度融合折叠形态与AI技术,带来全新交互体验。通过与谷歌紧密合作,新系统首批预装Android 16,用户可提前体验最新功能。系统聚焦多模态AI、折叠屏优化UX及个性化设计,并强化安全防护。开发团队透露,三星与谷歌从早期规划便协同开发,实现高效多任务处理与创新功能,未来将继续深化AI生态合作。

  • 赛道超越小米SU7 Max!全新纯电轿跑小鹏P7上市:21.98万起

    刚刚,全新一代小鹏P7上市,共推出款4车型,售价区间21.98-30.18万元,同时官方还公布了上市权益,可戳图了解。 该车采用了赛博未来感十足的设计,车头配备一体式无断点的光翼贯穿日行灯、矩阵式LED大灯,且拥有纯平发光Logo,而在不发光时,车标为深色,相较于业界常见的白色更具精致感。 全新P7依旧定位纯电轿跑车,新车长宽高分别为5017/1970/1427mm,轴距为3008mm,定位�

今日大家都在搜的词: