首页 > AI头条  > 正文

AI“智商”大考变革!全新GAIA基准超越 ARC-AGI

2025-04-14 09:15 · 来源: AIbase基地

人工智能(AI)的能力正在飞速发展,如何准确衡量其“智能”程度一直是行业关注的焦点。然而,正如衡量人类智力一样,AI智能的测评也并非易事,现有的测试和基准往往只能提供近似的评估。近年来,随着AI模型日益复杂,传统基准的局限性日益凸显,促使行业积极探索更全面、更能反映实际应用能力的新型评估体系。

QQ_1744593297690.png

传统基准的局限性:高分≠高能

长期以来,生成式AI社区依赖诸如MMLU(大规模多任务语言理解)等基准来评估模型能力。这类基准通常采用多项选择题形式,覆盖多个学术领域,便于进行直接比较。然而,这种形式被认为难以真正捕捉AI的智能能力。例如,一些模型在MMLU上取得了相似的分数,但在实际应用中的表现却存在显著差异,这表明纸面上的高分并不能完全代表真实的能力。

此外,即使是像大学入学考试这样的基准,其高分也并不意味着考生拥有相同的智力水平,或者智力已经达到了极限,这进一步说明了基准只是能力的近似衡量,而非精确度量。更令人担忧的是,一些先进的模型在看似简单的任务上也会出现“低级错误”,例如无法正确数出单词中的特定字母,或者在比较小数大小时出错。这些案例暴露了传统基准驱动的进步与AI在现实世界中的可靠性之间的脱节。

新基准亮相:聚焦通用推理与实际应用

面对传统基准的不足,AI行业正在积极探索新的评估框架。近期发布的ARC-AGI基准旨在推动模型向通用推理和创造性问题解决能力发展,受到了业界的欢迎。另一项引人注目的新基准是“人类最后考试”,它包含了3000道同行评审的多步骤问题,涵盖多个学科,试图在专家级推理上挑战AI系统。早期结果显示,OpenAI的模型在该测试发布一个月内就取得了26.6%的成绩,展现了AI的快速进步。

然而,与传统基准类似,“人类最后考试”主要在孤立的环境中评估知识和推理能力,而忽略了实际应用中日益重要的工具使用能力。GPT-4在配备工具的情况下,在更复杂的GAIA基准上仅取得了约15%的成绩,这进一步印证了传统基准与实际能力之间的差距。

GAIA基准:衡量AI现实应用能力的新标准

为了弥补传统基准的缺陷,行业推出了更贴近现实应用的GAIA基准。GAIA由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作创建,包含466个精心设计的问题,分为三个难度级别。这些问题全面测试了AI的网络浏览、多模态理解、代码执行、文件处理和复杂推理等关键能力,这些都是AI在现实商业应用中不可或缺的。

GAIA基准的问题设计模拟了实际业务问题的复杂性。Level1的问题需要大约5个步骤和一个工具来解决,Level2需要5到10个步骤和多个工具,而Level3的问题则可能需要多达50个离散步骤和任意数量的工具。这种结构更真实地反映了现实世界中解决问题往往需要多个步骤和工具协同工作的特点。

GAIA初步成果:强调灵活性与专业化

GAIA基准的早期结果显示,一个注重灵活性的AI模型取得了75%的准确率,超越了微软的Magnetic-1(38%)和谷歌的Langfun Agent(49%)。该模型的成功归功于其采用了结合音频-视觉理解和推理的专用模型,并以Anthropic的Sonnet3.5作为主要模型

GAIA的出现反映了AI评估领域的一个更广泛的转变:我们正从评估独立的软件即服务(SaaS)应用转向评估能够协调多个工具和工作流程的AI智能体。随着企业越来越依赖AI系统处理复杂的、多步骤的任务,像GAIA这样的基准能够提供比传统多项选择题更具实际意义的能力衡量。

基准入口:https://huggingface.co/gaia-benchmark

  • 相关推荐
  • 中国速度!GAIA榜单再被刷新,又一个中国公司登顶!

    5月22日,昆仑万维发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能一站式生成文档、PPT、表格、网页、播客和音视频内容。其核心优势在于深度研究能力,在GAIA榜单排名全球第一,超越OpenAI和Manus。产品包含5个专家智能体和1个通用智能体,专注办公学习场景,提供专业级内容生成。天工智能体支持在线编辑和导出多种格式文件,成本仅为OpenAI的40%。此外,其开源框架在GAIA评测中得分82.42,位居榜首。该产品标志着AI从单一功能向全场景生产力的跨越,现已开放全球注册使用。

  • 五年磨一剑!全新小鹏P7官图正式发布:能超越P7的只有P7

    小鹏汽车5月15日正式发布全新P7车型,创始人何小鹏表示这是团队历时5年、经过上千版设计方案打造的力作。新车在延续现款轿跑基因基础上,对外观细节进行全面升级:前脸线条更锐利强化视觉冲击力,车身腰线处理更精妙突出立体感,轮毂采用独特几何切割设计,贯穿式尾灯造型更修长。官方强调新车实现了从简约科技到精致运动的进阶,既保持品牌辨识度,又以更富张力的设计语言满足消费者对个性化和运动感的追求。作为国内新势力代表车型,全新P7凭借全面升级的设计获得广泛好评。

  • 智领测试变革CIO 视角下的 AI 测试战略选型与实践指南

    文章探讨了数字化转型背景下软件测试面临的三大挑战:交付压力与质量平衡、技术债务与成本失控、智能决策缺失。传统测试方法难以应对敏捷开发需求,而AI测试正成为破局关键。Gartner预测到2025年80%以上软件测试将通过AI驱动的自动化完成。国内多家企业已推出成熟AI测试平台,如Testin云测的XAgent系统、腾讯优测的新一代AI测试引擎等。这些平台通过智能用例生成、数据分析等功能,将测试从被动质量验证升级为主动研发效率引擎。建议企业根据数字化成熟度选择匹配的AI测试解决方案,将其纳入IT战略规划,构建质量与效率双核心壁垒。

  • CEO李健领衔!荣耀高管集体入驻微博:全新班底 阵容史无前例

    本周,荣耀高管集体入驻微博,这次入驻微博的是全新班底,阵容史无前例。 他们分别是荣耀终端股份有限公司CEO李健、荣耀终端股份有限公司首席财务官彭求恩、荣耀终端股份有限公司销售与服务总裁王班、荣耀终端股份有限公司品牌营销总裁、集团首席营销官郭锐。 在5月28日举行的荣耀400系列发布会上,荣耀CEO李健首次亮相国内发布会,并宣布了全球百万雄鹰计划”。

  • 超越OpenAI、拿下球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

  • 网络安公司AI转型之痛:从被动响应到主动变革的战略转型

    AI技术正在重塑全球安全产业格局,软件安全行业正经历从"规则防御"到"智能防御"的范式革命。传统基于规则库的测试工具难以应对AI驱动的动态攻击,IDC预测2025年全球网络安全支出将增长12.2%,其中AI安全解决方案市场规模将突破150亿美元。安全厂商需在组织架构、人员能力、商业模式三个维度实现系统性变革:构建"战略聚焦+中台赋能+一线冲锋"的智能作战体系;重组混合型人才团队,将50%传统安全人员转型为AI分析师;推动订阅制服务转型,打造"硬件+安全服务"的生态协同模式。Gartner预测到2028年25%的大型企业将设立专门AI治理团队,未能完成转型的厂商将逐步失去市场话语权。这场关乎企业存亡的竞赛中,唯有以AI为引擎重构组织基因,才能赢得竞争优势。

  • 马斯克推出全新XChat:具备加密、音视频通话、消息自毁功能

    近年来,X一直在努力增加更多隐私保护和加密功能。 有报道曾称,马斯克计划将X这个平台变成一个万能应用”,提供包括收发消息、社交、点对点支付等一系列服务。 报道还称,这一愿景让人想起腾讯的微信,它是中国居民日常生活中无处不在的一部分。” 据悉,马斯克曾对微信等中国手机应用程序大加赞赏,还希望X成为一个功能完备”的约会网站和数字银行。

  • 你想成为“首席AI官”吗?生成式AI催生全新职业路径

    亚马逊云科技(AWS)最新发布的一项调研显示,超过八成的企业已经设立、或正在积极物色首席AI官。而这背后,是一场争分夺秒的AI人才争夺战……

  • Check Point Research发布《AI报告》,揭示人工智能驱动的网络犯罪崛起及其防御策略

    Check Point公司发布《2025 AI安全报告》,揭示AI驱动的四大网络威胁:1)AI增强型身份冒充与社交工程攻击,包括深度伪造视频/语音;2)大语言模型数据污染与虚假信息传播;3)AI生成恶意软件与自动化攻击;4)AI模型武器化与勒索。报告指出,33%的AI聊天机器人回答包含虚假信息,网络犯罪组织正以空前速度利用AI技术。防御建议包括:部署AI检测工具识别伪造内容、实施多层身份验证、构建具备AI感知能力的安全框架。专家警告,数字分身技术将突破传统验证机制,网络安全需与攻击者实现"同频对抗"。

  • 强烈赛博未来感!小鹏全新P7官宣:大溜背、修长车头

    关于小鹏全新E29(P7继任者)的其他详细信息尚未全面公布。不过,据推测,该车长度或将达到5米级,轴距3米,定位于中大型纯电轿跑市场。预售价格预计围绕20万元展开,且将首次搭载小鹏自研的图灵AI芯片,采用视觉辅助驾驶方案。

今日大家都在搜的词: