GAIA基准测试揭示人类胜过GPT-4的惊人差距

2023-11-29 16:59 · 稿源：站长之家

划重点:
1. 🌐 GAIA基准测试:挑战人工智能助手处理现实问题的新里程碑。
2. 🧠 GAIA评估揭示:人类在真实问题上的表现超过搭载GPT-4插件的人工智能。
3. 🛠️ 人工智能辅助工具:GAIA展示了通过API或网络访问增强LLMs准确性和应用案例的机会。

站长之家（ChinaZ.com）11月29日消息:近日，来自FAIR Meta、HuggingFace、AutoGPT和GenAI Meta的研究人员共同致力于解决通用人工智能助手在处理需要基本技能，如推理和多模态处理的现实问题上所面临的挑战。他们推出了GAIA，这是一个旨在通过定位人类级别的鲁棒性来实现人工通用智能的基准测试。

GAIA聚焦于需要推理和多模态技能的现实问题，强调对人类和先进人工智能都具有挑战性的任务。与封闭系统不同，GAIA模拟真实的人工智能助手使用情景，通过精心策划的非可操纵问题，优先考虑质量，并通过插件展示了人类在GPT-4面前的优越性。其目标是引导问题设计，确保多步骤完成并防止数据污染。

AI音乐打碟 DJ 人工智能

图源备注：图片由AI生成，图片授权服务商Midjourney

随着LLMs超越当前的基准，评估它们的能力变得越来越具有挑战性。研究人员认为，尽管强调了复杂任务，但人类的难度水平不一定挑战LLMs。为解决这一挑战，他们引入了GAIA，这是一个专注于现实问题的通用人工智能助手，避免了LLM评估的陷阱。通过反映人工智能助手使用案例的人工制作问题，GAIA确保实用性。通过针对自然语言处理中的开放式生成，GAIA旨在重新定义评估基准，并推动下一代人工智能系统的发展。

GAIA提出的研究方法涉及利用GAIA创建的基准测试来测试通用人工智能助手。该基准测试包含优先考虑推理和实际技能的现实问题，这些问题由人类设计，以防止数据污染并允许高效而真实的评估。评估过程使用准确匹配的方法，通过系统提示将模型答案与事实对齐。已发布了一个开发者集和300个问题，以建立排行榜。GAIA基准测试的方法旨在评估自然语言处理中的开放式生成，并为推动下一代人工智能系统提供见解。

GAIA进行的基准测试揭示了在回答真实问题时，人类和GPT-4之间存在显著的性能差距。虽然人类成功率达到92%，但GPT-4仅得分15%。然而，GAIA的评估还显示，通过使用工具API或网络访问，可以提高LLMs的准确性和使用案例。这为人工智能模型与人类的协作以及下一代人工智能系统的进步提供了机会。总体而言，该基准测试为人工智能助手提供了清晰的排名，并强调了通用人工智能助手性能进一步改进的需求。

GAIA对通用人工智能助手在真实问题上的评估基准测试表明，人类在搭载插件的GPT-4面前表现出色。它强调了人工智能系统需要在概念上简单但复杂的问题上展现出类似于人类的鲁棒性。该基准测试方法的简单性、不可操纵性和可解释性使其成为实现人工通用智能的有效工具。此外，发布注释问题和排行榜旨在解决自然语言处理中的开放式生成评估挑战及其他问题。

论文地址|:https://arxiv.org/abs/2311.12983

（举报）

相关推荐

关键词：

GPT-4
GAIA

数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司（展位7A-T022）集中展示了AI产业实践与数据流通领域成果，重点推出10万元级智能工作站GAI+Station，集成写作、会议纪要、智能问答等功能，内置8大模型能力，破解成本与安全痛点。其“发数站”战略打通数据高效流通链路，已在医疗、交通等多领域落地，“数智绿波”应用覆盖全国30多个省市，通行效率提升20%以上。此外，AITA超级营销助手实现升级，机器狗互动表演吸引关注。展会期间将举办10余场专业发布，涵盖数据要素、大模型应用等行业实战，助力企业把握数字化机遇。

2025全球数字贸易博览会每日互动 AI产业实践
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

在2025年TOKEN2049新加坡峰会期间，Matrixport举办闭门论坛探讨数字资产财库战略。与会专家一致认为，DAT正从风控工具升级为机构战略核心，预计将形成寡头主导格局。Matrixport通过一站式解决方案推动行业标准化，其管理的DATCO持仓规模突破千亿美元。论坛凸显DAT作为华尔街资本入局加密市场的重要通道，未来将在全球金融体系中扮演关键角色。

数字资产加密市场财库管理
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
真我GT8 Pro正面首曝：2K 144Hz视觉四等边直屏

真我GT8+ Pro曝光，采用视觉四等边2K直屏，为业内首款2K+144Hz屏幕，搭载BOE Q10+发光材料，峰值亮度达7000nit。配备第五代骁龙8至尊版芯片，采用台积电3nm工艺，搭配电竞独显芯片R1优化性能。影像方面搭载2亿像素潜望长焦，支持3倍光学变焦和120倍数码变焦，摄像头模组采用独特机器人形状设计。此外配备对称式双扬声器、120W快充、7K大电池及X轴线性马达等。真我高管称其为同价位最佳屏幕之一，预计节后公布更多信息。

真我GT8 Pro 2K直屏
一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

真我GT8+ Pro屏幕参数全面曝光，搭载2K 144Hz“苍穹屏”，行业首发4000nit阳光显示，峰值亮度达7000nit。采用京东方Q10+发光材料，支持360Hz四指触控采样率与3200Hz瞬时触控，响应更快。首发1nit极暗护眼技术，支持全应用适配，并引入真彩护眼低蓝光方案，色彩准确度提升64.8%。全亮度DC调光默认开启，SVM频闪指标低至0.07。真我中国区总裁徐起表示，随着电池容量升级至7K mAh级别，2K屏功耗问题得到平衡，这将是同价位最佳屏幕之一。新机预计十月发布。

真我GT8 Pro 2K
小米15T/15T Pro发布：小米最强天玑旗舰 5400元起

9月25日，小米在海外正式发布15T和15T Pro两款旗舰手机。15T起售价650欧元（约5400元），15T Pro起售价800欧元（约6700元），均为12GB+256GB起步。两款机型设计基本一致，主要差异在核心配置：15T Pro搭载天玑9400+处理器、144Hz刷新率屏幕、90W有线+50W无线充电，后置三摄支持8K视频录制；15T采用天玑8400-Ultra、120Hz屏幕、67W有线快充。两者均配备6.83英寸OLED屏、5500mAh电池及相似影像系统。

小米15T 小米15T Pro
真我、京东方王炸组合！GT8 Pro全球首发2K 144Hz苍穹屏：神级好直屏

真我GT8 Pro将于10月发布，搭载2K+144Hz“苍穹屏”，采用旗舰定制Q10+发光材料，官方称其为“神级好屏”。相比上代，屏幕在分辨率、刷新率、亮度、形态、护眼和色准方面全面提升：分辨率从1.5K升至2K，刷新率从120Hz提至144Hz，峰值亮度达7000nit，形态升级为直屏与大R角，护眼支持全局DC调光与1nit方案，色准升级为硬件级芯片校色。此外，手机配备骁龙8至尊版处理器、电竞独显芯片Q1、2亿像素潜望长焦镜头、对称式双扬声器等，电池容量升级至7000mAh级别，续航体验大幅提升。

真我GT8Pro 2K 144Hz屏幕

今日大家都在搜的词：

热文

3 天
7天

GAIA基准测试揭示人类胜过GPT-4的惊人差距

数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

真我GT8 Pro正面首曝：2K 144Hz视觉四等边直屏

一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

小米15T/15T Pro发布：小米最强天玑旗舰 5400元起

真我、京东方王炸组合！GT8 Pro全球首发2K 144Hz苍穹屏：神级好直屏

今日大家都在搜的词：

热文

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

马斯克个人财富达5000亿美元特斯拉市值飙升助力

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

苹果iOS18.7.1正式版更新发布重要安全修复

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

罗永浩替小米说公道话：海报小字是行业陋习

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

iPhone调休闹钟上热搜苹果客服回应：需手动设置

腾讯QQ闪传功能上线支持单文件最大10GB传输

站长商机