GPT-4V都考不过？基于大学水平考试的多模态AI测试基准MMMUs发布

2023-12-01 14:11 · 稿源：站长之家

要点:
最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试，挑战了当前最强大的GPT-4V等模型，展现了其在深度和广度方面的性能。
MMMU包含六个学科的30个科目，涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等领域，共有1.15万个多模态问题，考察了感知、知识和推理等基本技能，为评估专家级AGI提供了全面而复杂的任务。
MMMU在问题设计上注重深度，包含专业领域知识和高级推理，通过涵盖多种图像格式和混合文本图像输入，要求AI模型在理解、记忆、推理等方面具备高级能力，挑战了当前多模态基准的局限性。

站长之家（ChinaZ.com）12月1日消息:近日，一项基于大学水平考试的多模态AI测试基准MMMUs发布，旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战，通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目，共有1.15万个问题，考察了感知、知识和推理等基本技能。

论文地址:https://arxiv.org/abs/2311.16502

项目网站:https://mmmu-benchmark.github.io/

数据集:https://huggingface.co/datasets/MMMU/MMMU

代码:https://github.com/MMMU-Benchmark/MMMU

MMMUs的问题涵盖了大学考试、测验和教科书，由50位来自不同学科的大学生收集，涉及了多种图像格式，从照片和绘画到图表和表格。这使得该基准不仅考察了常识和日常知识，还注重专业领域知识和高级推理。此外，MMMUs具有文本和图像混合的输入，要求AI模型在处理这种混合信息时展现深度学科知识和执行复杂推理的能力。

在实验评估中，MMMUs展现出极大的难度，即使是当前最先进的GPT-4V也仅在55.7%的问题上取得准确答案，表明AI技术在这一领域仍有巨大的改进空间。通过这一基准的构建和评估，研究团队为进一步推动人工智能系统的发展和深入研究提供了有力的工具和参考。

总体而言，MMMUs作为一项全面、具有挑战性的多模态AI测试基准，为评估专家级AGI的发展提供了新的视角和标准。这将有助于推动人工智能领域的发展，引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。

（举报）

相关推荐

关键词：

Meta拟百亿美元投资Scale AI，微美全息（WIMI.US）端侧多模态AI加速开启科技新局

Meta正与AI初创企业Scale AI洽谈数十亿美元投资，估值或超100亿美元，有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务，是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资，标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心，2024年将投入650亿美元推进相关项目，重点打造Llama模型成为行业标准。同时，谷歌推出Gemini助手"计划操作"新功能，支持任务自动化管理。科技巨头纷纷重金布局AI，微软向OpenAI注资逾130亿美元，亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命，微美全息等企业正通过技术创新赋能产业转型，共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

Meta投资 Scale AI
AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

6月6日，浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品，它搭载行业首创AI多模态万物原生跟拍技术，支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统，折叠后体积小巧便携。配备22英寸触控彩屏，支持5米手势控制和隔空补光功能。售价999元起，同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年，产�

hohem 浩瀚V3 Ultra
告别传统测试困局：测试总监如何用过AI测试重塑银行质量防线

金融行业数字化转型浪潮下，银行测试面临技术变革挑战。传统人工测试模式难以应对分布式架构、微服务化等新技术要求。Testin云测推出的XAgent智能测试系统，通过AGI技术实现全流程智能化管理，颠覆传统测试模式：1）需求分析环节自动提取业务规则生成风险矩阵；2）测试用例生成环节基于检索增强技术自动生成差异化用例；3）执行环节整合计算机视觉技术精准定位缺陷。某大型股份制银行应用后，测试效率显著提升，缺陷复发率大幅下降。AI测试正从效率工具升级为构建金融信任体系的重要基石，未来将通过多模态大模型深度解析业务规则，实现测试逻辑与业务逻辑的深度融合。拥抱智能化测试变革，既是破解质量难题的必由之路，更是构建长期竞争优势的战略选择。

银行数字化转型智能测试系统软件测试创新
AI测试如何成为数智化升级的核心基础设施

2025年全球AI应用将突破5亿大关，金融、汽车、医疗等关键领域对软件质量要求剧增。Testin云测作为唯一入选"2025 AI科技小巨人TOP50"的测试服务商，通过AI测试技术推动行业变革：测试周期从天级压缩至小时级，效率提升1.5倍；其XAgent系统实现从错误记录到智能根因分析的质控突破，在金融APP交互检测、汽车CAN总线验证等领域表现卓越。AI测试正从技术选项进化为数字时代基础设施，预计2026年超80%企业测试将实现AI自动化。Testin云测CEO徐琨表示，AI重构的质量保障体系让每次软件迭代都成为可信进化。随着AI测试技术突破，其不仅筑牢数字世界质量防线，更重新定义"可靠"的技术维度。

AI测试数字质检员智能软件质量
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
从车企CIO视角看Testin云测的智能座舱AI测试实施案例

文章探讨了智能座舱成为车企差异化竞争核心的趋势。2024年数据显示，智能座舱故障率高居新能源汽车投诉首位，暴露传统测试模式在复杂系统下的不足。以Testin云测为代表的AI测试服务商通过三大技术重构测试体系：1）视觉引擎实现跨系统界面识别，测试效率提升3倍；2）缺陷预测模型使65%问题在开发阶段暴露，降低后期修复成本50%；3）云端设备池化使硬件利用率从30%提升至65%。某头部车企案例显示，该方案使测试效率提升35%，缺陷检出率提高55%，年节省测试费用超千万元。未来趋势将向AI深度渗透、虚实结合测试和全生命周期管控发展。

智能座舱汽车测试 AI测试
算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

6月21日，东信云与华为云在HDC2025大会上签署合作协议，双方将基于昇腾AI云服务深化合作，重点布局多模态大模型应用与数字人技术。合作内容包括：1）构建智能营销系统，整合文本、图像、视频等多元数据，提升市场分析和消费者行为预测能力；2）通过大模型实现营销内容自动化生成，包括新闻稿、社交媒体帖子和广告文案；3）优化大模型架构，提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人，显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统，推动营销行业智能化升级。

华为云东信云科技 AI与大数据
智能座舱AI测试服务商盘点 ——Testin 云测

文章探讨了智能网联汽车与智能座舱的发展趋势及测试挑战。智能座舱正从传统人机交互向全域智能化生态演进，其软件系统的稳定性、交互精准度和迭代敏捷性成为车企竞争关键。行业面临三大测试痛点：异构设备协同测试的资源调度困境、复杂场景的全链路测试覆盖难题，以及敏捷开发模式下的质量保障矛盾。Testin云测通过AI测试系统XAgent提供解决方案，采用微服务架构和容器化部署，实现测试资源弹性调度，并融合机器视觉、自然语言处理等技术提升测试效率。实践案例显示，该系统帮助车企提升测试效率35%，自动化覆盖80%功能点，缺陷检测率提升55%，全年节省测试成本超千万元。未来，随着智能座舱向舱驾融合、多模态交互发展，测试技术将呈现AI深度赋能、虚实结合仿真等趋势。

智能座舱汽车数字化体验 AI
OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

OpenAI推出突破性的o3推理模型，首次实现图像直接融入推理过程，在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级，上下文窗口从12K扩展至23K，幻觉率降低45%-50%。行业呈现开源趋势，DeepSeek开源策略促使多家企业跟进，OpenAI也考虑开源。微美全息加速布局多模态大模型，计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进，开源技术显著降低训练门槛，提升泛化能力，为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇，在大模型驱动的新时代找准定位。

OpenAI o3模型多模态推理
荐多模态2025：技术路线“神仙打架”，视频生成冲上云霄

一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人，以及学术界的人大和MIT（麻省�

多模态大模型智源大会2025 人工智能技术

热文

3 天
7天

GPT-4V都考不过？基于大学水平考试的多模态AI测试基准MMMUs发布

Meta拟百亿美元投资Scale AI，微美全息（WIMI.US）端侧多模态AI加速开启科技新局

AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

告别传统测试困局：测试总监如何用过AI测试重塑银行质量防线

AI测试如何成为数智化升级的核心基础设施

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

从车企CIO视角看Testin云测的智能座舱AI测试实施案例

算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

智能座舱AI测试服务商盘点 ——Testin 云测

OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

荐多模态2025：技术路线“神仙打架”，视频生成冲上云霄

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

董明珠说自己尽量少说话让年轻管理团队走向台前

安克修改召回方案充电宝泡盐水处理后可获赔

小米YU7将开启限时改配非准现车锁单用户可参与

站长商机