首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画！

2024-01-31 09:20 · 稿源：站长之家

要点:
1. 马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos，涵盖真实世界、机器人和动漫图像序列，挑战MLLM在连续图像上的推理能力。
2. 对GPT-4V和Gemini等多模态大语言模型进行测试时发现，它们在图像序列推理中的表现不足20%，甚至在漫画数据集中对人物行为的正确率令人惊讶低下，揭示了它们在处理幻觉、对象识别和行为理解上的不足。
3. Mementos测试发现MLLM在图像序列推理中容易产生两种幻觉:对象幻觉和行为幻觉。错误的对象识别可能导致后续行为识别的不准确，共现效应加剧了行为幻觉问题，而行为幻觉的雪球效应导致错误逐渐累积和加剧。

站长之家（ChinaZ.com）1月31日消息:近期，马里兰大学与北卡教堂山合作发布了Mementos，这是专为多模态大语言模型（MLLM）设计的图像序列基准测试，旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而，测试结果令人震惊，GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。

项目地址:https://mementos-bench.github.io/

测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象，而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确，共现效应加剧了行为幻觉问题，而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。

在具体的图像案例中，MLLM对于漫画中的场景和行为理解存在明显的困难，例如将人物行为错误识别为持武器相互打斗。作者还指出，这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外，测试结果还表明，训练数据的局限性对于开源MLLM的推理能力有直接影响，强调了训练数据的重要性。

Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估，揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战，并强调了进一步研究和优化的迫切性。

（举报）

首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画！

谷歌ai垄断？谷歌每月向三星支付“巨额费用”，让其预装Gemini

谷歌首推Gemini 2.5 Flash：成本爆降600%

荐AI日报：智谱发布Agent产品AutoGLM沉思；谷歌Gemini 2.5 Pro免费开放使用；ChatGPT原生图像生成功能向免费用户推出

迄今最贵！谷歌Gemini 2.5 Pro API定价公布：每百万输入tokens超9元

超过ChatGPT、Deepseek？谷歌发布 Gemini 2.5 Flash AI 模型

谷歌Gemini整合Veo 2视频生成模型，8秒720P视频轻松搞定

荐“血亏，我花3000+元用Claude做游戏，结果还不如去「白嫖」Gemini 2.5……”

荐秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

首次实现图像思考 OpenAI重磅发布o3/o4-mini：史上最强、最智能模型

热文

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

4chan 之“死”：互联网最狂野的角落逐渐消逝！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

站长商机