GPT-4V搞不明白勾股定理！基准测试错误率竟高达90%

2023-10-31 21:18 · 稿源：站长之家

要点:
1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench，揭示了其高达90%的错误率，包括对勾股定理的误用和无法识别红绿灯的致命错误。
2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉，强调了视觉和语言之间微妙平衡的重要性。
3. HallusionBench测试包含大约200组视觉问答，关注视觉错觉和知识幻觉，揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足，以及处理多个图像之间的时间关系和常识查询问题。

站长之家（ChinaZ.com）10月31日消息:近日，马里兰大学发布了一项重要研究，针对GPT-4V视觉模型进行了首个专为其设计的基准测试，名为HallusionBench。这项研究揭示了令人震惊的发现，即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用，比如将勾股定理错误应用于非直角三角形，并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。

研究人员将这些错误分为两大类，即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库，对问题和图像背景作出不恰当的先入为主的假设，而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性，以确保模型能够准确地理解并回答问题。

HallusionBench测试包括大约200组视觉问答，其中近一半由人工专家创作。测试涵盖了多个领域，包括数学、文化、体育、地理等，涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调，GPT-4V在回答视觉问题组的错误率高达近90%。此外，研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力，发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。

这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论，特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进，以提高它们的视觉理解能力，减少语言和视觉之间的错觉，并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识，以及推动其在现实世界中的应用具有重要意义。

（举报）

相关推荐

关键词：

GPT-4V

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
DeepSeek-V3.2-Exp正式发布

DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp，该模型基于V3.1-Terminus升级，引入创新的稀疏注意力机制DSA，首次实现细粒度稀疏注意力，在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面，官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整：输入缓存0.2元、输入未缓存2元、输出3元，开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

DeepSeek-V3.2-Exp 稀疏注意力机制 DSA
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
DeepSeek更新至V3.1 Terminus版本：两大升级

9月22日，深度求索宣布DeepSeek V3.1已更新至Terminus版本，官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上，针对用户反馈进行改进：优化语言一致性，缓解中英文混杂、异常字符等问题；提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定，各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

DeepSeek V3.1 Terminus版本
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

在2025年TOKEN2049新加坡峰会期间，Matrixport举办闭门论坛探讨数字资产财库战略。与会专家一致认为，DAT正从风控工具升级为机构战略核心，预计将形成寡头主导格局。Matrixport通过一站式解决方案推动行业标准化，其管理的DATCO持仓规模突破千亿美元。论坛凸显DAT作为华尔街资本入局加密市场的重要通道，未来将在全球金融体系中扮演关键角色。

数字资产加密市场财库管理
真我GT8 Pro正面首曝：2K 144Hz视觉四等边直屏

真我GT8+ Pro曝光，采用视觉四等边2K直屏，为业内首款2K+144Hz屏幕，搭载BOE Q10+发光材料，峰值亮度达7000nit。配备第五代骁龙8至尊版芯片，采用台积电3nm工艺，搭配电竞独显芯片R1优化性能。影像方面搭载2亿像素潜望长焦，支持3倍光学变焦和120倍数码变焦，摄像头模组采用独特机器人形状设计。此外配备对称式双扬声器、120W快充、7K大电池及X轴线性马达等。真我高管称其为同价位最佳屏幕之一，预计节后公布更多信息。

真我GT8 Pro 2K直屏
一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

真我GT8+ Pro屏幕参数全面曝光，搭载2K 144Hz“苍穹屏”，行业首发4000nit阳光显示，峰值亮度达7000nit。采用京东方Q10+发光材料，支持360Hz四指触控采样率与3200Hz瞬时触控，响应更快。首发1nit极暗护眼技术，支持全应用适配，并引入真彩护眼低蓝光方案，色彩准确度提升64.8%。全亮度DC调光默认开启，SVM频闪指标低至0.07。真我中国区总裁徐起表示，随着电池容量升级至7K mAh级别，2K屏功耗问题得到平衡，这将是同价位最佳屏幕之一。新机预计十月发布。

真我GT8 Pro 2K
荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化资讯功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短视频制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

京东物流超脑大模型2.0 异狼具身智能机械臂系统

今日大家都在搜的词：

热文

3 天
7天

GPT-4V搞不明白勾股定理！基准测试错误率竟高达90%

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

DeepSeek-V3.2-Exp正式发布

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

DeepSeek更新至V3.1 Terminus版本：两大升级

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

真我GT8 Pro正面首曝：2K 144Hz视觉四等边直屏

一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

今日大家都在搜的词：

热文

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

马斯克个人财富达5000亿美元特斯拉市值飙升助力

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

站长商机