GPT-4V搞不明白勾股定理！基准测试错误率竟高达90%

2023-10-31 21:18 · 稿源：站长之家

要点:
1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench，揭示了其高达90%的错误率，包括对勾股定理的误用和无法识别红绿灯的致命错误。
2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉，强调了视觉和语言之间微妙平衡的重要性。
3. HallusionBench测试包含大约200组视觉问答，关注视觉错觉和知识幻觉，揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足，以及处理多个图像之间的时间关系和常识查询问题。

站长之家（ChinaZ.com）10月31日消息:近日，马里兰大学发布了一项重要研究，针对GPT-4V视觉模型进行了首个专为其设计的基准测试，名为HallusionBench。这项研究揭示了令人震惊的发现，即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用，比如将勾股定理错误应用于非直角三角形，并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。

研究人员将这些错误分为两大类，即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库，对问题和图像背景作出不恰当的先入为主的假设，而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性，以确保模型能够准确地理解并回答问题。

HallusionBench测试包括大约200组视觉问答，其中近一半由人工专家创作。测试涵盖了多个领域，包括数学、文化、体育、地理等，涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调，GPT-4V在回答视觉问题组的错误率高达近90%。此外，研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力，发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。

这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论，特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进，以提高它们的视觉理解能力，减少语言和视觉之间的错觉，并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识，以及推动其在现实世界中的应用具有重要意义。

（举报）

相关推荐
大家在看

关键词：

GPT-4V

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐ChatGPT能预测未来特定事件，准确率高达97%

贝勒大学经济学院的PhamHoangVan和ScottCunningham两位教授，基于OpenAI的GPT-3.5、GPT-4深度研究了大模型对事情的预测能力。研究人员使用了直接预测和未来叙述两种提示方法，进行了100次提示。ChatGPT模型的预测能力也受限于其训练数据的截止日期和范围，以及在生成预测时可能受到伦理和法律的限制。

ChatGPT
荐发布几小时，微软秒删媲美GPT-4开源大模型！竟因忘记投毒测试

【新智元导读】前段时间，微软公布并开源了最新一代大模型WizardLM-2，号称性能堪比GPT-4。还未上线一天，模型权重和公告全被删除了，原因竟是......上周，微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。开发者们还需要耐心等待，微软团队承诺，会在测试完成后重新上线。

GPT-4 WizardLM-2
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
GPT-4整顿学术圈！撤稿预测与人类95%一致

中国人民大学和浙江大学的研究团队进行了一项有趣的研究，他们发现GPT-4在预测学术论文撤稿方面的能力与人类审稿人有着惊人的相似性，准确度高达95%。这项研究不仅展示了大型语言模型在学术诚信维护中的潜在作用，同时也揭示了AI在学术研究问题上的应用关键在于如何为人类所用。ZhichaoFang是中国人民大学信息资源管理学院助理教授，他的研究方向为科学学、科学计量和社交媒体计量学。

GPT-4 AI头条
重磅！GPT-4 API全面开放使用

经过漫长等待，OpenAI终于宣布全面开放GPT-4API，这一消息如同一场技术革命的宣告，为生成式AI应用的发展带来了新的契机。GPT-4不仅在创造性方面有所突破具备更强的上下文处理能力，极大地拓展了其应用场景。预计随着时间的推移，GPT-4将在各行各业发挥越来越重要的作用，推动生成式AI应用的发展进程。

GPT-4 GPT-4API AI头条
有网友曝光OpenAI 发给红队测试人员邀请邮件：GPT-5已经开始红队测试

有网友曝光了OpenAI发给红队测试人员的邀请邮件，表明GPT-5已经开始红队测试，可能最早在6月发布。网友们开始对GPT-5展开畅想，呼唤Altman发布这一新模型。对于OpenAI来说，这一举措也将进一步巩固其在人工智能领域的领先地位，引领未来的技术发展。

GPT-5 AI头条
股价飙升！商汤大模型挑战GPT4

4月24日，商汤集团在港交所暂停交易前股价上涨31.15%。商汤集团表示，其大模型日日新5.0发布会受到市场极大关注，公司将进一步刊发相关公告。商汤的生成式AI业务在2023年取得了显著增长，占总收入的35%。

商汤
荐开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

GPT-4又又又被超越了!近日，LLM竞技场更新了战报，人们震惊地发现:居然有一个开源模型干掉了GPT-4!这就是Cohere在一周多前才发布的CommandR。排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard截至小编码字的这个时间，竞技场排行榜更新到了4月11号，CommandR拿到了2.3万的投票，综合得分超越了早期版本的GPT-4，和GPT-4-0314版本并列第7位，——它可是一个开源模型。2024年，在开源和闭源两条道路上，LLM都发展迅猛。

Cohere CommandR+ 人工智能
十铨推出CREATE EXPERT SMART存储卡：写速高达160MB/s

十铨推出的CREATEEXPERTSMARTMicroSDXC系列专业TF存储卡是一款功能强大且设计精良的产品。它主要针对运动相机和无人机等应用场景，强调了其出色的耐用性，这对于在这些环境中使用的设备来说至关重要。这款存储卡还配备了智能SMART监控优化功能，这可以帮助用户更好地管理和优化存储卡的性能，确保其始终处于最佳状态。

专业TF存储卡 CREATE EXPERT
OpenAI发布GPT-4-Turbo 正式版可识别图片

OpenAI发布了GPT-4-Turbo正式版，这是一个带有视觉能力的模型，能够处理128k的上下文。这个模型现在已经全面开放，可以通过“gpt-4-turbo”来使用，最新版本为“gpt-4-turbo-2024-04-09”。GPT-4-Turbo是一个功能强大的模型，它的发布将为AI领域带来新的可能。

GPT-4 AI头条

今日大家都在搜的词：

热文

3 天
7天

GPT-4V搞不明白勾股定理！基准测试错误率竟高达90%

今日大家都在搜的词：

热文

站长商机