首页 > 业界 > 关键词  > GPT-4V最新资讯  > 正文

GPT-4V搞不明白勾股定理!基准测试错误率竟高达90%

2023-10-31 21:18 · 稿源:站长之家

要点:

1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench,揭示了其高达90%的错误率,包括对勾股定理的误用和无法识别红绿灯的致命错误。

2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉,强调了视觉和语言之间微妙平衡的重要性。

3. HallusionBench测试包含大约200组视觉问答,关注视觉错觉和知识幻觉,揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足,以及处理多个图像之间的时间关系和常识查询问题。

站长之家(ChinaZ.com)10月31日 消息:近日,马里兰大学发布了一项重要研究,针对GPT-4V视觉模型进行了首个专为其设计的基准测试,名为HallusionBench。这项研究揭示了令人震惊的发现,即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用,比如将勾股定理错误应用于非直角三角形,并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。

image.png

研究人员将这些错误分为两大类,即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库,对问题和图像背景作出不恰当的先入为主的假设,而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性,以确保模型能够准确地理解并回答问题。

HallusionBench测试包括大约200组视觉问答,其中近一半由人工专家创作。测试涵盖了多个领域,包括数学、文化、体育、地理等,涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调,GPT-4V在回答视觉问题组的错误率高达近90%。此外,研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力,发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。

这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论,特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进,以提高它们的视觉理解能力,减少语言和视觉之间的错觉,并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识,以及推动其在现实世界中的应用具有重要意义。

举报

  • 相关推荐
  • 阿布扎比马斯达尔城启动新一代L4级无人驾驶车辆测试

    穆巴达拉集团旗下智慧出行公司Solutions+与马斯达尔城达成合作,开始在城内测试L4级自动驾驶汽车。测试由阿布扎比综合交通中心(ITC)监管,涵盖车辆注册、道路测试及运营许可全流程。测试车辆搭载L4系统,可在特定区域实现完全自主行驶。马斯达尔城作为清洁技术和智能出行领导者,正打造成为自动驾驶技术试验场。初期测试路线长2.4公里,连接西门子大楼等关键地标。该合作将助力阿联酋实现2050年净零排放战略,同时推动自动驾驶技术发展,为未来更广泛部署奠定基础。

  • 日本关东地区暴雨 井盖涌出“喷泉”:高达数米 碎片四溅

    7月10日,日本关东地区遭遇了罕见的暴雨天气,导致路面一处井盖突然涌出如同喷泉般的水柱,造成路过车辆受损及人员受伤。 据日本媒体报道,当天关东地区降下倾盆大雨,横滨市一处路面井盖在巨大水压下被顶开,喷出高达数米的水柱,伴随着水泥地碎片四溅。

  • 尾号“8个7”手机号拍出320万元 溢价率高达146%

    今日,阿里资产拍卖平台上一场特殊的拍卖引发广泛关注——一个尾号为“8个7”的移动手机号码15177777777以320万元高价成交。该号码自开拍起便备受瞩目,最终吸引了11名竞买人参与角逐,从130万元起拍价一路攀升至成交价,溢价率高达146%。 据平台信息显示,截至2025年6月7日,该号码无欠费记录,账户余额约30.6元。根据通信行业号码分级规则,此类尾号连续重复的号码被认�

  • 从硬塞广告到看剧下单,免费短剧把生意做明白了?

    对短剧带货这一营销模式,相信外界一定不会陌生。 自从短剧一夜爆火,并在此后一路高歌猛进,成为影视界的一股新势力之后,短剧带货便应运而生,迅速成为商家们的新宠。 从在剧集播放间隙插入广告,到品牌定制短剧将产品植入剧情,再到将购物小黄车挂到剧中,短剧带货模式的不断进化,不只是将商品链接从幕后带到了台前,也让免费短剧平台找到了盈利的新途径�

  • 比特币首触112000美元:盘中涨幅最高达3%

    7月10日,加密货币市场传来重磅消息,比特币价格首次向上触及112000美元,一举刷新历史新高,盘中涨幅最高达3%,这一行情引发了市场的广泛关注与热议。 从年内表现来看,比特币今年迄今涨幅约为19%,展现出强劲的上升势头。此次价格的大幅上涨,不仅让持有比特币的投资者收获颇丰,也吸引了更多市场目光的聚焦。

  • 枯树枝坠落竟插入男子脖子直达胸腔 深达12厘米 医生:万幸避开了大血管

    近日,陕西西安一男子突然遭遇一场意外。 事发时,一根直径约3厘米的枯枝从高处掉落,自左侧颈部斜向右下贯入,竟意外直达胸腔,插入他体内约12厘米。 随后,男子被紧急送往医院治疗。接诊后,影像学检查显示,枯枝前方紧邻左无名静脉,后方压迫主动脉弓分支,远端贴近上腔静脉任何一处血管破裂都将瞬间致命。 医生迅速制定方案并开展手术,成功取出异物,创�

  • 349元 OPPO K13 Turbo散热超级套装发布:液冷+风冷给手机“冻”感冒

    OPPO发布K13 Turbo系列手机及配套疾风散热超级套装,套装售价299元起。该散热套装采用微泵循环液冷+27W冰翼风冷磁吸散热方案,通过全面散热片、微泵驱动液冷及磁吸连接的风冷散热器实现均衡降温,官方称背夹单体最高降温33℃。相比传统散热方式,该套装能精准覆盖主板等发热区域,厚度仅23.5mm,重量82g,并设计有循环液流观察窗。

  • ​华瑞指数云再获国家权威认证:全部代码自主率95.63%!

    华瑞指数云ExponTech自主研发的ET-WDS极速硬盘存储系统V3.0版本通过工信部电子五所中国赛宝实验室代码扫描测试,代码自主率达95.63%。这一成果彰显了企业在存储技术领域的研发实力,为国产信息化技术发展提供支撑。在国家推进央国企100%信创替代的政策背景下,该产品将助力AI等新技术在产业领域的落地应用。华瑞指数云表示将持续加大研发投入,提升产品性能,加强与产业链合作,共同推动国产存储技术的创新发展。

  • 颠覆自我,涅槃重生 | ETest V5.0 重磅发布!

    国内领先的仿真测试开发环境ETest推出V5.0版本,在测试全流程管理、系统灵活性、开发效率等方面实现全面突破。新增测试需求管理功能,支持需求与测试用例动态关联;资源管理模块支持复杂系统配置;ICD管理升级为独立核心功能,支持多维协议设计;新增用例库与测试序列管理,支持Python生态集成;引入AI引擎实现自然语言转测试脚本功能,提升需求分析效率70%。该版本已在航空、汽车电子、工业测控等领域成功应用,支持国产高端装备测试技术国产化发展。

  • 90%-200%增长,不靠流量靠这招

    ​GMV翻倍,不一定要靠砸钱买流量。慧博科技运营VP周宇的解法很直接——全域会员运营。 在对30万+品牌客户的分析中,周宇和团队发现,一旦打通全域会员体系,品牌GMV的增长率普遍可以做到90%~200%,尤其是宠物、酒饮等行业,效果最为明显。 周宇曾在品牌方做了近10年,对行业生态有深刻的理解。她观察到,目前大多数品牌还停留在单渠道会员运营阶段:淘宝、京东、抖音