首页 > 业界 > 关键词  > GPT最新资讯  > 正文

研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%

2023-11-21 16:49 · 稿源:站长之家

要点:

  • 美国圣塔菲研究所的研究显示,GPT-4在图形推理任务上的准确率仅为33%,而多模态版本GPT-4v的表现更差,只有25%。

  • 通过使用ConceptARC数据集,作者对451名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为91%,远高于GPT-4。

  • 研究者招募受试者的方式和GPT-4的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。

站长之家(ChinaZ.com)11月21日 消息:最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。

通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。

image.png

论文地址:https://arxiv.org/pdf/2305.07141.pdf

多模态版本GPT-4v的表现更差,只有25%的准确率。这凸显了在涉及图形处理的任务中,大型语言模型的多模态能力也受到限制。

研究者使用ConceptARC数据集进行测试,其中包括16个子类的图形推理题,涵盖了位置关系、形状、操作、比较等多个方面的内容。

然而,这项研究的方法引发了一些质疑,包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者,入门测试被认为不足以筛选高质量的受试者,样本的随机性受到争议。

此外,GPT-4的输入方式也引发了一些争议,特别是将图像转换为数字矩阵可能改变概念,这使得一些人对实验结果的可信度产生疑问。综合而言,这项研究突显了目前大型语言模型在某些特定任务上的局限性,并提出了对研究方法的进一步审视的需求。

举报

  • 相关推荐
  • AI日报:OpenAI未官宣新旗舰GPT-5.6意外曝光;昆仑万维发布天工SkyClaw-v1.0;阿里 Qwen3.7-Max 编程能力全球登顶第二

    本期AI日报涵盖多项前沿动态:OpenAI未官宣的GPT-5.6意外曝光,拥有150万token超长上下文,预计圆月发布;昆仑万维推出高性能Agent模型SkyClaw-v1.0,支持百万token上下文;阿里Qwen3.7-Max编程能力全球第二,Code Arena得分1541;商汤Seko AI发布生产链Seko Space,加速漫短剧工业化;Hyper3D Rodin Gen-2.5实现4秒百万面、千万面级3D生成;抖音AI治理谣言,处置浏览下降62%;苹果Siri升级采用谷歌1.2万亿参数模型,本地运行成关键;支付宝完成3亿笔AI支付,发布Token Pay和AI钱包。

  • GPT-3

    最近 GPT-3 火了!这一个新的语言模型 GPT-3 在硅谷迅速成为了推特的热搜关键词。这个由 OpenAI 创建的大型机器学习模型,它不仅可以自己写论文,还会写诗歌,就连你写的代码都能帮你写了。

  • 微软独家授权OpenAI的突破性GPT-3文本生成模型

    微软扩大了与旧金山人工智能研究公司OpenAI的持续合作关系,并获得了AI公司开创性的GPT-3语言模型的新独家许可,该模型是一种自动生成的文本程序,已成为业内同类软件中最复杂的一种。两家公司已经通过OpenAI 正在进行的Azure云计算合同相互纠缠,其中Azure是OpenAI用来访问其训练许多模型所需的大量计算资源的平台,并且微软去年做出了10亿美元的重大投资,成为OpenAI的独家授权云提供商。现在,微软通过获得GPT-3的?

  • OpenAI将向更多开发者开放GPT-3自然语言处理模型的访问

    OpenAI 在周四上午的公告中表示,GPT-3 已经变得更加开放。随着这家人工智能研究机构取消访问其自然语言处理(NLP)应用程序接口(API)的等候名单,此举意味着 OpenAI 已对该程序感到足够安全和自信,后续将有助于推动业内领先的读写 AI 模型的访问。Axios 指出,来自受支持地图的开发者们,将很快能够注册访问 OpenAI 的 GPT-3 API 并立即开展体验。此前,开发者需要先坐在等候名单上、静待官方审核通过,然后才能获得实验性质的

  • 微软宣布推出Azure OpenAI服务 为开发者带来GPT-3机器学习模型

    微软今日宣布推出 Azure OpenAI 服务,意味着广大客户将可在 Azure 上轻松使用 OpenAI 的 GPT-3 机器学习模型。作为 OpenAI 的开创性语言模型,在适当的条件下,你甚至只需输入几条简短的提示信息,就可以让 GPT-3 输出像是人类的文本。不过目前 Azure OpenAI 仍处于有限体验的阶段,即使愿意付费,也要再等待一段时间。微软表示,Azure OpenAI 现仅限邀请、适用于“计划实施定义明确的用例的客户”,包括使用人工智能技术来制定负

  • 超大规模智能模型“悟道2.0”发布 参数规模达GPT-3的10倍

    在1日召开的2021北京智源大会上,北京智源人工智能研究院发布了新版超大规模智能模型“悟道2.0”,这是在今年3月20日发布的“悟道1.0”基础上更新迭代而来,具备大规模、高精度、高效率的特点。“悟道”模型旨在打造数据和知识双轮驱动的认知智能,让机器像人一样思考,实现“超越图灵测试的机器认知能力”。“悟道”团队在大规模预训练模型研发上做了很多基础性工作,形成了自主的超大规模智能模型技术创新体系,拥有理论、工具、

  • GPT-5前瞻!GPT-5将具备哪些新能力?

    SamAltman在整个AI领域,乃至整个科技领域都被看作是极具影响力的存在2023年OpenAI无限反转的宫斗事件更是让SamAltman刷足了存在感,他甚至被《时代》杂志评为“2023年度CEO”。SamAltman的一条推文,瞬间就可以成为轰动整个AI行业的信号,特别是当这条推文还与万众期待的“GPT-5”有关的时候。希望在未来发布的GPT-5中,OpenAI可以起到先导作用,率先实现生态与商业化之间的平衡。

  • GPT5上线大翻车!用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

    OpenAI发布最强AI模型GPT-5,但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降,且官方突然下架GPT-4o等8个旧模型,导致付费用户抗议。部分用户对旧版产生情感依赖,认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升,但交互体验明显退步。CEO承认低估用户对旧版的喜爱,承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减,面临数据质量和算力成本限制。总体而言,GPT-5在技术指标进步的同时,牺牲了情感交互体验。

  • GPT-4正式发布!如何访问GPT-4?怎么免费使用GPT-4?

    当地时间周二,生成式人工智能巨头+OpenAI+在全球发布了其最新产品,也就是GPT-4,这是下一代大型语言模型,比+ChatGPT+模型更为先进。让不少人感到可惜的是,与去年11月推出的+ChatGPT+不同,并不是任何人都可以免费试用这款新模型。无论你喜欢与否,都有很好的机会很快与GPT-4进行交互。

  • 微软为Power Apps引入GPT-3自然语言模型 致力改善低代码编程体验

    与往年相比,今年的微软开发者大会(Build 2021)并没有带来太多的惊喜。即便如此,微软还是发布了一项让广大开发者感到耳目一新的公告 —— 该公司现已在其无代码 / 低代码(no-code / low-code)Power Apps 服务中使用 OpenAI 的大型 GPT-3 自然语言模型,以帮助开发者轻松地将口述文本翻译成最近宣布的 Power Fx 语言代码。(来自:Microsoft)当然,微软并非希望大家通过 Power Fx 编程语言来复刻一款 TikTok 之类的应用,而是

今日大家都在搜的词: