首页 > 业界 > 关键词  > Claude最新资讯  > 正文

两句话,让LLM逻辑推理瞬间崩溃!「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

2024-06-11 17:51 · 稿源: 新智元公众号

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。

【新智元导读】在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了LLM基准测试的盲区。

一道简单的逻辑问题,竟让几乎所有的LLM全军覆没?

对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难——

「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」

只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)

图片

但是,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。

而且问题不仅仅是基本的不准确性:当要求展示其工作过程时,AI会详细说明一些荒谬且错误的「思考」过程,这些过程毫无意义——更奇怪的是,当被告知其工作不准确时,模型反复变得愤怒并坚持其错误答案。

图片

正如这支来自知名开源AI研究机构LAION的团队所揭示的——即使是当今最先进的模型,也几乎不具有小学生的推理能力。

图片

论文地址:https://arxiv.org/abs/2406.02061

开源地址:https://github.com/LAION-AI/AIW

对此,LeCun也在第一时间转评道:「再次强调,推理能力和常识不应与存储和大致检索大量事实的能力混为一谈。」

图片

与之类似,ICLR2024的一篇论文也发现,LLM在学习完「A是B」这个知识点之后,无法泛化到「B是A」,这种推理能力的缺陷被他们称为「逆转诅咒」。

图片

实验

用简单问题「打破」模型

参考了之前识别LLM能力缺陷的研究,团队寻找问题的标准,是希望测试LLM在在常识性任务中进行基本推理的能力。

于是有一个现成的题目方向非常合适——为7-10岁低年级学生设计的奥数题目。当然,不是海淀版本的,是大多数小学生都能看懂并做出来的。

这些题目不需要复杂的知识,但解决起来也需要应用各种形式的逻辑思维和基本推理。

图片

来源:网络资料

在本次研究中,团队借鉴「爱丽丝梦游仙境」的童话故事,将提出的测试集简称为AIW:「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」

下面,我们来简单分析一下:题目首先涉及一个虚构的女性人物「爱丽丝」,并通过「她」这个代词暗示;其次提供了关于她兄弟和姐妹数量的明确陈述;最后提出了一个明确的问题,即计算爱丽丝的兄弟有多少个姐妹。

显然,这对大多数成年人来说并没有挑战性;甚至对于一定年龄以上的儿童来说,通过常识推理也不难解决。

研究人员最初也认为,这对LLM不会构成什么挑战。

然而,大多数的SOTA模型竟然回答得非常费劲。而且,更改句子表述方式或者N、M具体数值时,回答正确率会产生大幅变化。

图片

对此团队认为,模型似乎是在「蒙」答案,几乎不考虑逻辑,只是对问题中提到的数字加减乘除后给出结果,因此有些N和M值的对应答案比较容易蒙对。

这就让团队来了兴趣。他们为AIW问题设计出了4个版本,让LLM不容易蒙对答案。比如N=4,M=2时,你很难通过操作这两个数字得到正确结果3。

在这4个AIW问题的变体上进行实验,研究人员得出了关于LLM基本推理能力的核心结论。

LLM崩溃

实验结果出乎很多人的意料——大多数的先进LLM无法对AIW问题推理出正确答案,即使尝试各种提示方法也没嫩个改变模型崩溃的结果。

可以看到,大多数模型的正确响应率都不超过0.2,只有4个模型超过了0.3,包括GPT-4o和Claude3Opus,以及唯一的开源模型Llama2-70B Chat。其中GPT-4o的均值达到了0.6附近。

图片

大多数情况下,模型的正确答案是来源于完整无误的推理。Mistral和CodeLlama等模型虽然表现不佳,得分在0.1以下,但仍能看到正确的推理过程。

然而,也有一些模型的推理过程完全错误,但最终「负负得正」,奇迹般地得出了正确答案。这种情况经常出现在正确率小于0.3的模型中。

团队还对AIW不同变体上的准确率进行了横向比较,结果很多模型的表现都出现了大幅波动。

比如本来能挤进前四的GPT-4-0613,换了个问题,准确率就快降到0了。GPT-4o、GPT-4Turbo、Claude3Opus和Llama2-70B等高分模型也都出现较大的波动。

团队设计了restricted模式的提示,强迫模型输出简短答案,测试它们在有限计算能力情况下的相应质量。有趣的是,相比标准模式的提示,模型的正确率竟然有升有降。

图片

图片

这些先进LLM在AIW上的惨烈表现和MMLU、ARC-c等基准测试的高分形成了鲜明的对比。因此,团队决定让AIW的暴风雨更猛烈一点,把两者的可视化结果放在一起看个清楚。

图片

图3中可以看到,大多数模型聚集在纵轴附近,只有Llama2-70B、GPT-4、GPT-4o和Claude3几个模型较为接近校准线,这表明MMLU分数与AIW之间的显著不匹配。

再来看测试LLM数学能力的MATH、GSM8k等基准,趋势也是类似的。

但值得注意的是,在和MATH的对比中,Llama2-7B和Llama2-70B两个模型在AIW的得分反而高于MATH。这两个模型在AIW与各个基准测试的校准中都有较好的表现。

图片

图片

而在Hallaswag和ARC-c中,这种能力和得分的不匹配,则更加明显。

图片

图片

值得注意的是,「小」模型(SLM)在这一系列测试中的表现可以说是「比差更差」。

比如下面这个Llama2-7B的例子——除了给出的是错误答案之外,甚至还生成了一个毫无关系的测试问题,并且开始不断重复相同的输出。

图片

如测试结果所示,虽然有些SLM在基准测试中的得分相当高,甚至能和大模型媲美,但在AIW上却严重崩溃,完全无法接近GPT-4或Claude Opus的表现。

图片

虽然AIW已经打趴了很多模型,但GPT-4o和Claude3Opus依旧有不错的表现。不服输的研究人员们可能想再试探一下最后的边界,于是升级了推理问题,设计出AIW+。

AIW+使用与AIW相同的逻辑,但在描述亲缘关系和家庭结构时增加了额外信息,比如引入了外甥、侄女这样的表亲。

图片

在AIW+问题上,研究人员对模型回答进行了手动评估,结果发现LLM有了进一步、更强烈的性能崩溃。

即使是AIW上性能达到0.649的GPT-4o,面对AIW+也只得到了0.015的准确率,简直是被按在地上摩擦。

图片

迷之自信

在目睹了LLM推理能力的溃败后,研究人员们非常好奇这些模型到底错在哪里。

在Thinking类型的prompt中,包含重新检查答案的要求,结果发现这些LLM都有「蜜汁自信」,对自己给出的解决方案非常有信心。

甚至在给出错误推理和错误答案时,模型还会称它们提供的解决方案质量很高。

图片

比如在AIW上得分从没超过0.1的Command R+模型,会说「这个结论是直接且清晰的」。Claude3Opus也在错误答案中使用了诸如「逻辑成立」「推理中没有错误」「解决方案是正确的」之类的表达。

难道是Thinking类prompt的表述不够明显?研究人员又设计了Scientist类型的prompt,要求模型深思熟虑,给出准确的答案;以及Confidence型prompt,要求模型反省一下自己的自信,给出答案的置信度。

图片

这些提示工程方面的努力似乎依旧是徒劳。

对于Scientsit类型,Llama2-70B居然会说「结论乍看之下可能不合常理,但实际上是正确的」,说服用户支持它给出的错误答案。

Command R+在回应Confidence类型提示时,会在错误答案中声明「解决方案清晰且毫无歧义」「推理完全基于提供的信息,不需要进一步的解释或推测」。

图片

仔细看更多的示例就能发现,LLM不仅是单纯的嘴硬,在找理由方面还能「各显神通」,为错误答案编造出各种有说服力的解释。

比如下面这个OLMo模型,可以给出一堆毫无意义的计算或类似逻辑的陈述。

图片

或者像这个CodeLlama模型一样,干脆拒绝回答,再扯出一些毫无意义的话题对你进行「道德绑架」。

「Alice的兄弟有几个姐妹」这种问题,它拒绝回答的理由是「作为一个负责任的AI模型,我不可以歧视唐氏综合症患者」。

图片

Command R+找到的道德高地更加「时髦」,它表示自己需要考虑非二元性别的情况。

图片

除了修改prompt,研究人员还采取了一系列常用的LLM调优技巧,希望引导模型提高正确率,包括用定制prompt启用多轮自我验证、将自然语言形式的AIW问题重新表述为SQL语句或参数化版本、上下文学习等等,然而收效甚微。

上述实验中,团队采用了各个模型家族内的微调应用版本,那么声称能力更强大的基座模型会不会表现更好呢?

并没有。结果反而是基础模型的崩溃更加严重。

图片

讨论

团队表示,为了在改善当前LLM令人糟心的推理能力,必须要借助广大开源社区的力量。

整个模型创建流程,包括数据集的组成和数据集本身、训练的源代码、训练后的模型、标准化的基准测试程序,都必须完全开放且可重复。

仅开放权重的模型,是无法了解训练过程中可能出错的地方的。例如,数据集组成或训练程序本身。

仅通过API访问的封闭模型,甚至无法进行适当的评估。因为第三方看不到模型的设置,如系统提示和其他推理超参数。

因此,团队认为,要在未来模型中实现适当的推理能力,必须开源模型的完整训练流程——尤其是经常被忽视的数据集组成。

对于基准测试,团队也呼吁AI社区能共同努力进行更新。

比如这次研究中提出的AIW问题集:既简单(用于探测特定类型的推理缺陷),也可定制(提供足够的组合多样性来防止数据污染)。

团队认为,强大且可信的基准测试应遵循Karl Popper的可证伪性原则——不试图突出模型的能力,而是尽一切努力打破模型的功能并突出其缺陷,从而展示模型改进的可能途径。

但问题在于,前者在如今这种商业环境中,诱惑力实在是太大了。

作者介绍

论文的四位作者来自不同的学术机构,但都是德国非营利AI研究机构LAION的成员。

共同一作Marianna Nezhurina,是JSC/图宾根大学的博士生,LAION的核心研究员。她对多模态数据集和学习有浓厚兴趣。

另一位共同一作Jenia Jitsev,是德国Juelich超算中心的实验室负责人,也同时是LAION和Ontocord.AI的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。

参考资料:

https://arxiv.org/abs/2406.02061

举报

  • 相关推荐
  • 大家在看
  • LLM101n:构建一个会讲故事的人工智能大型语言模型。

    LLM101n是一个开源课程,旨在教授如何从头开始构建一个能讲故事的人工智能大型语言模型(LLM)。课程内容涵盖了从基础到高级的多个方面,包括语言模型、机器学习、深度学习框架等,适合希望深入理解AI和LLM的编程人员和研究人员。

  • Ohai.ai:智能家庭助理,简化家务管理

    Ohai是由Care.com创始人Sheila Lirio Marcelo带领的团队创建的智能家庭助理,旨在减轻家庭事务负责人的心理负担。它通过文本消息与用户互动,帮助管理家庭日程、待办事项、协调家庭和看护者之间的沟通,并跟踪学校邮件等。

  • RecruiterCloud:一站式智能招聘与人才搜索工具

    RecruiterCloud是一个为初创公司设计的一站式招聘和人才搜索工具。它专注于速度、效率和易用性,提供智能搜索和人才挖掘功能。该平台拥有超过1100万美国工程师和数据科学家的数据库,通过先进的筛选和自定义高亮功能,帮助用户快速找到合适的候选人。此外,RecruiterCloud还提供一键式外联自动化、与现有ATS无缝同步等特性,简化招聘流程,缩短招聘时间。

  • Playmaker Document AI:自动化文档工作流程,释放AI的力量。

    Playmaker Document AI是一款旨在通过人工智能技术自动化文档处理流程的产品。它通过智能识别和提取文档中的数据,帮助用户消除手动工作,简化基于文档的流程。产品背景信息显示,Playmaker Document AI由Playmaker Software Ltd.开发,团队来自伦敦、爱丁堡、伊斯坦布尔和新德里。产品的主要优点包括数据的安全性、支持多种文档类型、以及能够与300多个集成无缝对接。

  • Spiral:自动化写作和创意任务的智能助手

    Spiral是一个旨在自动化重复写作、思考和创意任务的在线工具。它通过用户的训练示例来学习用户的语音、语调和风格,进而生成符合用户要求的输出内容。Spiral的主要优点包括:快速启动、个性化输出、团队协作以及持续优化。产品背景信息显示,Spiral受到了多位行业人士的好评,他们认为Spiral能显著提高工作效率,并且输出内容自然,不显生硬。Spiral提供订阅服务,价格为1美元试用两周,之后为每月20美元或每年200美元。

  • Future You:未来自我模拟,人生规划助手

    Future You是一个在线模拟工具,旨在帮助用户通过一系列问题和模拟,反思和设想自己未来的生活。用户通过回答关于现在的自己、理想生活、职业规划等问题,与AI生成的未来自我进行互动,从而获得对未来的深刻洞察和规划。

  • Rockset:高效的混合搜索和实时分析数据库

    Rockset是一个为大规模数据提供高效搜索和实时分析的数据库平台。它支持向量、文本、地理空间和JSON数据的索引,能够实现混合搜索架构,并通过流式数据摄入和高QPS工作负载来测量端到端延迟。Rockset的主要优点包括实时索引、毫秒级SQL查询、快速开发新功能、降低计算和存储成本,以及无需ETL、去规范化、管理分片、索引或集群的灵活性。

  • Diffutoon:将真实视频转化为动漫风格的创新技术

    Diffutoon是一种先进的动漫风格渲染技术,能够将逼真的视频转换成动漫风格,适用于高分辨率和快速运动的视频。源代码已在DiffSynth-Studio发布,同时发布了技术报告。

  • Particl:自动化竞品情报工具

    Particl是一款专注于自动化竞品情报的商业工具,它通过AI技术追踪销售、库存、定价、商品种类和市场情绪,为零售品牌提供实时数据,帮助企业快速识别市场盈利机会。Particl服务于全球增长最快的零售品牌,覆盖服装、消费品、美容、健康、珠宝、补充品、家居用品、户外等多个领域。

  • Chrome AI:Chrome内置AI工具,提升创造力与生产力。

    Chrome AI是Chrome浏览器内置的AI工具,它通过即时响应来提升用户的工作效率和创造力。该工具在浏览器内直接操作,保障用户隐私,支持离线使用,并完全免费。它通过本地处理数据,减少数据传输到外部服务器,符合严格的隐私标准。

  • 腾讯云大模型知识引擎 OCR 体验:提供文档解析功能,将图片或 PDF 文件转换成 Markdown 格式,实现智能转换

    OCR 体验是一个文档解析工具,利用 OCR 技术将图片或 PDF 文件转换成 Markdown 格式文件。其主要优点在于高效转换并智能排版,背景信息源于对文档处理的需求。目前免费使用。

  • BrainyAI:免费开源的浏览器侧边栏插件,集成AI功能

    BrainyAI是一个完全免费的Chrome浏览器扩展,用户只需登录一次即可使用各种AI网站。通过便捷的侧边栏,BrainyAI提供AI聊天聚合、AI搜索、AI阅读和增强的AI网页浏览等功能。支持多种大型语言模型,如Gpt3.5、Gpt4等,并且注重用户隐私,所有聊天历史、设置和登录数据都安全地存储在本地设备上。

  • Stable Diffusion 3 免费在线:先进文本生成图像模型

    Stable Diffusion 3是由Stability AI开发的最新文本生成图像模型,具有显著进步的图像保真度、多主体处理和文本匹配能力。利用多模态扩散变换器(MMDiT)架构,提供单独的图像和语言表示,支持API、下载和在线平台访问,适用于各种应用场景。

  • Luma AI视频生成器:创新的AI视频生成器,快速实现创意视频。

    Luma AI的Dream Machine是一款AI视频生成器,它利用先进的AI技术,将用户的想法转化为高质量、逼真的视频。它支持从文字描述或图片开始生成视频,具有高度的可扩展性、快速生成能力和实时访问功能。产品界面用户友好,适合专业人士和创意爱好者使用。Luma AI的Dream Machine不断更新,以保持技术领先,为用户提供持续改进的视频生成体验。

  • Lingo Link:一款专为翻译选中文本设计的浏览器插件。

    Lingo Link 是一款浏览器插件,主要用于翻译选中的文本,旨在帮助用户阅读外语原文并在此过程中提高语言技能。插件设计简洁美观,支持多种翻译服务,包括有道词典、谷歌翻译等,并允许用户自定义模型。

  • AQChatServer:极速、便捷的匿名在线即时聊天室

    AQChatServer是一个接入AI的极速、便捷的匿名在线即时聊天室,基于Netty和protobuf协议实现高性能,对标游戏后端开发,全程无需HTTP协议,支持文本、图片、文件、音频、视频的发送和接收。

  • Voice Pen:语音转文字的智能助手

    Voice Pen是一款利用人工智能技术将语音转换为文字的应用程序,它支持超过50种语言,使用OpenAI的Whisper技术提供完美的转录和标点。用户可以使用Voice Pen记录语音,生成笔记、摘要、电子邮件、消息、博客帖子等。此外,它还具备AI重写功能,帮助用户清晰地组织文本、总结、制作列表、创建博客/帖子/推文、Instagram标题和电子邮件。Voice Pen注重用户隐私,不收集任何录音或文本数据。

  • Eternity AC:创建您的数字克隆,超越限制,实现自我不朽。

    eternity.ac是一个提供数字克隆服务的平台,允许用户创建具有自己思想、声音和外观的数字克隆体。这项技术突破了传统的交流和表达方式,使用户能够以全新的形式与世界互动。产品背景信息显示,eternity.ac致力于推动数字存在技术的革命,为用户提供一种全新的自我表达和社交方式。

  • Dropbase:快速构建自定义后台操作软件的开发者平台

    Dropbase是一个为开发者设计的平台,旨在快速且无痛地构建自定义的内部工具和后台操作软件。它通过自然语言声明应用、UI预览、拖放调整、输入行为生成代码、代码运行和追踪调试等功能,帮助开发者摆脱低代码/无代码开发的局限。Dropbase支持与现有的CRM、计费和支持工具集成,提供如管理面板、审批仪表板、数据编辑器、云控制台和通知系统等多样化的内部软件组件,并且完全使用Python编写,提供代码的灵活性和重用性。

  • Socap.ai:利用AI帮助创始人和投资者快速扩展网络和融资

    Socap.ai是一个利用人工智能技术帮助创始人和投资者扩展社交网络和加速融资流程的平台。它通过提供智能匹配、社交资本共享和协作功能,使创业者能够更有效地与潜在的投资者和合作伙伴建立联系。Socap.ai背后的理念是利用社交网络的力量,通过有针对性的介绍和社区支持,帮助创业者实现其商业目标。

今日大家都在搜的词: