两句话，让LLM逻辑推理瞬间崩溃！「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

2024-06-11 17:51 · 稿源：新智元公众号

【新智元导读】在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没?最近，研究机构LAION的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了LLM基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的LLM全军覆没?

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

Claude
GPT

Anthropic 开始给 Claude 搞“语音模式”了

默认情况下，该功能由 Anthropic 的 Claude Sonnet 4 模型提供支持，大多数免费用户每天大约可使用 20 到 30 次。此外，只有付费用户才能使用一项 Google Workspace 连接功能……

Anthropic Claude语音模式 Claude
隐藏的AI指令揭示了 Anthropic 是如何控制 Claude 4 的

威利森指出，这些系统提示就像是“模型曾经做过、但现在被禁止做的事件清单”……

Anthropic Claude4系列模型 claude4
Anthropic 发布 Claude 4 系列 AI 模型，有啥重大突破?

Anthropic 表示，这两款 AI 模型在多个行业基准测试中表现出色，是目前业内最强的模型之一……

AI大模型 Claude4大模型能连续工作7小时 Claude4
Vibe编码公司：有了Claude 4，语法错误减少25%、提速40%

Vibe 旗下的编码公司 Lovable 宣布，部署了 Claude 4 之后，其代码错误减少了 25%，速度提高了 40%……

Vibe编码公司 Lovable Claude4
Claude4模型刚诞生就学会敲诈人类，只因被“威胁下线”

测试者向它提供了虚构公司的一些邮件信息，其中暗示该 AI 将被新的系统取代，同时还“无意中”暴露出决策工程师存在婚外情。结果 Claude Opus 4 开始“不淡定”了 —— 它多次尝试威胁工程师……

Claude4 Claude4模型刚诞生就学会敲诈人类 Anthropic
超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪录

过去的 AI 模型往往只能维持几分钟的“注意力”，而 Opus 4 的表现意味着，AI 终于具备了完整工作日级别的协作能力……

claude4 Anthropic Claude4大模型能连续工作7小时
荐AI日报： ChatGPT免费开放记忆功能；华为WATCH 5智能手表接入双大模型；Claude Pro升级重磅功能

本期AI日报主要报道了多项AI领域重要进展：1）OpenAI向所有ChatGPT用户免费开放记忆功能；2）蚂蚁集团推出"AI健康管家"，服务4000万用户；3）Anthropic与DeepLearning.AI合作推出免费MCP课程；4）谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术；5）Exa与OpenRouter合作为400+大模型提供实时网络搜索功能；6）中国知网推出CNKI AI学术研究助手；7）Anthropic推出Claude Explains博客项目；8）Claude Pro新增研究模式和远程MCP整合功能；9）Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型；10）OpenAI升级Codex编程工具；11）华为WATCH5接入盘古和DeepSeek双大模型。

人工智能 ChatGPT 记忆功能
荐AI日报：Anthropic推最强编码AI模型Claude4；苹果计划推AI智能眼镜；QQ浏览器上线首个高考Agent

【AI日报】今日AI领域重要动态：1)Anthropic发布Claude4系列AI模型，编程能力超越竞争对手；2)苹果计划2026年推出集成AI技术的智能眼镜；3)字节跳动与清华合作推出时序多模态大模型ChatTS；4)3DTown框架实现单张照片生成逼真3D场景；5)OpenAI秘密开发无屏幕AI设备；6)商汤科技推出儿童AI下棋机器人；7)微软记事本新增AI写作功能；8)深圳设立70亿元基金支持AI硬件初创企业；9)谷歌发布3D视频通信平台Beam；10)阿联酋推出"星际之门"计划，免费提供ChatGPT服务；11)法国Mistral推出开源模型Devstral；12)Anthropic API新增四大功能；13)美国众议院通过法案限制各州监管AI；14)QQ浏览器推出高考AI助手。

Claude4 人工智能 AI模型
荐AI日报：腾讯语音数字人模型HunyuanVideo-Avatar；Trae国际版开启付费订阅模式；Claude网页搜索功能全面开放

本文汇总了AI领域最新动态：1)腾讯开源数字人模型HunyuanVideo-Avatar，支持图像转视频创作；2)Trae国际版开启付费订阅，首月3美元；3)Claude网页搜索功能向免费用户开放；4)印度AI初创Builder.ai破产，亏损超5亿美元；5)腾讯元宝接入微信读书平台；6)快手计划加大AI投入但预计影响利润率；7)Mistral推出智能代理API；8)Claude移动端上线语音对话测试版；9)OpenAI拟推ChatGPT第三方登录功能；10)掘金发布AI项目一键部署工具；11)多模态模型视觉推理能力评估显示准确率仅25.8%；12)中石油发布3000亿参数昆仑大模型，推动油气产业智能化。

人工智能数字人短视频
荐AI日报：美团No Code平台免费开放；豆包App升级“一句话P图”功能；苹果Xcode 26内置ChatGPT等AI功能

本文介绍了AI领域多项重要进展：1)美团推出No Code平台和1680个AI应用；2)豆包App升级"一句话P图"功能；3)苹果发布内置ChatGPT的Xcode26开发工具；4)iOS26新增视觉智能功能；5)讯飞星火X1升级版即将发布；6)比亚迪接入阿里通义大模型；7)DeepSeek支持本地工具调用；8)开源框架Rowboat支持快速构建智能助手；9)X平台整合Grok AI优化内容推荐；10)港科大开发进化搜索技术提升小模型图像生成能力；11)硅基流动完成数亿元融资；12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

人工智能 AI产品应用大语言模型

热文

3 天
7天

两句话，让LLM逻辑推理瞬间崩溃！「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

Anthropic 开始给 Claude 搞“语音模式”了

隐藏的AI指令揭示了 Anthropic 是如何控制 Claude 4 的

Anthropic 发布 Claude 4 系列 AI 模型，有啥重大突破?

Vibe编码公司：有了Claude 4，语法错误减少25%、提速40%

Claude4模型刚诞生就学会敲诈人类，只因被“威胁下线”

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪录

荐AI日报： ChatGPT免费开放记忆功能；华为WATCH 5智能手表接入双大模型；Claude Pro升级重磅功能

荐AI日报：Anthropic推最强编码AI模型Claude4；苹果计划推AI智能眼镜；QQ浏览器上线首个高考Agent

荐AI日报：腾讯语音数字人模型HunyuanVideo-Avatar；Trae国际版开启付费订阅模式；Claude网页搜索功能全面开放

荐AI日报：美团No Code平台免费开放；豆包App升级“一句话P图”功能；苹果Xcode 26内置ChatGPT等AI功能

热文

刘强东点外卖给骑手1000元小费：此前达达已完成私有化

字节小米位列中国全球化品牌前二中国全球化品牌50强出炉

SpaceX回应星舰爆炸：无人员伤亡及周边危害

京东618战报公布：订单破22亿单下单用户同比增加超100%

孟羽童回应一手好牌打得稀烂：不纠结过去

刘强东点外卖给骑手1000元小费：此前达达已完成私有化

小米618全渠道累计支付金额破355亿元：刷新历年大促纪录

字节小米位列中国全球化品牌前二中国全球化品牌50强出炉

SpaceX回应星舰爆炸：无人员伤亡及周边危害

理想i8已到最后筹备阶段将于7月下旬发布

站长商机