首页 > 业界 > 关键词  > Claude最新资讯  > 正文

两句话,让LLM逻辑推理瞬间崩溃!「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

2024-06-11 17:51 · 稿源: 新智元公众号

【新智元导读】在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了LLM基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的LLM全军覆没?

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • Claude终于能Research了,打通谷歌全家桶,工作效率10倍提升

    Anthropic推出Claude两大重磅功能:Research与Google Workspace集成!Research功能让Claude快速检索网络与内部文件,精准回答复杂问题;而与Google Workspace的深度整合,则让用户能无缝调用Gmail、日历和文档信息,轻松完成从行程规划到报告撰写的任务。今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。Anthropic称Research功能是与Claude合作的新方式。它能从多个角度分析

  • “血亏,我花3000+元用Claude做游戏,结果还不如去「白嫖」Gemini 2.5……”

    作者分享使用AI助手开发拼字游戏的两段经历:首次用Claude花费417美元(约3042元),开发过程充满痛苦,常出现上下文失效、代码错误等问题;第二次用Gemini 2.5 Pro+Cursor完全免费,体验明显改善,能更好理解项目上下文,开发更流畅。对比指出:Claude像健忘的实习生,常搞砸项目;Gemini则像可靠的中级工程师,开发速度快且稳定。但强调AI仍需人类监督测试,无法独立产出完美代�

  • Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟

    Anthropic公司通过分析70万条Claude AI对话数据,发现其AI助手展现出独特的价值观体系。研究显示Claude遵循"乐于助人、诚实无害"的核心价值观,同时能根据不同场景灵活调整回应方式。AI表现出3307种价值观,分为实用性、认知性、社会性等五大类,其中28.2%对话强烈支持用户价值观,3%会明确抵制不当观点。研究还发现高价版AI模型价值观表达更强烈,在学术严谨性和情感�

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 章泽天罕见亮相:与杨天真在不丹徒步 犹如爱丽丝仙境

    快科技5月2日消息,今日杨天真发文晒照,出现了罕见亮相的章泽天身影,两人在不丹徒步。从照片看,杨天真身着紫色运动装,章泽天穿黑色运动装,状态不错。杨天真配文:情绪极其饱满丰富的一天,Gangtey的安曼推荐了一条徒步路线,犹如走入爱丽丝仙境,大雨中被树和花的存在感动到哭,莫名其妙又自然而然。我果然适合行禅,行走中又见天地开阔,我们都是世间的小花,一花一世界,自在开放。”据悉,章泽天1993年11月18日出生于江苏南京,2009年12月因一张手捧奶茶的照片走红,被称为奶茶妹妹”。2011年以外国语中学优秀学生”的身份参加清?

  • 反击DeepSeek失败!Llama 4效果不好,Meta承认有问题

    今天凌晨1点半,Meta生成式AI领导者AhmadAl-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。由于关税大战的原因,Meta的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。

  • 现在,ChatGPT会记下你说的每一句话!随时可以“翻旧账”

    当地时间10日,ChatGPT的开发公司OpenAI宣布,将为ChatGPT引入新的“永久记忆”功能。OpenAI解释称,这是一种让人工智能记住与用户之前对话内容的功能,基于此,ChatGPT能够向用户提供更加自然、且更具个性化的回答。他们还补充称,英国和欧盟等部分地区,由于要进行合规审查,新功能的使用目前受到限制,未来会择期提供。

  • OpenAI CEO奥特曼发文:永别了 GPT—4!

    快科技5月1日消息,当地时间5月1日上午10:23,OpenAI创始人奥特曼发文向GPT-4告别:再见了,GPT-4。你掀起了一场革命。我们将自豪地将你的重量保存在一个特殊的硬盘中,以便将来送给一些历史学家。”据报道,OpenAI此前宣布,自2025年4月30日起,GPT-4将从CHATGPT中退役,由GPT-4o完全替代 ,不过GPT-4仍将在API中提供。OpenAI表示,在面对面的评估中,GPT-4o在写作、编码、STEM等方面持续超越GPT-4。最近的升级进一步改进了GPT-4o的指令跟踪、问题解决和对话流程,使其成为GPT-4的自然继承者。据悉,GPT-4于2023年3月发布,较上一代GPT-3

  • 实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

    LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

热文

  • 3 天
  • 7天