首页 > 业界 > 关键词  > Llama4最新资讯  > 正文

Llama 4五大疑点曝光,逐层扒皮,全球AI进步停滞,NYU教授称Scaling彻底结束

2025-04-09 08:49 · 稿源: 新智元公众号

声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。

令人失望的Llama4,只是前奏而已。

接下来我们恐将看到——全球局势的改变,将彻底阻止AI进步!

最近,一位AI CEO做出长视频,逐级对Llama4身上的六大疑点进行了扒皮。

同时,NYU教授马库斯发出博客,总结了目前这段时间AI圈的状况。

Scaling已经结束;模型仍然无法可靠推理;金融泡沫正在破裂;依然没有GPT-5;对不可靠的语言模型的过度依赖让世界陷入了困境。我的25个2025年预测中的每一个,目前看起来都是对的。

大语言模型不是解决之道。我们确实需要一些更可靠的方法。

OpenAI和Anthropic这样的公司,需要筹集资金来资助新模型本后的大规模训练运行,但他们的银行帐户里并没有400亿或1000亿美元,来支撑庞大的数据中心和其他费用。

问题在于,如果投资者预见到了经济衰退,那就要么不会投资,要么投资较少。

更少的资金,就意味着更少的计算,也就是更慢的AI进展。

布鲁金斯学会2025年的一份报告称,若科研成本持续上升,美国在人工智能、生物技术和量子计算等关键领域的领先地位可能受到威胁。据估算,当前政策若持续实施五年,美国科研产出可能会下降8%-12%。

在以前的一个采访里,Anthropic CEO Dario曾被问到:到了如今这个阶段,还有什么可以阻止AI的进步?他提到了一种可能——战争。

没想到,在这个可能性之外,我们居然提前见证了系统的另一种混沌。

而Dario也提前预测到,如果出现「技术不会向前发展」的信念,资本化不足,AI进步就将停止。

AI CEO五大问,逐级扒皮Llama4

最近闹出大丑闻的Llama4,已经证明了这一点。

图片

我们很难说,Llama4系列三款模型中的两款代表了多少进展,显然在这个系列的发布中,夸大宣传的水分要比诚实的分析多得多。

疑点1:长上下文大海捞针,其实是骗人?

Llama拥有所谓业界领先的一千万个token的上下文窗口,听起来似乎很酷炫。

可是等等,24年2月,Gemini1.5Pro的模型,就已经达到1000万token的上下文了!

在极端情况下,它可以在视频、音频和共同文本上,执行惊人的大海捞针任务,或许,是谷歌忽然意识到,大海捞针任务意义非常重大。

正如这篇Llama4博客所说,如果把所有哈利波特的书都放进去,模型都能检索到放入其中的一个密码。

图片

不过,这位CEO表示,这些48h前发布的结果,不如24小时前更新的这个fiction livebench基准测试这么重要。

这个基准测试,用于长上下文的深度理解,LLM必须将数万或数十万个token或单词拼凑在一起。

在这里,在这个基准测试中,Gemini2.5Pro的表现非常好,而相比之下,Llama4的中等模型和小模型,性能极其糟糕。

而且随着token长度的增加,它们的表现越来越差。

图片

疑点2:为何周六发布?

这位CEO察觉到的第二大疑点就在于,Llama4为何选在周六发布?

在整个美国AI技术圈里,这个发布日期都是史无前例的。

如果阴谋论一点想,之所以选在周六发布,是因为Meta自己也心虚了,希望尽量减少人们的注意力。

此外,Llama4的最新训练数据截止时间是2024年8月,这就很奇怪。

要知道,Gemini2.5的训练知识截止时间是2025年1月。

这就意味着,在过去的9个月里,Meta一直在使尽浑身解数,拼命让这个模型达到标准。

有一种可能性是,或许他们本打算早点发布Llama4,但就在9月,OpenAI推出了o系列模型,今年1月,DeepSeek R1又来了,所以Meta的所有计划都被打乱了。

图片

疑点3:大模型竞技场,究竟有没有作弊?

不过,这位CEO也承认,尽管全网充斥着对Llama4群嘲的声音,但它的确也展示出了一些坚实的进展。

图片

比如Llama4Maverick的活动参数量大概只有DeepSeek V3的一半,却取得了相当的性能。

图片

那现在的核心问题就在于,Meta究竟有没有在LM Arena上进行作弊,在测试集上进行训练?

目前,LM Arena已经迅速滑跪,公开了2000多组对战数据给公众检阅,并且表示会重新评估排行榜。

图片

目前姑且按照没有算,那就意味着我们拥有一个强大得惊人的基础模型了。

图片

看看这些真实数字,假设没有任何答案进入Llama4的训练数据,这个模型在GPQA Diamond上的性能(谷歌验证的极其严格的STEM基准测试)实际上是比DeepSeek V3更好的

而在这个基础上,Meta就完全可以创建一个SOTA级别的思维模型。

唯一的问题是,Gemini2.5Pro已经存在了,而DeepSeek R2也随时会问世。

疑点4:代码很差

还有一点,当Llama4走出舒适区时,性能就会开始狂降。

以ADA的Polyglot这个编码基准测试为例,它测验了一些系列编程语言的性能。

但与许多基准不同,它不仅仅关注Python,而是一系列编程语言,现在依然是Gemini2.5Pro名列前茅。

但是想要找到Llama4Maverick,可就很难了,得把鼠标滚动很久。

它的得分当然惨不忍睹——只有15.6%。

图片

这就跟小扎的言论出入很大了,显得相当讽刺。

就在不久前,他还信誓旦旦地断定说,Meta的AI模型将很快取代中级程序员。

疑点5:「结果仅代表目前最好的内部运行」

这一点,同样已经在AI社区引发了群嘲。

在下面这个表格中,Meta将Llama4和Gemini2.0Pro、GPT-4.5等模型进行了比较,数字非常漂亮。

但仔细看脚注,却说的是Llama模型的结果代表了目前最好的内部运行情况,所以很大可能是,Meta把Llama4跑了5遍或10遍,取了其中的最好结果。

图片

而且,他们还故意不将Llama4Behemoth跟DeepSeek V3进行比较,后者比它在整体参数上小三倍,在互动参数上小八倍,性能却相似。

图片

如果从消极的角度下判断,就可以说Llama4最大的模型参数上DeepSeek V3基础模型的许多倍,性能却基本处于同一水平。

还有在Simple Bench中,Llama4Maverick的得分大概为27.7%,跟DeepSeek V3处于同一水平,还低于Claude3.5Sonnet这类非思维模型。

图片

另外,这位CEO还在Llama4的使用条款中发现了这么一条。

如果你在欧洲,仍然可以成为它的最终用户,但却没有权利在它的基础上进行构建模型。

图片

马库斯:Llama4的惨痛教训表明,Scaling已经结束!

而Llama4的惨淡表现,也让NYU教授马库斯写出长文,断言Scaling已经结束,LLM仍然无法推理。

图片

他的主要观点如下。

大模型的Scaling已经彻底结束了,这证实了我三年前在《深度学习正在撞墙》中的预测。

一位AI博士这样写道:Llama4的发布已经证实,即使30万亿token和2万亿参数,也不能让非推理模型比小型推理模型更好。

图片

规模化并不奏效,真正的智能需要的是意图,而意图需要远见,这都不是AI能做到的。

图片

即使LLM偶尔能提供正确的答案,往往也是通过模式识别或启发式的捷径,而非真正的数学推理。

比如最近ETU团队关于LLM在美国奥数上糟糕表现的研究,就彻底击碎了「LLM会做数学题」这个神话。

图片

最终,生成式AI很可能会变成一个在经济回报上失败的产品。

泡沫可能真的要破灭了。英伟达在2025年的跌幅,就已经超过了三分之一。

而Meta的Llama4的残酷真相,再次证实了马库斯在2024年3月预测——

达到GPT-5级别的模型,将会非常困难。很多公司都会有类似模型,但没有护城河。随着价格战进一步升级,许多只会有微薄的利润。

图片

最终,马库斯以这样的方式总结了自己的发言——

「大语言模型绝对不是解决之道,我们需要一些更可靠的方法。Gary Marcus正在寻找对开发更可靠替代方法有兴趣的投资者。 」

举报

  • 相关推荐
  • DeepSeek R2来了?新推理时Scaling论文联手清华震撼发布!

    【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。DeepSeekR2,果然近了。他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236BMoERFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。

  • Meta说他们的 Llama 4 偏见少了!但,“虚假对等”才是真偏见

    Meta公司称,相比之前的版本,他们最新的人工智能模型Llama4的政治偏见更少了。其中一部分便是通过允许该模型回答更多带有政治争议性的问题来实现这一点的。下次当你使用Meta的AI产品时,它可能会为“通过服用马用镇静剂来治疗新冠病毒”这种观点说好话!

  • 反击DeepSeek失败!Llama 4效果不好,Meta承认有问题

    今天凌晨1点半,Meta生成式AI领导者AhmadAl-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。由于关税大战的原因,Meta的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。

  • 苦等一年 Meta终于放大招 正式发布开源大模型Llama 4

    美国科技巨擘Meta重磅推出其迄今最为强大的开源AI模型Llama4,恰逢Llama3上市一周年之际。Llama4系列采用了先进的混合专家架构,这一架构在模型训练及用户查询回答过程中展现出更高效率,通过将模型划分为多个专注于特定任务的专家”子模型,实现精准高效的处理。Meta首席执行官扎克伯格表示:他们的目标是建立世界领先的人工智能,将其开源,并使其普遍可用,以便世界上每个人都能受益。

  • 实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

    LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • 刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

    Llama4重磅发布了!Meta官宣开源首个原生多模态Llama4,首次采用的MoE架构,支持12种语言,首批发布一共两款:Llama4Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下Llama4Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文另外,2万亿参数Llama4Behemoth将在未来几个月面世,288B活跃参数,16个专家。Llama4的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。L

  • MCP协议和Function Calling 、 AI Agents的区别是什么?MCP优势有哪些

    MCP、FunctionCalling和AIAgents是三种重要的技术手段,它们在实现AI模型与外部系统交互方面各有特点。本文将详细对比这三种技术,并深入探讨MCP的多项显著优势。随着MCP技术的不断发展,我们有理由相信,它将在未来的AI领域发挥越来越重要的作用。

  • 30岁华裔将成最年轻白手起家女富豪:是Scale AI联合创始人

    30岁华裔创业者郭露西以12.5亿美元身家成为全球最年轻白手起家女性亿万富豪。她22岁联合创办AI数据标注公司Scale AI,虽两年后退出但仍保留5%股份,随着公司估值从138亿跃升至250亿美元,其持股市值达12.5亿。郭露西随后创立创作者平台Passes,吸引邓恩、奥尼尔等名人入驻,估值1.5亿美元。这位旧金山湾区华裔二代从卡内基梅隆大学辍学创业,其财富轨迹印证了人工智能时代的技术红利。作为全球仅有的六位40岁以下白手起家女性亿万富豪之一,她表示"仍需保持清醒",继续在AI与内容经济交叉领域书写新的财富传奇。

  • “摸鱼神器”比Manus快4全球首个“行动浏览器”Fellou来了!

    Fellou AI推出全球首款行动型浏览器Fellou,主打智能代理技术,能自动分解用户任务并跨网站执行。其搜索性能号称比OpenAI快4倍,单次任务成本仅0.03-3元。产品特点包括:1)支持登录式网站访问;2)通过沙箱环境实现多网页并行操作;3)内置智能模块自动规划任务流程;4)集成数据分析报告功能。目前提供Mac/PC版,Windows和移动版计划下半年推出。测试显示其综合评分优于Deep Research等竞品,开发者还可使用其开源框架Eko Framework进行扩展开发。