首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

2025-04-08 20:45 · 稿源: TechWeb.com.cn

4月8日消息,被寄予厚望的美国Meta公司的最新开源大模型Llama 4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。

今天,大模型评测平台LM Arena亲自下场发文,打脸Meta提供给平台的Llama 4是“特供版”。

据知情人士爆料称,Meta因面临DeepSeek、Gemini等竞品的快速迭代压力,选择“仓促发布未完成优化的模型”,牺牲技术严谨性以追赶进度。

Llama 4亮相,LMSYS榜单排名第二

在周日,大模型开源届的旗帜Meta发布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。

Llama 4以全系列首次采用混合专家(MoE)架构、高效推理和长上下文处理为亮点。

根据Meta公开的信息和数据,在基准测试中,Llama 4三大版本均有优异表现:

Llama-4-Maverick在LMSYS排行榜(也被称为Chatbot Arena或LM Arena)中排名第二,仅次于Gemini 2.5 Pro。

在图像推理任务(MMMU、MathVista)中得分超越GPT-4o和Gemini 2.0,但编程和科学推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任务得分较低(如Intelligence Index仅36),与GPT-4o mini相当,但在长文本处理和小规模部署中具备实用性,支持1000万token上下文窗口(相当于15000页文本),适用于长文档分析、代码库推理等场景,为行业领先水平。

Llama-4-Behemoth目前仍在训练中,但已公布的STEM测试成绩(如MATH-500 95.0)超越GPT-4.5和Gemini 2.0 Pro。

另外,Maverick的推理成本为每百万token输入0.19-0.49美元,远低于GPT-4o(约4.38美元),且支持多模态输入,性价比突出。

看到Llama 4性能强大,业内一时之间热情澎湃,盛赞大模型开源届再迎来强力军。

但是,试用后,开发者们发现事情没那么简单。

实测水准拉垮

Meta CEO 扎克伯格在Llama 4发布时曾宣称其“AI编程水平将达中级工程师”,但用户在对Llama 4进行实测时却发现巨大反差。

在多项基准测试中,Llama 4的表现远低于预期。Maverick在aider polyglot多语言编码测试中仅得16%,远低于Qwen-32B等竞品,甚至被用户称为“糟糕透顶的编程模型”。

Maverick在基础编程任务(HumanEval)得分仅接近GPT-4o mini,远低于DeepSeek V3。

尽管Llama-4-Scout支持1000万token上下文窗口,但实际测试显示其召回率在16K token时仅22%。有用户将《哈利•波特》全书输入后Scout回答问题的正确率,远低于Gemini 2.5 Pro等对手。

此外,还有用户测试发现,Llama 4生成的物理动画违背基本规律,如小球弹跳轨迹错误,并且需多次尝试才能完成复杂逻辑链任务,而DeepSeek和Gemini等都可一次成功。

独立评测机构Artificial Analysis指出,Llama 4在综合推理、科学任务和编码中与顶级模型存在系统性差距。Maverick的Intelligence Index得分仅49,远低于Gemini 2.5 Pro(68)和DeepSeek R1(66)。

Llama 4的实际表现如此一般,引发用户对其夸大宣传的强烈质疑。

被曝作弊刷榜

与此同时,Meta前员工在论坛“一亩三分地”匿名发帖等多个消息源指出,Llama 4在训练后期阶段将基准测试的测试集数据混入训练数据,以此提升模型在评测榜单上的表现。

这种做法使模型在特定测试中过拟合,短期可以提升排名,但实际应用表现远低于预期,因此也被业内认为是作弊来刷榜单排名。

不过,很快,Meta研究科学家主管Licheng Yu实名辟谣,团队根本没有针对测试集过拟合训练。Meta首席AI科学家的Yann LeCun也发帖力挺。

但是,开源社区的用户还发现Meta提供的Llama 4榜单版本与开源版本不同。

也就是,Meta提交给评测平台LM Arena的Llama-4-Maverick是一个实验性聊天优化版本,其行为与公开发布的基础版存在显著差异,如回答风格更冗长、使用表情符号等。

这被质疑为“针对榜单优化的特供版”,误导开发者对模型真实能力的判断。

进一步加剧了大模型开源社区用户对Llama 4能力的质疑。

在经过2天发酵后,今天,Chatbot Arena官方发文确认了用户的上述质疑,公开表示Meta提供给他们的是“特供版”,并考虑更新排行榜。

Chatbot Arena官方发文:

“我们已经看到社区对Llama-4在Arena上的最新发布提出了问题。为了确保完全透明,我们正在发布2000多个一对一模型对战结果供公众审查。这包括用户提示、模型响应和用户偏好。

初步分析显示,模型回复风格和语气是重要影响因素,我们正在进行更深入的分析以了解更多!

此外,我们还将 Llama-4-Maverick的 HF(HuggingFace) 版本添加到 Arena中,排行榜结果将很快公布。

Meta 对我们政策的解释与我们对模型提供者的期望不符。Meta应该更清楚地说明“Llama-4-Maverick-03-26-Experimental”是一个经过人类偏好优化的定制模型。

因此我们正在更新我们的排行榜政策,以加强我们对公平、可重复评估的承诺,从而避免未来出现这种混淆。”

“伪开源”,比DeepSeek差远了

一直以来,Meta都以大模型开源路线领路人自居,有了DeepSeek珠玉在前,这次Llama 4的开源方式,反而动摇了Meta作为开源标杆的地位。

Llama 4执行的非标准开源许可,而是采用Meta自定义的许可条款,对商业使用和分发设置了多重限制。例如,月活跃用户超过7亿的公司需向Meta单独申请授权,且Meta可自行决定是否批准。竞争对手员工被禁止接触模型,要求所有衍生模型名称必须以“Llama”开头,并在界面、文档中突出显示“Made with Llama”水印等。

而DeepSeek R1遵循标准的开源协议MIT许可协议,允许自由使用、修改、分发及商业化,仅需保留原始版权声明和许可声明。无商业限制,企业对模型的使用无需额外授权,且可基于MIT许可开发闭源商业产品。

开放源代码促进会(OSI)定义的“开源”需允许自由修改和分发,而Meta的条款明显违背这一原则。仅从开源许可方面来看,和DeepSeek R1相比,Llama 4的开放性差远了。

Llama 4开源仅提供模型参数,缺乏对训练流程、数据清洗策略的披露,未公开完整的训练数据集和超参数优化细节,如MetaP方法的核心逻辑,开发者无法复现或改进模型。此举被社区用户质疑为“黑箱式共享”。

另外,Llama 4还设置了诸多限制,比如,繁琐的申请流程,用户需登录Hugging Face账号并填写包含个人身份、公司信息、税务标识等详细资料的申请表,稍有错漏可能被永久拉黑且无申诉渠道。

相比之下,国内开源模型如DeepSeek、通义千问等都无需复杂流程即可直接使用。

此外,Llama-4-Scout和Maverick虽宣称支持单卡运行,但需要NVIDIA H100等高端GPU(单卡成本超3万美元),普通开发者难以负担。用户认为,真正的开源应兼顾不同硬件环境。

总之,Meta针对Llama 4开源的一系列骚操作,被开发者批评“背离开源精神”,是“既要开源流量,又防社区威胁”的双标策略,进一步加剧Llama 4的信任危机。

Meta的Llama 4本被寄予厚望,却在短短两天内因作弊刷榜、代码能力拉垮、伪开源争议跌落神坛。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

举报

  • 相关推荐
  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • DeepSeek+物流行业,AI大模型破解五大场景效能困局

    文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式,成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力,而非简单技术堆砌。G7+易流梳理出五大核心应用场景:工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

  • 华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

    要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以“雨露均沾”的方式去分配——专家网络们的负�

  • 初中老师如何用deepseek 和 Kimi无痛做课件

    本教程指导初中教师如何利用Deepseek和Kimi两款AI工具高效完成备课全流程。Deepseek用于生成教学设计方案和PPT大纲,Kimi则根据大纲快速生成精美课件。操作步骤:1)在Deepseek输入教学需求生成教学设计;2)用Deepseek生成PPT大纲;3)将大纲粘贴至Kimi PPT助手一键生成课件。该方法特别适合日常备课、临时调课需求,能大幅提升备课效率,让教师既省时又高效。

  • DeepSeek爆火100天,大厂又找回初心了

    DeepSeek R1模型发布100天后,中国AI行业竞争格局被彻底重构。该模型3个月内用户突破1.9亿,成为国内最大AI原生应用。腾讯、百度等科技大厂纷纷接入,其中腾讯元宝APP借助DeepSeek流量一度登顶苹果应用下载榜。字节和阿里选择自研路线,字节推出"深度思考"功能,阿里则专注开源模型研发。随着DeepSeek热潮减退,豆包重回下载量榜首,元宝跌出前20。科技大厂在享受DeepSee

  • IQ 过百的 AI 模型名单发布:ChatGPT、Deepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

  • DeepSeek们越来越聪明,却也越来越不听话了。

    ​在今年,DeepSeek R1火了之后。 几乎快形成了一个共识,就是: AI推理能力越强,执行任务时就应该越聪明。 从2022年Chain-of-Thought横空出世,到今天Gemini2.5Pro、OpenAI o3、DeepSeek-R1、Qwen3,这些旗舰模型的统治性表现,我们一直相信,让模型先想一想,是一个几乎不会出错的策略。 不过,这种聪明,也会带来一些副作用。 就是提示词遵循能力,变得越来越差。 换句话说,就是

  • 华为鸿蒙电脑接入DeepSeek:生产力更强

    官方介绍,鸿蒙电脑历经五年布局,集结10000多名顶尖工程师,联合20多家研究所,积累超2700项核心专利。

  • AI简历教程!用 deepseek 一键生成高质量简历

    本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件,过程繁琐。现在通过Deepseek平台,只需输入自然语言指令(如工作经验、技能等关键信息),系统即可自动生成排版精美的HTML版简历,还能转换为PDF格式。操作流程分三步:1.访问官网输入需求指令;2.查看并运行生成的HTML代码;3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历,大幅提升求职效率。

热文

  • 3 天
  • 7天