首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

2025-04-08 20:45 · 稿源: TechWeb.com.cn

4月8日消息,被寄予厚望的美国Meta公司的最新开源大模型Llama 4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。

今天,大模型评测平台LM Arena亲自下场发文,打脸Meta提供给平台的Llama 4是“特供版”。

据知情人士爆料称,Meta因面临DeepSeek、Gemini等竞品的快速迭代压力,选择“仓促发布未完成优化的模型”,牺牲技术严谨性以追赶进度。

Llama 4亮相,LMSYS榜单排名第二

在周日,大模型开源届的旗帜Meta发布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。

Llama 4以全系列首次采用混合专家(MoE)架构、高效推理和长上下文处理为亮点。

根据Meta公开的信息和数据,在基准测试中,Llama 4三大版本均有优异表现:

Llama-4-Maverick在LMSYS排行榜(也被称为Chatbot Arena或LM Arena)中排名第二,仅次于Gemini 2.5 Pro。

在图像推理任务(MMMU、MathVista)中得分超越GPT-4o和Gemini 2.0,但编程和科学推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任务得分较低(如Intelligence Index仅36),与GPT-4o mini相当,但在长文本处理和小规模部署中具备实用性,支持1000万token上下文窗口(相当于15000页文本),适用于长文档分析、代码库推理等场景,为行业领先水平。

Llama-4-Behemoth目前仍在训练中,但已公布的STEM测试成绩(如MATH-500 95.0)超越GPT-4.5和Gemini 2.0 Pro。

另外,Maverick的推理成本为每百万token输入0.19-0.49美元,远低于GPT-4o(约4.38美元),且支持多模态输入,性价比突出。

看到Llama 4性能强大,业内一时之间热情澎湃,盛赞大模型开源届再迎来强力军。

但是,试用后,开发者们发现事情没那么简单。

实测水准拉垮

Meta CEO 扎克伯格在Llama 4发布时曾宣称其“AI编程水平将达中级工程师”,但用户在对Llama 4进行实测时却发现巨大反差。

在多项基准测试中,Llama 4的表现远低于预期。Maverick在aider polyglot多语言编码测试中仅得16%,远低于Qwen-32B等竞品,甚至被用户称为“糟糕透顶的编程模型”。

Maverick在基础编程任务(HumanEval)得分仅接近GPT-4o mini,远低于DeepSeek V3。

尽管Llama-4-Scout支持1000万token上下文窗口,但实际测试显示其召回率在16K token时仅22%。有用户将《哈利•波特》全书输入后Scout回答问题的正确率,远低于Gemini 2.5 Pro等对手。

此外,还有用户测试发现,Llama 4生成的物理动画违背基本规律,如小球弹跳轨迹错误,并且需多次尝试才能完成复杂逻辑链任务,而DeepSeek和Gemini等都可一次成功。

独立评测机构Artificial Analysis指出,Llama 4在综合推理、科学任务和编码中与顶级模型存在系统性差距。Maverick的Intelligence Index得分仅49,远低于Gemini 2.5 Pro(68)和DeepSeek R1(66)。

Llama 4的实际表现如此一般,引发用户对其夸大宣传的强烈质疑。

被曝作弊刷榜

与此同时,Meta前员工在论坛“一亩三分地”匿名发帖等多个消息源指出,Llama 4在训练后期阶段将基准测试的测试集数据混入训练数据,以此提升模型在评测榜单上的表现。

这种做法使模型在特定测试中过拟合,短期可以提升排名,但实际应用表现远低于预期,因此也被业内认为是作弊来刷榜单排名。

不过,很快,Meta研究科学家主管Licheng Yu实名辟谣,团队根本没有针对测试集过拟合训练。Meta首席AI科学家的Yann LeCun也发帖力挺。

但是,开源社区的用户还发现Meta提供的Llama 4榜单版本与开源版本不同。

也就是,Meta提交给评测平台LM Arena的Llama-4-Maverick是一个实验性聊天优化版本,其行为与公开发布的基础版存在显著差异,如回答风格更冗长、使用表情符号等。

这被质疑为“针对榜单优化的特供版”,误导开发者对模型真实能力的判断。

进一步加剧了大模型开源社区用户对Llama 4能力的质疑。

在经过2天发酵后,今天,Chatbot Arena官方发文确认了用户的上述质疑,公开表示Meta提供给他们的是“特供版”,并考虑更新排行榜。

Chatbot Arena官方发文:

“我们已经看到社区对Llama-4在Arena上的最新发布提出了问题。为了确保完全透明,我们正在发布2000多个一对一模型对战结果供公众审查。这包括用户提示、模型响应和用户偏好。

初步分析显示,模型回复风格和语气是重要影响因素,我们正在进行更深入的分析以了解更多!

此外,我们还将 Llama-4-Maverick的 HF(HuggingFace) 版本添加到 Arena中,排行榜结果将很快公布。

Meta 对我们政策的解释与我们对模型提供者的期望不符。Meta应该更清楚地说明“Llama-4-Maverick-03-26-Experimental”是一个经过人类偏好优化的定制模型。

因此我们正在更新我们的排行榜政策,以加强我们对公平、可重复评估的承诺,从而避免未来出现这种混淆。”

“伪开源”,比DeepSeek差远了

一直以来,Meta都以大模型开源路线领路人自居,有了DeepSeek珠玉在前,这次Llama 4的开源方式,反而动摇了Meta作为开源标杆的地位。

Llama 4执行的非标准开源许可,而是采用Meta自定义的许可条款,对商业使用和分发设置了多重限制。例如,月活跃用户超过7亿的公司需向Meta单独申请授权,且Meta可自行决定是否批准。竞争对手员工被禁止接触模型,要求所有衍生模型名称必须以“Llama”开头,并在界面、文档中突出显示“Made with Llama”水印等。

而DeepSeek R1遵循标准的开源协议MIT许可协议,允许自由使用、修改、分发及商业化,仅需保留原始版权声明和许可声明。无商业限制,企业对模型的使用无需额外授权,且可基于MIT许可开发闭源商业产品。

开放源代码促进会(OSI)定义的“开源”需允许自由修改和分发,而Meta的条款明显违背这一原则。仅从开源许可方面来看,和DeepSeek R1相比,Llama 4的开放性差远了。

Llama 4开源仅提供模型参数,缺乏对训练流程、数据清洗策略的披露,未公开完整的训练数据集和超参数优化细节,如MetaP方法的核心逻辑,开发者无法复现或改进模型。此举被社区用户质疑为“黑箱式共享”。

另外,Llama 4还设置了诸多限制,比如,繁琐的申请流程,用户需登录Hugging Face账号并填写包含个人身份、公司信息、税务标识等详细资料的申请表,稍有错漏可能被永久拉黑且无申诉渠道。

相比之下,国内开源模型如DeepSeek、通义千问等都无需复杂流程即可直接使用。

此外,Llama-4-Scout和Maverick虽宣称支持单卡运行,但需要NVIDIA H100等高端GPU(单卡成本超3万美元),普通开发者难以负担。用户认为,真正的开源应兼顾不同硬件环境。

总之,Meta针对Llama 4开源的一系列骚操作,被开发者批评“背离开源精神”,是“既要开源流量,又防社区威胁”的双标策略,进一步加剧Llama 4的信任危机。

Meta的Llama 4本被寄予厚望,却在短短两天内因作弊刷榜、代码能力拉垮、伪开源争议跌落神坛。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

举报

  • 相关推荐
  • HOLLYLAND猛玛发布行业首款无线直播声卡系统MELO P1,重塑唱歌直播新体验

    HOLLYLAND猛玛发布MELO+++P1无线直播声卡系统,将手持麦克风、声卡、无线监听耳机和遥控器整合于一体充电盒中,开箱即播。该产品通过QQ音乐臻品音质认证和全民K歌臻品录音认证,旨在解决音乐直播设备体验滞后于内容发展的问题。猛玛利用12年无线音视频技术积累,将专业录音棚级硬件(双DSP芯片、AI降噪等)以易用形态下沉至直播场景,降低搭建门槛,提升户外稳定性,为行业提供了从参数竞争转向产品形态创新的新方向。

  • 沉浸且便携 三星Galaxy Tab S11系列的大屏让球赛可以随时看

    四年一度的球赛季与父亲节相遇,三星Galaxy Tab S11系列平板成为送礼佳选。它轻薄便携,可随时随地观看比赛;配备11英寸或14.6英寸动态AMOLED屏幕,支持HDR10+和120Hz高刷,画质沉浸;IP68防护和防眩光技术适合户外使用;AKG四扬声器带来身临其境的音效。此外,AI功能如即圈即搜、翻译页面,以及强大处理器支持多任务处理,满足看球、办公和娱乐需求,是陪伴父亲度过足球夏天的理想礼物。

  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • macOS 27 Beta版神级优化!5年老Mac告别卡顿:比26正式版还流畅

    苹果日前发布了macOS 27 Golden Gate开发者Beta版本,已有首批用户升级测试。 有用户表示,这个测试版比macOS 26 Tahoe的稳定版运行更流畅,5年前的M1 Pro MacBook Pro卡顿问题基本消失,甚至8GB内存的M3 MacBook Air也有明显改善。 Reddit用户Pilingo在搭载M1 Pro的5年款MacBook Pro上安装了macOS 27开发者Beta,他表示Tahoe上的延迟、卡顿和整体迟钝感已经完全消失,应用启动更快,动画更顺滑,整个�

  • 遇事不决迫击炮再进化!微星MAG B850M MORTAR MAX WIFI重磅开售

    微星发布MAG B850M MORTAR MAX WIFI主板,首发价1349元。该主板采用14(80A)+2+1路智能供电,配备4个M.2插槽(含2个PCIe5.0接口),内置独立时钟发生器,支持精准超频。EZ DIY设计包括显卡快拆按钮、免工具天线等。搭载5G有线网卡、Wi-Fi7无线网卡及丰富I/O接口,提供4年质保。该主板以高供电规格、海量存储和人性化设计,重新定义M-ATX主流主板性能标杆,适合追求性能与便利性的DIY玩家。

  • 十洲再启:SNH48 TEAM NII《肆时墟》领衔丝芭六月舞台

    SNH48 GROUP六月热度攀升:SNH48 TEAM NII新公演《肆时堇》延续十洲故事线,将于6月27-28日在上海首演;GNZ48 TEAM Z新作《Zenith·穹顶之上》19-21日上演。巡演活跃,CGT、CKG空降上海,ANYONE巡演北京场展现成员素养。年度青春盛典计分通道开启,成员纷纷发布个人作品,21日速报将至。

  • AI日报:小米开源AI编程助手MiMo Code;京东MALL首批人形机器人上岗;谷歌发布DiffusionGemma

    AI日报今日要点:小米开源终端AI编程助手MiMo Code,内置免费多模态模型;京东MALL首批人形机器人上岗,优必选助力618智慧零售;苹果Xcode 27原生集成Gemini,提升AI编程效率;谷歌发布实验性开源模型DiffusionGemma,采用文本扩散架构提速推理;微软因数据隐私担忧禁用员工使用Claude Fable 5;谷歌升级NotebookLM,引入Gemini 3.5 Flash与独立云计算机;华纳音乐收购Sureel AI,构建版权防护�

  • 超节点提效30%!华为官宣昇腾亲和大模型:6月30日开源上线

    华为开发者大会(HDC 2026)上,华为常务董事、终端BG董事长余承东在大会主题演讲中宣布,推出昇腾亲和大模型,覆盖算法架构到训练推理全流程。 昇腾亲和大模型是业界首个DSA SWA独立分层混合架构。针对MoE(混合专家)模型专家路由问题进行了专项优化。 昇腾原生训练实现双重性能提升,训练效率提升30%,512K长序列训练吞吐提升50%

  • 美团Tabbit AI浏览器正式版上线:核心功能永久免费!整合主流国内大模型

    美团正式发布Tabbit AI浏览器1.0标准版,结束100天公测,全面开放下载,支持安卓、鸿蒙、苹果系统。该产品打破传统浏览器局限,通过整合DeepSeek、Kimi等多款国内主流大模型,实现AI全流程自动化任务处理,如搜索、筛选、执行等。新增记忆功能提升交互连贯性,内置300余种实用技能,覆盖学习、办公、生活等场景,并启动“妙招大赛”鼓励用户分享原创技能。

  • 美团Tabbit的百日狂飙

    过去,医疗卫生条件差,新生儿很容易在百日内夭折,过了百日后夭折风险便会显著下降,民间逐渐形成了“百日宴”的传统。 人如此,产品亦然。 3月2日,美团旗下光年之外团队推出的AI Native浏览Tabbit开启公测,经过100天、12次版本迭代后,于6月9日,踩在高考周期内,交出了1.0的答卷。 一位内部人士此前告诉光子星球,团队有很多想法,但不确定哪些是用户真正愿意买�

今日大家都在搜的词: