首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

2025-04-08 20:45 · 稿源: TechWeb.com.cn

4月8日消息,被寄予厚望的美国Meta公司的最新开源大模型Llama 4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。

今天,大模型评测平台LM Arena亲自下场发文,打脸Meta提供给平台的Llama 4是“特供版”。

据知情人士爆料称,Meta因面临DeepSeek、Gemini等竞品的快速迭代压力,选择“仓促发布未完成优化的模型”,牺牲技术严谨性以追赶进度。

Llama 4亮相,LMSYS榜单排名第二

在周日,大模型开源届的旗帜Meta发布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。

Llama 4以全系列首次采用混合专家(MoE)架构、高效推理和长上下文处理为亮点。

根据Meta公开的信息和数据,在基准测试中,Llama 4三大版本均有优异表现:

Llama-4-Maverick在LMSYS排行榜(也被称为Chatbot Arena或LM Arena)中排名第二,仅次于Gemini 2.5 Pro。

在图像推理任务(MMMU、MathVista)中得分超越GPT-4o和Gemini 2.0,但编程和科学推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任务得分较低(如Intelligence Index仅36),与GPT-4o mini相当,但在长文本处理和小规模部署中具备实用性,支持1000万token上下文窗口(相当于15000页文本),适用于长文档分析、代码库推理等场景,为行业领先水平。

Llama-4-Behemoth目前仍在训练中,但已公布的STEM测试成绩(如MATH-500 95.0)超越GPT-4.5和Gemini 2.0 Pro。

另外,Maverick的推理成本为每百万token输入0.19-0.49美元,远低于GPT-4o(约4.38美元),且支持多模态输入,性价比突出。

看到Llama 4性能强大,业内一时之间热情澎湃,盛赞大模型开源届再迎来强力军。

但是,试用后,开发者们发现事情没那么简单。

实测水准拉垮

Meta CEO 扎克伯格在Llama 4发布时曾宣称其“AI编程水平将达中级工程师”,但用户在对Llama 4进行实测时却发现巨大反差。

在多项基准测试中,Llama 4的表现远低于预期。Maverick在aider polyglot多语言编码测试中仅得16%,远低于Qwen-32B等竞品,甚至被用户称为“糟糕透顶的编程模型”。

Maverick在基础编程任务(HumanEval)得分仅接近GPT-4o mini,远低于DeepSeek V3。

尽管Llama-4-Scout支持1000万token上下文窗口,但实际测试显示其召回率在16K token时仅22%。有用户将《哈利•波特》全书输入后Scout回答问题的正确率,远低于Gemini 2.5 Pro等对手。

此外,还有用户测试发现,Llama 4生成的物理动画违背基本规律,如小球弹跳轨迹错误,并且需多次尝试才能完成复杂逻辑链任务,而DeepSeek和Gemini等都可一次成功。

独立评测机构Artificial Analysis指出,Llama 4在综合推理、科学任务和编码中与顶级模型存在系统性差距。Maverick的Intelligence Index得分仅49,远低于Gemini 2.5 Pro(68)和DeepSeek R1(66)。

Llama 4的实际表现如此一般,引发用户对其夸大宣传的强烈质疑。

被曝作弊刷榜

与此同时,Meta前员工在论坛“一亩三分地”匿名发帖等多个消息源指出,Llama 4在训练后期阶段将基准测试的测试集数据混入训练数据,以此提升模型在评测榜单上的表现。

这种做法使模型在特定测试中过拟合,短期可以提升排名,但实际应用表现远低于预期,因此也被业内认为是作弊来刷榜单排名。

不过,很快,Meta研究科学家主管Licheng Yu实名辟谣,团队根本没有针对测试集过拟合训练。Meta首席AI科学家的Yann LeCun也发帖力挺。

但是,开源社区的用户还发现Meta提供的Llama 4榜单版本与开源版本不同。

也就是,Meta提交给评测平台LM Arena的Llama-4-Maverick是一个实验性聊天优化版本,其行为与公开发布的基础版存在显著差异,如回答风格更冗长、使用表情符号等。

这被质疑为“针对榜单优化的特供版”,误导开发者对模型真实能力的判断。

进一步加剧了大模型开源社区用户对Llama 4能力的质疑。

在经过2天发酵后,今天,Chatbot Arena官方发文确认了用户的上述质疑,公开表示Meta提供给他们的是“特供版”,并考虑更新排行榜。

Chatbot Arena官方发文:

“我们已经看到社区对Llama-4在Arena上的最新发布提出了问题。为了确保完全透明,我们正在发布2000多个一对一模型对战结果供公众审查。这包括用户提示、模型响应和用户偏好。

初步分析显示,模型回复风格和语气是重要影响因素,我们正在进行更深入的分析以了解更多!

此外,我们还将 Llama-4-Maverick的 HF(HuggingFace) 版本添加到 Arena中,排行榜结果将很快公布。

Meta 对我们政策的解释与我们对模型提供者的期望不符。Meta应该更清楚地说明“Llama-4-Maverick-03-26-Experimental”是一个经过人类偏好优化的定制模型。

因此我们正在更新我们的排行榜政策,以加强我们对公平、可重复评估的承诺,从而避免未来出现这种混淆。”

“伪开源”,比DeepSeek差远了

一直以来,Meta都以大模型开源路线领路人自居,有了DeepSeek珠玉在前,这次Llama 4的开源方式,反而动摇了Meta作为开源标杆的地位。

Llama 4执行的非标准开源许可,而是采用Meta自定义的许可条款,对商业使用和分发设置了多重限制。例如,月活跃用户超过7亿的公司需向Meta单独申请授权,且Meta可自行决定是否批准。竞争对手员工被禁止接触模型,要求所有衍生模型名称必须以“Llama”开头,并在界面、文档中突出显示“Made with Llama”水印等。

而DeepSeek R1遵循标准的开源协议MIT许可协议,允许自由使用、修改、分发及商业化,仅需保留原始版权声明和许可声明。无商业限制,企业对模型的使用无需额外授权,且可基于MIT许可开发闭源商业产品。

开放源代码促进会(OSI)定义的“开源”需允许自由修改和分发,而Meta的条款明显违背这一原则。仅从开源许可方面来看,和DeepSeek R1相比,Llama 4的开放性差远了。

Llama 4开源仅提供模型参数,缺乏对训练流程、数据清洗策略的披露,未公开完整的训练数据集和超参数优化细节,如MetaP方法的核心逻辑,开发者无法复现或改进模型。此举被社区用户质疑为“黑箱式共享”。

另外,Llama 4还设置了诸多限制,比如,繁琐的申请流程,用户需登录Hugging Face账号并填写包含个人身份、公司信息、税务标识等详细资料的申请表,稍有错漏可能被永久拉黑且无申诉渠道。

相比之下,国内开源模型如DeepSeek、通义千问等都无需复杂流程即可直接使用。

此外,Llama-4-Scout和Maverick虽宣称支持单卡运行,但需要NVIDIA H100等高端GPU(单卡成本超3万美元),普通开发者难以负担。用户认为,真正的开源应兼顾不同硬件环境。

总之,Meta针对Llama 4开源的一系列骚操作,被开发者批评“背离开源精神”,是“既要开源流量,又防社区威胁”的双标策略,进一步加剧Llama 4的信任危机。

Meta的Llama 4本被寄予厚望,却在短短两天内因作弊刷榜、代码能力拉垮、伪开源争议跌落神坛。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

举报

  • 相关推荐
  • Lamett乐迈石晶快装秘籍!让武汉20年老宅“一键焕新”

    武汉黄先生一家140平米老宅经《梦想改造家》节目改造后焕然一新。设计师采用零甲醛添加的Lamett乐迈石晶地板,解决潮湿问题,提升防滑耐磨性能。空间重构实现客卧对调、主卧休闲办公一体化,厨房岛台增进家人互动。全屋原木色调营造温馨氛围,兼顾健康与美学,为五口之家打造安全舒适的生活环境。

  • 15天快装开业,Lamett乐迈石晶地墙品类投资模式解析

    贝壳研究院数据显示,2025年中国存量房装修市场规模将达3.34万亿元,消费者对健康环保、便捷高效的家装需求持续攀升。乐迈石晶作为全球石晶品类开创者,推出"100㎡开店、10余万投资、15天极速开业"轻资产模式,携手经销商掘金"新房整装+旧房改造"市场。其首创的石晶地板和石晶柜板技术,实现从地面材料向墙面、柜体等全屋空间应用的跨越,构建"地墙柜一体化"健康整装系统。凭借"零醛添加、防水防潮"等核心性能优势,石晶材料正加速替代传统建材。目前乐迈石晶在全球拥有10余家工厂及销售机构,业务遍及80多个国家和地区,为高端住宅及商业空间提供整体解决方案。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • 八年深耕铸就“即刻精彩”,HOLLYLAND猛玛2025秋季新品发布会前瞻

    猛玛将于2025年8月26日举办品牌战略暨秋季新品发布会,系统呈现其全球战略布局与技术成果。深耕无线音视频领域八年,猛玛致力于打造全球创作者信赖的“创作底座”,通过技术创新降低专业设备门槛,推动创作工具智能化与普惠化。发布会将首次系统阐释品牌使命“科技助力轻松表达,丰富人类精神世界”,并带来秋季重磅新品,展现对创作全流程需求的深入覆盖。

  • Lamett乐迈石晶携手肖战共筑品牌势能,经销商信心倍增抢滩市场

    欧洲高端建材品牌Lamett乐迈石晶宣布肖战成为首位全球品牌代言人,双方将共同推动"健康、安全"理念。Lamett创立于1985年,专注新型建材研发,2016年首创全球首款石晶地板,2024年又推出石晶柜板,实现从地面到全屋空间的应用突破。此次合作将助力品牌从专业领域走向大众视野,通过"全域营销+供应链布局+数字化管理"赋能经销商。目前品牌在中国设有七大直营体验中心,未来将通过"东西南北中"五大生产基地实现全链路自主把控。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 铭凡推出N5 Pro高性能NAS主机:搭载AMD AI 9 HX 370处理器、支持144TB容量

    知名迷你PC厂商MINISFORUM推出首款高性能NAS主机N5系列,包含N5和N5 Pro两款型号。N5 Pro搭载AMD锐龙AI9 HX370处理器(12核24线程/5.1GHz)和Radeon 890M核显;N5采用锐龙7H255处理器(8核16线程/4.9GHz)和780M核显。主机支持5个HDD+3个M.2硬盘(含2个U.2企业级接口),最高144TB存储容量,配备双通道DDR5内存(最高96GB)并支持ECC校验。接口方面配备2个USB4、多个USB3.2/2.0、10G/5G网口及HDMI2.1,支持PCIe4.0扩展和OCulink外接显卡。该系列兼具NAS存储与高性能计算能力,适合虚拟化、娱乐等多场景使用,N5售价3749元起,N5 Pro售价6239元起。

  • 报价345亿美元!AI新贵公司计划收购谷歌旗下Chrome浏览器

    美国AI搜索新贵Perplexity正考虑以高达345亿美元的全现金方式,收购谷歌旗下拥有逾30亿用户的Chrome浏览器。 成立仅三年、总部位于旧金山的Perplexity(由阿拉温德斯里尼瓦斯等人创立),专注于生成式AI搜索引擎,直接挑战谷歌和微软必应。 截至2024年4月,其月活跃用户约1500万,主要依靠付费订阅盈利。这家初创公司已从英伟达、软银集团等巨头筹集约10亿美元融资,最新估值

今日大家都在搜的词: