首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

2025-04-08 20:45 · 稿源: TechWeb.com.cn

4月8日消息,被寄予厚望的美国Meta公司的最新开源大模型Llama 4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。

今天,大模型评测平台LM Arena亲自下场发文,打脸Meta提供给平台的Llama 4是“特供版”。

据知情人士爆料称,Meta因面临DeepSeek、Gemini等竞品的快速迭代压力,选择“仓促发布未完成优化的模型”,牺牲技术严谨性以追赶进度。

Llama 4亮相,LMSYS榜单排名第二

在周日,大模型开源届的旗帜Meta发布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。

Llama 4以全系列首次采用混合专家(MoE)架构、高效推理和长上下文处理为亮点。

根据Meta公开的信息和数据,在基准测试中,Llama 4三大版本均有优异表现:

Llama-4-Maverick在LMSYS排行榜(也被称为Chatbot Arena或LM Arena)中排名第二,仅次于Gemini 2.5 Pro。

在图像推理任务(MMMU、MathVista)中得分超越GPT-4o和Gemini 2.0,但编程和科学推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任务得分较低(如Intelligence Index仅36),与GPT-4o mini相当,但在长文本处理和小规模部署中具备实用性,支持1000万token上下文窗口(相当于15000页文本),适用于长文档分析、代码库推理等场景,为行业领先水平。

Llama-4-Behemoth目前仍在训练中,但已公布的STEM测试成绩(如MATH-500 95.0)超越GPT-4.5和Gemini 2.0 Pro。

另外,Maverick的推理成本为每百万token输入0.19-0.49美元,远低于GPT-4o(约4.38美元),且支持多模态输入,性价比突出。

看到Llama 4性能强大,业内一时之间热情澎湃,盛赞大模型开源届再迎来强力军。

但是,试用后,开发者们发现事情没那么简单。

实测水准拉垮

Meta CEO 扎克伯格在Llama 4发布时曾宣称其“AI编程水平将达中级工程师”,但用户在对Llama 4进行实测时却发现巨大反差。

在多项基准测试中,Llama 4的表现远低于预期。Maverick在aider polyglot多语言编码测试中仅得16%,远低于Qwen-32B等竞品,甚至被用户称为“糟糕透顶的编程模型”。

Maverick在基础编程任务(HumanEval)得分仅接近GPT-4o mini,远低于DeepSeek V3。

尽管Llama-4-Scout支持1000万token上下文窗口,但实际测试显示其召回率在16K token时仅22%。有用户将《哈利•波特》全书输入后Scout回答问题的正确率,远低于Gemini 2.5 Pro等对手。

此外,还有用户测试发现,Llama 4生成的物理动画违背基本规律,如小球弹跳轨迹错误,并且需多次尝试才能完成复杂逻辑链任务,而DeepSeek和Gemini等都可一次成功。

独立评测机构Artificial Analysis指出,Llama 4在综合推理、科学任务和编码中与顶级模型存在系统性差距。Maverick的Intelligence Index得分仅49,远低于Gemini 2.5 Pro(68)和DeepSeek R1(66)。

Llama 4的实际表现如此一般,引发用户对其夸大宣传的强烈质疑。

被曝作弊刷榜

与此同时,Meta前员工在论坛“一亩三分地”匿名发帖等多个消息源指出,Llama 4在训练后期阶段将基准测试的测试集数据混入训练数据,以此提升模型在评测榜单上的表现。

这种做法使模型在特定测试中过拟合,短期可以提升排名,但实际应用表现远低于预期,因此也被业内认为是作弊来刷榜单排名。

不过,很快,Meta研究科学家主管Licheng Yu实名辟谣,团队根本没有针对测试集过拟合训练。Meta首席AI科学家的Yann LeCun也发帖力挺。

但是,开源社区的用户还发现Meta提供的Llama 4榜单版本与开源版本不同。

也就是,Meta提交给评测平台LM Arena的Llama-4-Maverick是一个实验性聊天优化版本,其行为与公开发布的基础版存在显著差异,如回答风格更冗长、使用表情符号等。

这被质疑为“针对榜单优化的特供版”,误导开发者对模型真实能力的判断。

进一步加剧了大模型开源社区用户对Llama 4能力的质疑。

在经过2天发酵后,今天,Chatbot Arena官方发文确认了用户的上述质疑,公开表示Meta提供给他们的是“特供版”,并考虑更新排行榜。

Chatbot Arena官方发文:

“我们已经看到社区对Llama-4在Arena上的最新发布提出了问题。为了确保完全透明,我们正在发布2000多个一对一模型对战结果供公众审查。这包括用户提示、模型响应和用户偏好。

初步分析显示,模型回复风格和语气是重要影响因素,我们正在进行更深入的分析以了解更多!

此外,我们还将 Llama-4-Maverick的 HF(HuggingFace) 版本添加到 Arena中,排行榜结果将很快公布。

Meta 对我们政策的解释与我们对模型提供者的期望不符。Meta应该更清楚地说明“Llama-4-Maverick-03-26-Experimental”是一个经过人类偏好优化的定制模型。

因此我们正在更新我们的排行榜政策,以加强我们对公平、可重复评估的承诺,从而避免未来出现这种混淆。”

“伪开源”,比DeepSeek差远了

一直以来,Meta都以大模型开源路线领路人自居,有了DeepSeek珠玉在前,这次Llama 4的开源方式,反而动摇了Meta作为开源标杆的地位。

Llama 4执行的非标准开源许可,而是采用Meta自定义的许可条款,对商业使用和分发设置了多重限制。例如,月活跃用户超过7亿的公司需向Meta单独申请授权,且Meta可自行决定是否批准。竞争对手员工被禁止接触模型,要求所有衍生模型名称必须以“Llama”开头,并在界面、文档中突出显示“Made with Llama”水印等。

而DeepSeek R1遵循标准的开源协议MIT许可协议,允许自由使用、修改、分发及商业化,仅需保留原始版权声明和许可声明。无商业限制,企业对模型的使用无需额外授权,且可基于MIT许可开发闭源商业产品。

开放源代码促进会(OSI)定义的“开源”需允许自由修改和分发,而Meta的条款明显违背这一原则。仅从开源许可方面来看,和DeepSeek R1相比,Llama 4的开放性差远了。

Llama 4开源仅提供模型参数,缺乏对训练流程、数据清洗策略的披露,未公开完整的训练数据集和超参数优化细节,如MetaP方法的核心逻辑,开发者无法复现或改进模型。此举被社区用户质疑为“黑箱式共享”。

另外,Llama 4还设置了诸多限制,比如,繁琐的申请流程,用户需登录Hugging Face账号并填写包含个人身份、公司信息、税务标识等详细资料的申请表,稍有错漏可能被永久拉黑且无申诉渠道。

相比之下,国内开源模型如DeepSeek、通义千问等都无需复杂流程即可直接使用。

此外,Llama-4-Scout和Maverick虽宣称支持单卡运行,但需要NVIDIA H100等高端GPU(单卡成本超3万美元),普通开发者难以负担。用户认为,真正的开源应兼顾不同硬件环境。

总之,Meta针对Llama 4开源的一系列骚操作,被开发者批评“背离开源精神”,是“既要开源流量,又防社区威胁”的双标策略,进一步加剧Llama 4的信任危机。

Meta的Llama 4本被寄予厚望,却在短短两天内因作弊刷榜、代码能力拉垮、伪开源争议跌落神坛。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

举报

  • 相关推荐
  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

  • 华为Mate 80系列下周预热:史上最强Mate 四剑齐发

    博主定焦数码暗示,华为Mate 80系列将在11月18日预热,11月25日正式发布。 据悉,华为Mate 80系列将推出4款旗舰,包括Mate 80、Mate 80 Pro、Mate 80 Pro Max和Mate 80 RS非凡大师。 其中Mate 80和Mate 80 Pro是6.75英寸1.5K屏,Mate 80 Pro Max和Mate 80 RS非凡大师是6.89英寸1.5K屏,四款机型全部支持3D人脸识别,这是Mate系列旗舰第一次全系标配3D人脸识别。 核心配置上,Mate 80系列首发全新的麒麟

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

  • 文远知行斩获美国以外首张城市级L4 Robotaxi商运牌照,中东规模化布局提速

    11月10日,文远知行获阿联酋政府批准,取得全球首张城市级L4自动驾驶商业化运营牌照,可在阿布扎比开展无安全员的Robotaxi服务。这标志着其在中东实现纯无人运营落地。服务将通过Uber等平台上线,计划2026年车队扩至千台,2030年达数万台。凭借近百万公里数据与政府支持,公司将在阿布扎比实现单车盈亏平衡,并以此为起点推动全球智慧交通发展。

  • 最强Mate旗舰!华为Mate 80本月下旬亮相

    华为Mate 80系列会在11月25日前后发布,这将是史上最强Mate旗舰。 据悉,本次发布会将会推出Mate 80、Mate 80 Pro、Mate 80 Pro 和Mate 80 RS四款旗舰,其中标准版代号Voyager,支持66W有线快充;Pro、Pro 及RS版统一采用Sagittarius代号,支持100W有线充电。

  • Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

    2025年11月11日,舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计,提供一站式高品质音频服务,集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证,无缝接入MTR生态系统,支持端到端加密通信,确保会议安全。用户可远程管理系统,降低运维成本。舒尔与微软合作,共同提升企业协作效率,首批体验用户反馈语音清晰流畅,显著优化沟通质量。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 苹果发布iOS 26.2 beta 2:动效更流畅、继续适配液态玻璃

    苹果今天凌晨发布了iOS 26.2 beta 2,依然在适配更多的液态玻璃效果,并且还优化了动画效果,更流畅丝滑了。 以下是本次主要更新内容: 游戏库新增排序与筛选功能,支持手柄导航,且在播放过程中可实时更新分数。 新版还强化了社交互动功能,用户可以直接从游戏”应用中邀请朋友进行挑战或实时多人游戏,当朋友打破你的高分纪录时,系统还会发送通知,方便你立即�

  • 荣耀500系列11月24日亮相:比华为Mate 80早一天

    荣耀宣布即将发布荣耀500系列,该系列以越级配置带来双超体验,性能不妥协,续航再突破,重新定义档位标准。 博主定焦数码爆料,荣耀500系列发布时间应该是11月24日,跟华为Mate 80系列发布会很接近,后者预计会在11月25日亮相。 据悉,荣耀本次发布会将会推出荣耀500和荣耀500 Pro两款机型,全系搭载高通骁龙8系旗舰平台,其中标准版搭载高通骁龙8s Gen4,Pro版搭载高通骁�

今日大家都在搜的词: