首页 > 业界 > 关键词  > Meta最新资讯  > 正文

实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

2025-04-13 09:26 · 稿源: TechWeb.com.cn

4月13日消息,LMArena 更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!

这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama 4大模型的质疑。(详情:Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

4月6日,Meta发布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena公布的Chatbot Arena LLM 排行榜中的排名第二,仅次于Gemini 2.5 Pro。

然而,随着开发者实际使用Llama 4大模型开源版的效果陆续曝出,Llama 4口碑急转直下。有开发者发现Meta提供给LMArena的Llama 4版本与提交给社区的开源版本不同,因而Meta被质疑为刷榜作弊。

4月8日,Chatbot Arena官方发文确认了用户的上述质疑,公开表示Meta提供给他们的是“特供版”,并考虑更新排行榜。

根据Chatbot Arena官方消息,Meta首次提交LMArena的Llama-4-Maverick-03-26-Experimental是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为HuggingFace开源版同款Llama-4-Maverick-17B-128E-Instruct,是17B激活参数、128个MoE专家的指令微调模型。

目前,开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

LMArena详细排名如下:

举报

  • 相关推荐
  • HOLLYLAND猛玛发布行业首款无线直播声卡系统MELO P1,重塑唱歌直播新体验

    HOLLYLAND猛玛发布MELO+++P1无线直播声卡系统,将手持麦克风、声卡、无线监听耳机和遥控器整合于一体充电盒中,开箱即播。该产品通过QQ音乐臻品音质认证和全民K歌臻品录音认证,旨在解决音乐直播设备体验滞后于内容发展的问题。猛玛利用12年无线音视频技术积累,将专业录音棚级硬件(双DSP芯片、AI降噪等)以易用形态下沉至直播场景,降低搭建门槛,提升户外稳定性,为行业提供了从参数竞争转向产品形态创新的新方向。

  • 沉浸且便携 三星Galaxy Tab S11系列的大屏让球赛可以随时看

    四年一度的球赛季与父亲节相遇,三星Galaxy Tab S11系列平板成为送礼佳选。它轻薄便携,可随时随地观看比赛;配备11英寸或14.6英寸动态AMOLED屏幕,支持HDR10+和120Hz高刷,画质沉浸;IP68防护和防眩光技术适合户外使用;AKG四扬声器带来身临其境的音效。此外,AI功能如即圈即搜、翻译页面,以及强大处理器支持多任务处理,满足看球、办公和娱乐需求,是陪伴父亲度过足球夏天的理想礼物。

  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • macOS 27 Beta版神级优化!5年老Mac告别卡顿:比26正式版还流畅

    苹果日前发布了macOS 27 Golden Gate开发者Beta版本,已有首批用户升级测试。 有用户表示,这个测试版比macOS 26 Tahoe的稳定版运行更流畅,5年前的M1 Pro MacBook Pro卡顿问题基本消失,甚至8GB内存的M3 MacBook Air也有明显改善。 Reddit用户Pilingo在搭载M1 Pro的5年款MacBook Pro上安装了macOS 27开发者Beta,他表示Tahoe上的延迟、卡顿和整体迟钝感已经完全消失,应用启动更快,动画更顺滑,整个�

  • 遇事不决迫击炮再进化!微星MAG B850M MORTAR MAX WIFI重磅开售

    微星发布MAG B850M MORTAR MAX WIFI主板,首发价1349元。该主板采用14(80A)+2+1路智能供电,配备4个M.2插槽(含2个PCIe5.0接口),内置独立时钟发生器,支持精准超频。EZ DIY设计包括显卡快拆按钮、免工具天线等。搭载5G有线网卡、Wi-Fi7无线网卡及丰富I/O接口,提供4年质保。该主板以高供电规格、海量存储和人性化设计,重新定义M-ATX主流主板性能标杆,适合追求性能与便利性的DIY玩家。

  • AI日报:小米开源AI编程助手MiMo Code;京东MALL首批人形机器人上岗;谷歌发布DiffusionGemma

    AI日报今日要点:小米开源终端AI编程助手MiMo Code,内置免费多模态模型;京东MALL首批人形机器人上岗,优必选助力618智慧零售;苹果Xcode 27原生集成Gemini,提升AI编程效率;谷歌发布实验性开源模型DiffusionGemma,采用文本扩散架构提速推理;微软因数据隐私担忧禁用员工使用Claude Fable 5;谷歌升级NotebookLM,引入Gemini 3.5 Flash与独立云计算机;华纳音乐收购Sureel AI,构建版权防护�

  • Meta大重组:裁员同时转岗 7000人将加入AI新团队

    Meta正同步推进裁员与内部转岗两项重大调整。 以2025年底约78000名员工为基数计算,此次调整波及约20%的人员。 此前,Meta已于5月20日宣布裁员约8000人,约占当时员工总数的10%。 与此同时,公司明显放缓业务扩张步伐,上个月还表示将关闭6000个尚未完成招聘的岗位。Meta年内可能继续裁员,调整远未结束。

  • 美团Tabbit AI浏览器正式版上线:核心功能永久免费!整合主流国内大模型

    美团正式发布Tabbit AI浏览器1.0标准版,结束100天公测,全面开放下载,支持安卓、鸿蒙、苹果系统。该产品打破传统浏览器局限,通过整合DeepSeek、Kimi等多款国内主流大模型,实现AI全流程自动化任务处理,如搜索、筛选、执行等。新增记忆功能提升交互连贯性,内置300余种实用技能,覆盖学习、办公、生活等场景,并启动“妙招大赛”鼓励用户分享原创技能。

  • 超节点提效30%!华为官宣昇腾亲和大模型:6月30日开源上线

    华为开发者大会(HDC 2026)上,华为常务董事、终端BG董事长余承东在大会主题演讲中宣布,推出昇腾亲和大模型,覆盖算法架构到训练推理全流程。 昇腾亲和大模型是业界首个DSA SWA独立分层混合架构。针对MoE(混合专家)模型专家路由问题进行了专项优化。 昇腾原生训练实现双重性能提升,训练效率提升30%,512K长序列训练吞吐提升50%

  • 微星旗舰机箱MEG MAESTRO 900R超神开售:全景玻璃+可旋转主板托盘

    微星在CES2026上推出旗舰级PC机箱MEG MAESTRO900R超神,现已登陆京东平台开售,首发价3999元。该机箱采用三面全景钢化玻璃和开放式架构,支持四向可旋转主板托盘,方便外部调试硬件。配备多颗160mm静音风扇,支持E-ATX主板及最多四个冷排,可驾驭双路RTX5090等顶级配置。首发期间晒单返100元京东E卡及小礼品,并已荣获2026年红点设计大奖。

今日大家都在搜的词: