首页 > AI头条  > 正文

64页论文揭示AI模型排行榜黑幕:Llama4发布前私下测试27个版本,只取最佳成绩

2025-05-03 10:06 · 来源: AIbase基地

近日,一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注,尤其是对大型语言模型(LLM)领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出,排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。

论文显示,一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。例如,Meta 在发布 Llama4之前测试了多达27个版本,然后只对外公布表现最佳的模型。这种 “最佳选择” 策略不仅导致了模型排行榜的膨胀,还可能误导用户对模型真实能力的判断。

image.png

此外,研究还发现,专有模型获得的用户反馈数据远超过开源模型,这种数据访问的不平等使得一些开源模型在竞争中处于劣势。以 Google 和 OpenAI 为例,它们分别占据了测试数据的19.2% 和20.4%,而83个开源模型仅获得了约29.7% 的数据。这意味着,开源模型在排行榜上难以获得公平的展示机会。

image.png

更令人担忧的是,研究团队还发现,243个模型中有205个被悄然弃用,这一数量远超官方统计的47个。这种现象使得排行榜的公正性进一步受到质疑。

针对论文提出的问题,大模型竞技场的官方回应表示,虽然存在私下测试的情况,但这并不意味着排行榜存在偏见。同时,他们强调,排行榜的排名反映了大量用户的真实偏好。不过,研究团队认为,这种快速刷榜的现象并不真实地反映模型的技术进步。

image.png

为了提高排行榜的公正性,研究团队提出了五项改进建议,包括禁止撤回提交分数、限制每个厂商的非正式模型数量,以及提高模型弃用的透明度等。

image.png

目前,随着对排行榜机制的深入探讨,AI 社区意识到,单一排行榜可能无法全面反映模型的能力,寻找多个评估平台变得愈发重要。对此,卡帕西建议使用 OpenRouter,这是一个能够统一访问多种模型的接口,虽然目前在多样性和使用量上还有待提升,但具有巨大的潜力。

  • 相关推荐
  • 苦等一年 Meta终于放大招 正式发布开源大模型Llama 4

    美国科技巨擘Meta重磅推出其迄今最为强大的开源AI模型Llama4,恰逢Llama3上市一周年之际。Llama4系列采用了先进的混合专家架构,这一架构在模型训练及用户查询回答过程中展现出更高效率,通过将模型划分为多个专注于特定任务的专家”子模型,实现精准高效的处理。Meta首席执行官扎克伯格表示:他们的目标是建立世界领先的人工智能,将其开源,并使其普遍可用,以便世界上每个人都能受益。

  • Llama 4模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • Meta说他们的 Llama 4 偏见少了!但,“虚假对等”才是真偏见

    Meta公司称,相比之前的版本,他们最新的人工智能模型Llama4的政治偏见更少了。其中一部分便是通过允许该模型回答更多带有政治争议性的问题来实现这一点的。下次当你使用Meta的AI产品时,它可能会为“通过服用马用镇静剂来治疗新冠病毒”这种观点说好话!

  • 实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

    LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至连英伟达基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

  • Llama 4五大疑点曝光,逐层扒皮,全球AI进步停滞,NYU教授称Scaling彻底结束

    令人失望的Llama4,只是前奏已。接下来我们恐将看到——全球局势的改变,将彻底阻止AI进步!最近,一位AICEO做出长视频,逐级对Llama4身上的六大疑点进行了扒皮。GaryMarcus正在寻找对开发更可靠替代方法有兴趣的投资者。

  • 反击DeepSeek失败!Llama 4效果不好,Meta承认有问题

    今天凌晨1点半,Meta生成式AI领导者AhmadAl-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama4质疑进行了官方回应。Ahmad表示,Llama4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。由于关税大战的原因,Meta的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。

  • 刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

    Llama4重磅发布了!Meta官宣开源首个原生多模态Llama4,首次采用的MoE架构,支持12种语言,首批发布一共两款:Llama4Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下Llama4Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文另外,2万亿参数Llama4Behemoth将在未来几个月面世,288B活跃参数,16个专家。Llama4的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。L

  • 最新AI产品从哪获取?海外、国内AI产品排行榜去哪看?

    AIbase基地是一个专注于人工智能领域的综合平台,提供全球AI行业最新动态、工具、产品和变现指南。核心功能包括:1)实时AI新闻资讯和行业趋势;2)AI变现成功案例分享;3)免费AI教程资源;4)AI产品流量排行榜;5)热门开源项目追踪。该平台旨在帮助用户掌握前沿AI信息,发现商业机会,是AI爱好者和从业者的实用资源库。

  • 华为乾崑智驾ADS 4发布 靳玉志:能超越ADS的只有ADS

    快科技4月22日消息,今日下午,华为乾崑智能技术大会如期召开。华为智能汽车解决方案BU CEO靳玉志上台发表演讲,他宣布,华为乾崑智驾ADS 4正式发布,实现架构升级、安全升级、体验升级、产业升级。他表示,能超越华为ADS的只有ADS。据其介绍,华为乾崑智驾ADS 4采用全新WEWA技术架构:面向自动驾驶,从类人到超人。云端采用世界引擎,车端采用世界行为模型。WEWA架构带来安全升级和休验升级,端到端时延降低50%,通行效率提升20%,重刹率降低30%。在安全方面,华为乾崑智驾ADS 4带来全维防碰撞系统CAS 4.0。靳玉志透露,去年,华为发布了

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

今日大家都在搜的词:

热文

  • 3 天
  • 7天