首页 > AI头条  > 正文

阿里Qwen2-72B登顶HELM榜单:性能超越Llama3-70B

2024-06-20 11:20 · 来源: AIbase基地

近日,斯坦福大学的大模型测评榜单HELM MMLU发布了最新结果。斯坦福大学基础模型研究中心主任Percy Liang发文指出,阿里巴巴的通义千问Qwen2-72B模型在排名上超过了Llama3-70B,成为表现最优的开源大模型。

MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是业界最具影响力的大模型测评基准之一。它涵盖了基础数学、计算机科学、法律、历史等57项任务,旨在测试大模型的世界知识和问题解决能力。然而,在实际测评中,不同模型的结果往往缺乏一致性和可比性,这主要是由于使用了非标准提示词技术和未统一采用开源评价框架等原因。

QQ截图20240620111950.png

斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),致力于创建一种透明、可复现的评估方法。HELM框架对不同模型在MMLU上的评估结果进行标准化和透明化处理,解决了现有MMLU评估中存在的问题。例如,对所有参评模型使用相同的提示词,并在每项测试主题上为模型提供同样的5个示例进行情境学习。

斯坦福大学基础模型研究中心主任Percy Liang近日在社交平台发布了HELM MMLU最新榜单。榜单显示,阿里巴巴的通义千问开源模型Qwen2-72B排名第5,仅次于Claude3Opus、GPT-4o、Gemini1.5pro和GPT-4,是排名最高的开源大模型,同时也是表现最优的中国大模型。

通义千问Qwen2系列于2024年6月初开源,包含5个不同尺寸的预训练和指令微调模型。截至目前,Qwen系列模型的下载量已突破1600万次,显示出其在业界的广泛认可和强大性能。

HELM MMLU的最新评测结果,不仅彰显了Qwen2-72B在多任务语言理解中的卓越表现,也标志着中国大模型在全球AI技术竞赛中的崛起。随着技术的不断进步,期待未来能够看到更多来自中国的优秀大模型在国际舞台上展露头角。

  • 相关推荐
  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 72岁老人坐石头10秒屁股竟烫糊了 需进行植皮手术

    近日,湖北襄阳发生了一起因高温导致的意外烫伤事件,一名 72 岁的王奶奶在自家菜园劳作时,因坐在暴晒后的石头上休息仅 10 余秒,便不幸遭遇三度烫伤,需进行植皮手术。这一事件再次为公众敲响了高温天气下物表烫伤的警钟。 ​事发当日正午,气温高达38℃,王奶奶在劳作间隙感到疲惫,便选择坐在一块石头上短暂休息。然而,这块被烈日暴晒的石头表面温度极高,�

  • 6.3万起 三星Galaxy Z Fold7/Flip7限量版发布:灵感来自Labubu 只有8台

    日前,奢侈品牌厂商Caviar推出Cabubu系列定制版三星Galaxy Z Fold7、三星Galaxy Z Flip7。 其中,三星Galaxy Z Fold7Cabubu版售价8910美元起(约合6.3万元人民币)、三星Galaxy Z Fold7Cabubu版起售价10340美元(约合7.4万元人民币)。

  • Lamett乐迈石晶发布2025新品,中国全屋整装迎来“石晶时代”

    乐迈石晶在第27届中国建博会(广州)推出"全屋石晶整装解决方案",以"要健康·要安全·要石晶"为主题,通过零醛添加、防水防潮、防蛀防霉等八大性能优势重新定义整装标准。该方案采用天然石灰岩和树脂晶体为原料,通过高温高压工艺实现零甲醛释放,适用于全屋空间。乐迈石晶已建立全球研发中心,拥有多项核心专利技术,业务覆盖80多个国家和地区。此次创新不仅推动建材升级,更引领健康人居新趋势,为消费者打造安全舒适的家居环境。

  • 三维天地LabAsia 2025参展纪实:数智化解决方案赋能东南亚实验室升级

    2025年7月14-16日,第九届亚洲实验室设备展LabAsia 2025在马来西亚举行。北京三维天地携新一代实验室信息管理系统SW-LIMS和SunwayLink智能平台亮相展会,展示其"实验室管理+数据生态"双引擎解决方案。展会期间,三维天地重点演示了AI与LIMS深度融合的创新成果,以及基于多样化大模型的AI赋能实践,吸引了来自54个国家的300多家参展商和7000多名专业观众。该公司成熟的LIMS系统已覆盖科研、生产、CDMO等全行业场景,支持多实验室集中管控,获得制药巨头、CRO/CMO企业及高校科研机构青睐。展会通过技术交流会深化了行业对数字化解决方案的认知,三维天地表示将持续深耕全球市场,推动实验室行业高质量发展。

  • 华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

    华为将于7月24日发布三款平板新品:旗舰款MatePad Pro 12.2英寸配备全新PaperMatte显示屏,采用Tandem OLED技术,功耗降低30%,支持144Hz刷新率、2000尼特峰值亮度,搭载麒麟9020A处理器,内置10100mAh电池和100W快充;MatePad 11.5 2025采用11.5英寸LCD屏,搭载麒麟8020处理器;MatePad Air 12 2025配备12英寸LCD屏,预计搭载麒麟9系新处理器。三款产品均主打高性能和长续航,满足不同用户需求。

  • 海外营收增长700%!阿里云助力云鲸智能出海

    家用机器人企业云鲸智能2024年海外营收同比增长700%,产品覆盖全球30多个国家和地区,服务超400万用户。公司自2023年发力海外市场,针对不同地区需求创新产品功能,如针对欧美地毯市场开发深度清洁模块。依托阿里云全球基础设施,云鲸构建了数字化底座,实现产品快速迭代和全球业务稳定运行。作为行业领军企业,云鲸连续两年入选中国科技机器人50强,并登上胡润全球独角兽榜单。其出海经验表明,中国制造正从价格竞争转向技术驱动,通过本地化创新赢得高端市场。

  • 《黑神话》后国产3A力作!《明末:渊虚之羽》卖爆 登顶Steam全球热销榜

    《黑神话:悟空》后的又一款国产3A游戏《明末:渊虚之羽》将于2025年7月24日正式发售。 随着发售日的临近,本作的预购量也在不断增加,今晚,《明末:渊虚之羽》成功登顶Steam全球热销榜。 本作Steam定价标准版248元、豪华版298元。

  • 央广网等百余家媒体报道,Lamett乐迈石晶建博会首秀掀起“石晶全屋整装”热潮

    在第27届中国建博会上,Lamett乐迈石晶凭借"石晶全屋整装解决方案"和"7天无理由退货"服务政策成为全场焦点。该品牌推出的石晶材料具备八大核心性能,完美解决传统建材在环保、功能和安装上的痛点,实现健康与美学的平衡。展会期间,其产品覆盖地面、墙面、柜体等多场景应用,引发行业高度关注。权威专家指出,Lamett石晶符合国家"好房子"政策方向,有望推动家居建材行业升级。凭借创新技术和完善服务体系,该品牌正引领行业迈入以石晶为核心的新时代。

  • 2025全球B2B电商平台行业调查报告‌

    报告分析了全球B2B电商平台的现状与发展趋势。主要内容包括:1)B2B平台打破地域限制,实现全球商品交易和信息交流;2)主要功能涵盖信息服务、交易服务和增值服务;3)运营模式分为信息服务、交易服务和综合服务三类;4)以阿里巴巴国际站、TradeKey等平台为例,分析其商业模式;5)未来趋势包括技术驱动变革、跨境交易兴起、供应链整合优化等。报告指出B2B平台正成为企业拓展国际市场的重要桥梁,建议企业充分利用平台资源提升竞争力,同时呼吁加强行业监管。

今日大家都在搜的词: