首页 > 业界 > 关键词  > Hugging最新资讯  > 正文

!阿里Qwen-2成全球开源大模型排行榜

2024-06-27 12:00 · 稿源: 快科技

Hugging Face联合创始人兼首席执行官Clem在社交媒体上宣布,阿里巴巴最新开源的Qwen2-72B指令微调版本已登上开源模型排行榜榜首。

为了确保排行榜的公正性和准确性,Hugging Face团队利用300块H100高性能硬件,对100多个主流开源大模型进行了严格评估,包括BBH、MUSR、MMLU-PRO、GPQA等基准测试集。

此次重新评估旨在解决开发者过度依赖评估集数据和过去评估标准过于简单的弊端。通过提高难度标准,本次评估检验了模型在更复杂任务下的性能。

值得注意的是,阿里巴巴开源的Qwen-2 72B模型在竞争中脱颖而出,超越了Meta的Llama-3和Mistralai的Mixtral,成为行业领先者。此举表明了中国在开源大模型领域的领导地位。

Stability AI研究总监Tanishq表示,他此前预测中国在开源大模型领域具有强劲实力。除了Qwen2,零一万物、InternLM、Deepsseek等中国开源模型也在国际舞台上表现出色。

Tanishq强调,任何认为中国在开源大模型领域落后的观点都是站不住脚的。相反,中国正在引领这一领域的发展,展现出领导者的姿态。

举报

  • 相关推荐
  • 多个官榜第一,销额销量遥遥领先,德施曼做对了什么?

    2025年618购物节期间,德施曼智能锁表现亮眼,在天猫、京东、抖音等多个平台总榜夺冠,销量&销售额连续十年全平台第一。其高端市场逆势增长245%,爆款单品Q5FPro销售额破亿。德施曼通过技术创新(如AI智能管家锁麒麟R9搭载Miya智能管家和GPTfinger2.0技术)和全域优质内容种草+高管直播模式实现爆发增长。618期间电商销售总额达8556亿元,同比增长近15%,智能家居品类表现突出。德施曼凭借产品技术迭代和精准营销持续领跑行业,其技术引领之路从未停歇,从2009年中文操作可视大屏锁到2025年AI智能锁,始终以用户需求为核心驱动创新。

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 开门第一烧丨海辰储能完成全球首次开门燃烧试验

    海辰储能近日完成全球首次5MWh储能系统极限燃烧试验,验证了系统在极端条件下的安全防护能力。试验突破四大极限挑战:1)全球首次开门燃烧测试,验证"耐高温"结构防护性能;2)15cm极近间距测试,相邻柜体未发生热蔓延;3)关闭外部消防系统,仅靠系统自身防火设计抵御长时间烈火;4)100%满电状态测试,放大热失控能量释放规模。试验历时15小时,系统结构保持完整,相邻三柜体无热蔓延,通过UL9540A等国际标准认证。这一突破为行业安全标准制定提供重要参考,重新定义了储能系统防火安全等级,推动行业向更安全可靠方向发展。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • 月之暗面放王炸!开源Kimi新模型:超新版DeepSeek R1全球第一

    月之暗面推出了针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。 该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,超越了刚发布不就、参数量达671B的新版DeepSeek-R1。

  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 九四智能亮相大阪,AI大模型驱动全球企业实现智能化转型

    2025年5月28-29日,九四智能(94AI)将携自主研发的"大模型联络中心"解决方案亮相大阪"2025呼叫中心CRM演示和会议"。该方案通过AI Agent技术实现从用户触达、需求挖掘到服务闭环的全流程自动化,助力企业重构客户服务与运营效率。作为智能语音领域领军企业,九四智能已在金融、电商、保险等行业积累创新实践,其解决方案支持多语种与文化适配,满足GDPR等全球合规要求。会议重点探讨了数字化转型背景下AI与CRM系统的深度融合,展示了AI在跨境场景中的语言、文化及合规优势。未来,九四智能将持续推动全球企业智能化转型。

  • AI日报:MiniMax发布视频智能体Hailuo Agent;昆仑万维开源 Skywork-SWE-32B;B站接入Qwen 3等模型

    本期AI日报聚焦多项AI领域创新:1)MiniMax推出视频Agent工具,支持文本生成高清视频及人脸驱动;2)昆仑万维开源Skywork-SWE-32B模型,提升软件工程任务表现;3)B站接入通义千问模型,推出数据分析智能体InsightAgent;4)ChatGPT深度整合Gmail与日历功能;5)腾讯云发布全链路AI开发平台"AI Builder";6)HeyGen推出UGC广告数字人功能;7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态,展现AI技术快速发展的多元应用与潜在影响。