首页 > 业界 > 关键词  > 英伟达最新资讯  > 正文

英伟达 H100 在 MLPerf AI 性能测试刷新纪录:11 分钟不到完成 GPT-3 大模型训练

2023-06-28 09:05 · 稿源:站长之家

站长之家(ChinaZ.com) 6月28日消息:MLPerf 基准测试是评估系统在一系列人工智能工作负载下的性能表现的重要指标。人工智能正在快速发展,生成式人工智能工作负载日益突出,而 MLPerf 也在与行业一起不断进化。其最新的 MLPerf Training v3.0 基准套件引入了推荐引擎和大型语言模型(LLM)训练的新测试。

nvidia-culitho,英伟达,芯片

MLCommons 负责监督 MLPerf,并于今天发布了最新的 MLPerf 基准测试结果英伟达 H100 几乎在每个类别中占据主导地位,并成为新 LLM 基准测试中唯一使用的 GPU。

在 LLM 和 BERT 自然语言处理(NLP)基准测试中,英伟达和 Inflection AI 共同开发的系统在 CoreWeave 上表现最佳。这家云服务提供商专注于大规模 GPU 加速工作负载。可以说,这些数据令人印象深刻。

英伟达 H100 在每个基准测试中均刷新了最佳记录

MLPerf LLM 基准测试基于 OpenAI 的 GPT-3 LLM,训练了 1750 亿个参数(GPT-3 是该基准测试创建时最新一代的 GPT)。训练 LLM 是一项计算密集型任务,Lambda Labs 估计,训练 1750 亿个参数的 GPT-3 需要约 3.14E23 次计算浮点运算(FLOPS)。这需要大量昂贵的计算资源。

英伟达专为这些工作负载设计了 H100 Tensor Core GPU,并迅速成为训练大型语言模型中最受欢迎的加速器之一。这是有充分理由的。英伟达在 H100 中引入了新的 Transformer 引擎,专门用于加速 Transformer 模型的训练和推断(英伟达在一篇博文中对该设备的全部功能进行了出色的描述)Transformer 是生成式人工智能的核心,因此预期 H100 的性能应优于以前的一代。英伟达表示,H100 上的所有内容都更快,新的 Transformer 引擎将训练加速高达 6 倍。

在今天的结果中,90 个系统中有 82 个使用了英伟达加速器(除了 18 个非英伟达系统中的一个外,其余所有系统均由英特尔提交)。将近一半的结果基于英伟达 H100 Tensor Core GPU。英伟达 H100 在 MLPerf 训练和推断基准测试中创下了记录,而英伟达的 A100 和 L4 GPU 提供了出色的推断结果。

更深入地了解指标,英伟达 H100 Tensor Core GPU 的每个加速器 LLM 训练时间为 548 小时(约 23 天)。该 GPU 在每个基准测试中也刷新了每个加速器的记录。

大规模 LLM:英伟达 + Inflection AI + CoreWeave

查看每个加速器的结果很有趣,但现实世界的生产工作负载很少使用单个加速器构建。在具有多个 GPU 的集群系统中,会出现规模效益,英伟达从一开始就考虑到了这一点,其持续关注使用其 NVLink 技术进行 GPU 间通信的规模化 GPU 集群。了解实际性能需要从系统级别来看结果。

英伟达和 Inflection AI 共同开发了一个基于英伟达 H100 Tensor Core GPU 的大规模 GPU 集群系统,由 Coreweave 托管和测试。该系统组合了 3,584 个英伟达 H100 加速器和 896 个第四代英特尔 Xeon Platinum 8462Y+处理器。结果令人震撼,在测试的每个工作负载上都创下了新纪录。

深入研究 LLM 基准测试展示了英伟达技术的全部能力。这个由 3,854 个 GPU 组成的集群在大规模基于 GPT-3 的训练基准测试中完成时间不到 11 分钟,而只有一半数量的 GPU 的配置则需要将近 24 分钟,展示了英伟达 H100 GPU 的非线性可扩展潜力。

英特尔是唯一另一个报告 LLM 基准测试结果的实体。英特尔的系统结合了 64-96 个英特尔 Xeon Platinum 8380 处理器和 256-389 个英特尔 Habana Gaudi2 加速器。英特尔报告了其最高配置的 LLM 训练时间为 311 分钟。

分析师观点

基准测试提供了系统的时点比较。几乎所有提交的结果都基于英伟达加速器,这表明英伟达在人工智能生态系统中的持续主导地位。尽管这种主导地位在很大程度上基于其加速器技术,但英伟达在生态系统中的黏性仍然在很大程度上受到 AI 社区对其软件的依赖。

英伟达不仅提供底层的 CUDA 库和工具,几乎所有 AI 框架都是基于它们开发的,该公司还在软件层面上提供全套的 AI 工具和解决方案。除了支持 AI 开发人员外,英伟达还不断投资于管理工作负载和模型的企业级工具。英伟达在行业中在软件方面的投资是无与伦比的,并将在可预见的未来继续保持领先地位。虽然会有非英伟达的训练解决方案出现,但它们将继续是例外。

从 MLPerf 结果中得出的最重要结论不仅仅是英伟达的新一代 H100 Tensor Core 加速器的原始性能,而是在云中运行 AI 训练工作负载的强大和高效性。构建任何规模的训练集群都是一项昂贵且复杂的任务。尽管英伟达没有公布 H100 加速器的定价,但估计每个加速器的价格在 3 万至 4 万美元之间。CoreWeave 提供每小时 2.23 美元的租用服务,可以提供与现场实际安装的相媲美的训练结果(此外,值得一提的是,目前还无法从任何顶级公共云提供商那里获得 H100 的使用时间;目前没有 CSP 提供基于 H100 的实例)。

人工智能正在改变我们与技术互动的方式,改变企业的运作方式以及我们理解周围数据的方式。英伟达处于这场革命的中心,迅速扩大其在几乎所有数据中心元素中的存在。英伟达不再只是我们成长过程中的游戏图形公司,而是迅速成为我们集体未来的关键推动者。

举报

  • 相关推荐
  • 微软定制 AI 芯片遭遇延期 为英伟达提供更多发展空间

    微软 Braga 芯片因研发挫折不断,无法在 2026 年前问世……

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 华为鸿蒙智行大爆发!6月交付52747辆刷新纪录 夺新势力销冠

    鸿蒙智行以颠覆性速度改写中国新能源汽车市场历史。 官方最新数据显示,鸿蒙智行自入局以来,仅耗时39个月实现全系累计交付80万辆,一举创下新势力汽车最快交付纪录。 2025年6月,其单月交付量飙升至52747辆,单日峰值达3651辆,分别刷新鸿蒙智行单月、单日销量历史新高。

  • 英伟达重夺全球市值第一头衔 再度超越微软

    去年6月19日,英伟达股价曾以135.58美元创下历史新高,当时总市值达3.335万亿美元,一举超越微软和苹果,首次登上全球市值最高上市公司的宝座。此后,在全球市值排名中,英伟达与苹果、微软展开激烈角逐,三者轮番登顶。上一次英伟达成为市值最高的公司是在今年1月24日。 从英伟达自身的财务表现来看,其业绩也相当亮眼。根据英伟达2026财年第一季度财报,该季度公司

  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • 玄武云出席崔牛会AI活动,聊聊AI大模型如何掌握终端信息

    6月20日,崔牛会主办的AI发现者计划之AI+OPEN DAY在广州举办,玄武云与百度云等企业围绕AI大模型应用展开探讨。玄武云分享了快消行业数字化转型解决方案,推出SKU超级模型和价签识别模型,帮助品牌商提升终端管理效率。其中SKU模型覆盖6000+商品,识别准确率达90%;价签模型准确率85%,已应用于知名薯片品牌。通过AI技术实现商品陈列优化、价格监控和渠道布局分析,助力快消企业从经验驱动转向数据智能驱动,在存量市场中创造增量价值。