首页 > AI头条  > 正文

英伟达GB300/B300 GPU横空出世!推理性能暴增,供应链大洗牌

2024-12-26 14:22 · 来源: AIbase基地

英伟达在GB200和B200发布仅6个月后,再次推出全新GPU——GB300和B300。这看似只是小幅升级,实则蕴含着巨大的变革,尤其是推理模型性能的显著提升,将给整个行业带来深远的影响。

B300/GB300:推理性能的巨大飞跃

B300GPU采用台积电4NP工艺节点,针对计算芯片进行了优化设计。这使得B300的FLOPS性能比B200提升了50%。部分性能提升来自TDP的增加,GB300和B300HGX的TDP分别达到1.4KW和1.2KW(GB200和B200分别为1.2KW和1KW)。其余的性能提升则来自架构增强和系统级优化,例如CPU和GPU之间的动态功率分配。

image.png

除了FLOPS的提升,内存也升级为12-Hi HBM3E,每个GPU的HBM容量增加到288GB。然而,引脚速度保持不变,因此每个GPU的内存带宽仍为8TB/s。值得注意的是,三星未能进入GB200或GB300的供应链。

此外,英伟达在定价方面也做出了调整。这将在一定程度上影响Blackwell产品的利润率,但更重要的是,B300/GB300的性能提升将主要体现在推理模型方面。

为推理模型量身打造

内存的改进对于OpenAI O3风格的LLM推理训练至关重要,因为长序列会增加KVCache,从而限制关键批处理大小和延迟。从H100到H200的升级(主要是内存的增加),带来了以下两方面的改进:

更高的内存带宽(H200为4.8TB/s,H100为3.35TB/s)使得所有可比较的批处理大小的交互性普遍提高了43%。

由于H200运行的批处理大小比H100更大,每秒生成的token数增加了3倍,成本降低了约3倍。这种差异主要是由于KVCache限制了总批处理大小。

更大的内存容量对性能的提升是巨大的。两款GPU之间的性能和经济差异远大于其参数规格所显示的:

image.png

推理模型的用户体验可能较差,因为请求和响应之间存在明显的等待时间。如果能够显著加快推理时间,将提高用户的使用意愿和付费意愿。

硬件通过中代内存升级实现3倍的性能提升是惊人的,远超摩尔定律、黄氏定律或我们所见过的任何其他硬件改进速度。

最强大的模型能够收取比性能稍差的模型高得多的溢价。前沿模型的毛利率超过70%,而开源竞争的落后模型的利润率则低于20%。推理模型不必只进行一个链式思考。搜索功能可以扩展来提高性能,就像在O1Pro和O3中所做的那样。这使得更智能的模型能够解决更多问题,并为每个GPU产生更多的收入。

当然,英伟达并非唯一可以增加内存容量的公司。ASIC也可以做到这一点,事实上,AMD可能处于更有利的地位,因为其MI300X、MI325X和MI350X的内存容量通常比英伟达更高,分别为192GB、256GB和288GB,但英伟达拥有名为NVLink的秘密武器。

NVL72的重要性在于,它允许72个GPU在同一问题上协同工作,共享内存,且延迟极低。世界上没有其他加速器具有全互连的交换能力。

英伟达的GB200NVL72和GB300NVL72对于实现许多关键功能至关重要:

更高的交互性,降低了每个思维链的延迟。

72个GPU可以分散KVCache,从而实现更长的思维链(提高智能)。

批处理大小的可扩展性比典型的8GPU服务器好得多,从而降低了成本。

在同一问题上工作以提高准确性和模型性能的样本量更多。

因此,NVL72的tokenomics提高了10倍以上,尤其是在长推理链上。KVCache占用内存对经济效益是致命的,但NVL72是唯一将推理长度扩展到10万个以上token的方法。

GB300:供应链重塑

对于GB300,英伟达提供的供应链和内容发生了巨大变化。对于GB200,英伟达提供整个Bianca板(包括Blackwell GPU、Grace CPU、512GB LPDDR5X、VRM内容),以及交换托盘和铜背板。

对于GB300,英伟达只提供“SXM Puck”模块上的B300、BGA封装的Grace CPU,以及HMC,后者将来自美国初创公司Axiado,而不是GB200的Aspeed。终端客户现在将直接采购计算板上的剩余组件,第二层内存将使用LPCAMM模块,而不是焊接的LPDDR5X。美光将成为这些模块的主要供应商。交换托盘和铜背板保持不变,英伟达完全供应这些组件。

image.png


转向SXM Puck为更多OEM和ODM参与计算托盘提供了机会。以前只有纬创和富士康可以制造Bianca计算板,而现在更多的OEM和ODM可以参与其中。纬创是ODM形式的最大输家,因为他们失去了Bianca板的份额。对于富士康来说,Bianca板份额的损失被他们是SXM Puck和SXM Puck的插槽的独家制造商这一事实所抵消。英伟达正试图为Puck和插槽引入其他供应商,但尚未下达任何其他订单。

另一个重大变化是VRM内容。虽然SXM Puck上有一些VRM内容,但大部分板载VRM内容将由超大规模公司/OEM直接从VRM供应商处采购。由于业务模式的转变,Monolithic Power Systems将会失去市场份额。

英伟达还在GB300平台上提供800G ConnectX-8NIC,在InfiniBand和以太网上提供双倍的扩展带宽。英伟达之前由于上市时间复杂性和在Bianca板上放弃启用PCIe Gen6而取消了GB200的ConnectX-8。

ConnectX-8与ConnectX-7相比有了巨大的改进。它不仅具有2倍的带宽,还具有48个PCIe通道,而不是32个PCIe通道,从而实现了独特的架构,例如风冷式MGX B300A。此外,ConnectX-8具有SpectrumX能力,而在之前的400G产品中,SpectrumX需要效率较低的Bluefield3DPU。

GB300对超大规模公司影响

GB200和GB300的延迟对超大规模公司的影响意味着,许多从Q3开始的订单将转移到英伟达新的、更昂贵的GPU上。截至上周,所有超大规模公司都决定采用GB300。部分原因是GB300的性能更高,但也有一部分原因是由于他们能够掌控自己的命运。

由于上市时间挑战以及机架、冷却和电源供应/密度的重大变化,超大规模公司不允许在服务器级别对GB200进行过多更改。这导致Meta放弃了从博通和英伟达多来源NIC的希望,转而完全依赖英伟达。在其他情况下,如谷歌,他们放弃了内部NIC,转而只使用英伟达。

对于超大规模公司中习惯于优化从CPU到网络,再到螺丝和金属板的所有成本的数千人组织来说,这简直是不可思议的。

最令人震惊的例子是亚马逊,他们选择了一种非常不理想的配置,其TCO比参考设计更差。亚马逊由于使用PCIe交换机和效率较低的200G弹性光纤适配器NIC,需要风冷,因此无法像Meta、谷歌、微软、Oracle、X.AI和Coreweave那样部署NVL72机架。由于其内部NIC,亚马逊不得不使用NVL36,由于更高的背板和交换机内容,每个GPU的成本也更高。总而言之,由于其围绕定制的限制,亚马逊的配置并不理想。

现在有了GB300,超大规模公司可以定制主板、冷却等更多组件。这使得亚马逊能够构建自己的定制主板,该主板采用水冷,并集成了以前风冷的组件,如Astera Labs PCIe交换机。随着更多组件采用水冷,以及在25年第三季度终于在K2V6400G NIC上实现HVM,这意味着亚马逊可以回归NVL72架构,并大大提高其TCO。

虽然超大规模公司必须设计、验证和确认更多内容,这是最大的缺点。这很容易成为超大规模公司有史以来必须设计的最复杂的平台(谷歌的TPU系统除外)。某些超大规模公司将能够快速设计,但其他团队速度较慢的公司则落后。尽管市场报告有取消情况,但我们认为微软由于设计速度较慢,是部署GB300最慢的公司之一,他们仍在第四季度购买一些GB200。

客户支付的总价格差异很大,因为组件从英伟达的利润堆叠中被提取出来,转移到ODM。ODM的收入受到影响,最重要的是,英伟达的毛利率也会在全年发生变化。

参考资料:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/

  • 相关推荐
  • 300岁TVB老人团播打PK,“视帝们”为何集体卷起来了?

    TVB也开始搞团播了? 前几日,许多网友们都被一个特殊的直播间硬控!团播打PK的形式大家早已见过,只是这场团播的主角却是我们熟悉的TVB港剧男神——吴卓羲、王浩信、郭晋安、欧阳震华、林晓峰及高钧贤组成的“TVB港剧男团”。 直播采用 “粉丝互动PK” 的模式,观众通过发送弹幕、点赞等方式为喜爱的艺人助力,当达到一定标准,即可解锁专属互动环节。 像众多“团播

  • 江西两兄弟,干出3000亿

    “一个是宁德时代,另一个恐怕是寒武纪。”身边投资人聊起了这个话题。 此时背景是,过去一年寒武纪股价暴涨,摘得A股涨幅榜桂冠;直至今年市值一度突破3200亿元,创下历史新高。 令人意外的是,这家千亿公司始于一对江西兄弟——陈云霁和陈天石。两兄

  • Labubu在欧美“杀疯了”:3000亿泡泡玛特点燃海外“超级燃料”?

    东南亚的火爆销量还在持续时,泡泡玛特的出海奇迹已经指向下一站:欧美。 “理财产品”Labubu第三代系列发布后,引发全球排队抢购潮,多地限购、断货售罄。 据七麦数据显示,4月25日,泡泡玛特APP首次登顶美国App Store购物榜。近日,蕾哈娜、Lisa、Dua Lipa、贝克汉姆争相晒出自己的Labubu,英国伦敦发生“黄牛斗殴事件”,泡泡玛特已宣布暂停Labubu在英国的销售。

  • 小伙13000元拍下1300年唐朝荔枝树共800斤 家人调侃脑子有病

    近日,来自山东的一男子在京东平台,花了13101元拍下一棵1300年唐朝荔枝树的采摘权。 据了解,这棵1300年古荔枝树来自中国荔枝之乡”广西灵山。 据灵山千年荔枝园负责人介绍,千年荔枝树大概有200多棵”,这棵1300年的荔枝树产量在800斤左右,每年很多游客慕名而来,买去给家人过寿,一般还没结果就被预订光。

  • 父亲欠债300万儿子拒还 法院判了:需协助偿还借款

    ​5月16日,北京,一起关于遗产继承与债务清偿的案件引发了社会的广泛关注。案件中,一位父亲因生意失败欠下300万元债务后突发心梗去世,其独生子小王继承了父亲的遗产,包括3.6万元的银行存款和一套价值70余万元的房产。面对债权人的催债,小王拒绝偿还父亲的债务,并在法庭上表示:“我爸借的钱凭什么找我要?你们有本事去墓园找他!”然而,法院的判决却让小王的强

  • 李想首次透露理想轿车项目:年度营收超3000亿后才去做

    日前,理想汽车管理层在一季度财报电话会上表示,理想焕新版车型上新后,每周销量均超过一万台,5月截至目前在20万元以上市场市占率14.7%,理想有信心焕新版车型很快会回到月销量五万台水平。 针对分析师提出理想汽车在什么阶段会考虑进军轿车市场”的问题。 李想回应称,我们认为,增程SUV、纯电SUV以及理想MEGA全部开启交付后,可以支持理想汽车实现一年3000亿人民

  • 真牛人!男子躲深山7年“手搓”300辆车:个个都有创意

    42岁博主顾玉鹏用废弃材料手工打造300辆创意车。2018年创业失败后,他带着3万元进山,每周完成1辆新车制作,材料多为钢筋、二手摩托零件等。代表作包括能爬45度坡的多轮履带车和带折叠床的"水陆两栖打工桌"。他将网友奇思妙想融入设计,如"会飞的垃圾桶"。其短视频账号粉丝近300万,单条最高播放530万次。他要求合作工程师需进山同吃住三个月,以证明普通人也能创造独特物品。

  • 一年掏3000个牛屁股的“乡村兽医”,凭什么俘获千万粉丝?

    凌晨两点多,刺耳的电话铃声撕裂黑夜。 村民的牛因吞下二十多斤玉米面危在旦夕,这位被乡亲们亲切称为“龙兽医”的人瞬间清醒,在夜色中驱车赶往现场。 两米长的洗胃管插入牛胃,混着酸液的绿色糜烂物喷涌而出。 十二轮灌洗,三十桶水,三小时的生死搏斗,汗水浸透衣衫,呕吐物沾满裤脚。当老牛终于将未消化的玉米面全部吐出,天边已泛微光。 而龙兽医来不及

  • 女子遗落300万翡翠被垃圾清运车收走 警方火速寻回

    近日,在江苏发生了一件令人揪心又庆幸的事情。从事翡翠玉石生意的贾女士,从张家港驾车前往苏州市区途中,不慎将一个装有 3 颗珍贵翡翠的袋子遗落在路边。袋子里有两颗平安扣和一颗龙石种冰绿蛋面,其中仅这颗龙石种冰绿蛋面的价值就超过 200 万元,三颗翡翠总价值近 300 万元。 到达苏州市区后,贾女士才发现这个装有巨额财物的袋子不见了,顿时

  • 男子躲深山7年“手搓”300辆车 平均每周完成一辆新车制造

    2025年5月22日,一位名叫顾玉鹏的博主因其独特的手造车辆作品在短视频平台上引起了广泛关注。顾玉鹏,网名“猪坚强”,今年42岁,自2018年经历多次创业失败后,带着仅有的3万元积蓄进山,开始了他的造车之旅。他厌倦了工业化时代流水线式的生产方式,希望通过自己的双手证明普通人也能创造出独特的物件。 顾玉鹏平均每周完成一辆新车的制造,至今已累计制造了300辆�

今日大家都在搜的词: