首页 > 传媒 > 关键词  > 大模型技术最新资讯  > 正文

超擎数智800G/400G InfiniBand NDR网络产品应用与连接方案

2024-03-08 17:17 · 稿源: 站长之家用户

大模型技术因其良好的通用性与泛化性,显著降低了人工智能应用的门槛,其溢出效应正在加速推进新一轮的科技革命和社会产业的变革。尤其是以ChatGPT为代表的生成式人工智能应用的出现,使大模型的发展成为AI领域最重要的热点趋势,越来越多的科技巨头竞相推出千亿、万亿参数的大模型。而训练超大参数规模的大模型也给智能计算基础设施带来了比较罕见的挑战。大模型的训练过程需要数千张GPU卡协同计算数周或数月,这就要求智能计算网络能够提供更强大的性能和更高的稳定性与可靠性。

超擎数智凭借对高速率网络发展趋势的理解,和丰富的高性能网络项目实施经验,基于NVIDIA Quantum-2InfiniBand平台为客户提供NDR (Next Data Rate)网络产品应用与连接方案。NVIDIA Quantum-2InfiniBand平台以超高的带宽、超低的传输延时以及极简的运维成为了人工智能和超大规模数据中心的优选。与上一代产品相比,Quantum-2实现了两倍的端口速度,三倍的交换机端口密度,五倍的交换机系统容量,以及32倍的交换机AI加速能力。如果采用Dragonfly+拓扑,基于Quantum-2的网络可在3个hop内实现百万余个节点的400Gb/s连接能力。可为AI开发者和科研人员提供超强网络性能,帮助他们应对全球相当挑战的问题。

Quantum-2InfiniBand交换机

超擎数智提供基于NVIDIA Quantum-2的QM9700和QM9790交换机。NVIDIA Quantum-2盒式交换机主要有两个型号:QM9790和QM9700,两者主要区别在于管理方式,QM9700带管理接口,支持外部管理,而QM9790不支持,在端口形态、速率上则没有任何区别。QM9700系列交换机支持64个400G端口、或128个200G端口的灵活搭配,需要注意的是QM9700采用的1U的设计,单面板32*OSFP端口,每个OSFP端口支持2X400G速率,在交换机内部则以IB1/**/1、IB1/**/2的形式展示64个400G端口的信息。

NVIDIA Quantum-2搭载第三代NVIDIA SHARP技术,能够为各种规模的网络数据聚合创造几乎无限的可扩展性,其AI加速能力将达至前一代的32倍。此外,第三代SHARP技术可在不降低性能的情况下,支持多个租户或多个并行应用共享基础设施。MPI_Alltoall加速和MPI标签匹配硬件引擎以及其他功能(如高档拥塞控制、动态路由以及自我修复网络)可为高性能计算(HPC)和AI集群提供至关重要的增强功能,从而使其性能更上一层楼。

ConnectX-7HCA网卡

NVIDIA ConnectX@-7InfiniBand网卡(HCA) ASIC可提供400Gb/s的数据吞吐量,并支持16通道的PCle5.0或PCle4.0主机接口。400Gb/s lnfiniBand采用先进的每通道100Gb/s的SerDes,通过交换机和HCA端口上的OSFP连接器实现物理连接。每个交换机OSFP连接器支持两个400Gb/s InfiniBand端口或200Gb/s InfiniBand端口。网卡HCA的OSFP连接器支持一个400Gb/s InfiniBand端口。400Gb/s线缆产品包括有源及无源铜缆、收发器以及MPO光缆。需要注意的是,虽然网卡与交换机都采用的OSFP封装,但在物理尺寸上有所区别:交换机端的OSFP模块带散热鳍片,而网卡端采用OSFP-RHS结构不带散热片,依靠网卡端口上的散热片辅助模块进行散热。

NDR光连接解决方案

超擎数智提供灵活的NDR光连接解决方案,NDR交换机端口的物理形态是OSFP,每个接口有八个通道,每通道采用100Gb/s的SerDes;所以从连接速率上来看,有800G to800G、800G to2X400G与800G to4X200G三种主流连接方案;同时,每个通道支持从100Gb/s降至50Gb/s,所以它也可以与上一代HDR(HDR采用50Gb/s的SerDes)设备互连,即可以支持400G to2X200G。

NDR系列电缆和收发器提供了丰富的产品选择,用于配置任何网络交换和适配器系统,专注于长达2公里的数据中心长度,用于加速人工智能计算系统。为了比较大限度地减少数据重传,电缆和收发器都具有低延迟、高带宽人工智能和加速计算应用所需的极低误码率 (BER)。

从连接件类型上来看,主要有三种方式:无源铜缆DAC、有源铜缆ACC与光模块+跳线的方案。其中DAC支持1-3米的传输距离(其中直连DAC传输距离为2米),ACC支持3-5米的传输距离,多模光模块最远支持50米传输距离,单模光模块最远支持500米传输距离。

超擎数智NDR交换机到NDR设备连接方案

NDR InfiniBand Quantum-2交换机 —— NDR InfiniBand Quantum-2交换机

1、NDR光模块

多模光模块——MMA4Z00-NS(50m)

单模光模块——MMS4X00-NS(100m)、MS4X00-NM(500m)

① Single2x400Gb/s OSFP - Single2x400Gb/s OSFP:使用OSFP双端口收发器和两根直连MPO-12/APC光纤跳线以800G (2x400G) 速率将两台OSFP端口的 QM9700/QM9790交换机连接在一起,多模最远传输距离可以达到50m,单模传输距离可以达到100m或500m;

② Single2x400Gb/s OSFP - Dual2x400Gb/s OSFP:使用OSFP双端口收发器和两根MPO-12/APC光纤跳线还可以路由到两个不同的交换机,形成两条400Gb/s 链路,然后将额外的OSFP端口路由到更多的交换机。

800G SR8连接示意图

800G DR8100m连接示意图

800G DR8500m连接示意图

2、NDR Copper(DAC / ACC)

NDR Copper Cable的主要用途是将两个双端口、基于 OSFP 的 Quantum-2InfiniBand 或 Spectrum-4以太网交换机相互连接在一起,分为无源铜缆DAC和有源铜缆ACC,其中平顶Flat Top用于 DGX H800,翅片顶部Finned Top连接器用于 InfiniBand 或以太网交换机。

-MCP4Y10:无源铜缆(DAC),长度最长2m。

-MCA4J80:有源铜缆 (ACC),可将长度延长至3、4和5米,同时保持每端1.5瓦的极低延迟和极低功耗。

800G DAC连接示意图

800G ACC连接示意图

NDR InfiniBand Quantum-2交换机 ——2x400G ConnectX-7(OSFP/QSFP112)Adapter/BlueField-3DPU(QSFP112)

1、NDR光模块

交换机侧:800G Twin-port OSFP光模块——MMA4Z00-NS(50m)、MMS4X00-NS(100m)

网卡侧:400G Single port OSFP/QSFP112光模块——MMA4Z00-NS400/ MMA1Z00-NS400(50m)、MMS4X00-NS400(100m)

使用两根光纤跳线的双端口 OSFP 光模块最多可支持两个适配器和/或 DPU 组合。两条4通道光纤跳线中的每一条都可以连接到 OSFP 或 QSFP112封装的400G 光模块,多模最远传输距离可达50米,单模最远传输距离可达100m。

-仅 ConnectX-7/OSFP 支持单端口 OSFP。

-QSFP112封装光模块可用于ConnectX-7/QSFP112和BlueField-3/QSFP112DPU。

-使用 OSFP 或 QSFP112的 ConnectX-7和 BlueField-3的任意组合可同时与双端口 OSFP 光模块连接使用。

800G SR8——2x400G SR4连接示意图

800G DR8——2x400G DR4连接示意图

2、NDR Copper(DAC /ACC)

800Gb/s 双端口 OSFP至2x400Gb/s OSFP/QSFP112分支铜缆适用于400Gb/s NVIDIA 端到端 Infiniband和以太网解决方案。主要用途是将800Gb/s Quantum-2交换机或 Spectrum-4交换机连接到基于 OSFP/QSFP112的400Gb/s ConnectX-7PCIe 网络适配器卡/BlueField-3DPU。

-单端口 OSFP仅适用于 ConnectX-7/OSFP 网络适配器。

-BlueField-3/QSFP112DPU 和 ConnectX-7/QSFP112适配器需要 MCP7Y10和 MCA7J65铜缆上的 QSFP112端。

-有源铜缆 (ACC) MCA7J60、MCA7J65的长度可提供4米和5米。

OSFP -2x400G OSFP DAC/ACC连接示意图

OSFP -2x400G QSFP112DAC连接示意图

NDR InfiniBand Quantum-2交换机 ——4x200G ConnectX-7(OSFP/QSFP112)Adapter/BlueField-3DPU(QSFP112)

1、NDR Twin-port光模块

交换机侧:800G Twin-port OSFP光模块——MMA4Z00-NS(50m)、MMS4X00-NS(100m)

网卡侧:400G Single port OSFP/QSFP112光模块——MMA4Z00-NS400/ MMA1Z00-NS400(50m)、MMS4X00-NS400(100m)

使用两根1:2分支光纤跳线的双端口 OSFP 光模块最多可支持四个适配器和/或 DPU 组合。两根4通道1:2分支光纤跳线中的每根都可以连接到 OSFP 或 QSFP112封装的400G 光模块,最远传输距离可达50米。在400G 光模块中仅激活其中的两个通道,从而实现200G 应用。

-仅 ConnectX-7/OSFP 支持单端口 OSFP。

-QSFP112封装光模块可用于 ConnectX-7/QSFP112和BlueField-3/QSFP112DPU。

-ConnectX-7和 BlueField-3网卡的任意组合可同时与双端口OSFP 光模块连接使用。

-单模直连光纤比较大传输距离为100米,但1:2分支光纤跳线的比较大传输距离为50米。

800G SR8——4x200G SR2连接示意图

800G DR8——4x200G DR2连接示意图

2、NDR Copper(DAC / ACC)

800Gb/s 双端口 OSFP至4x200Gb/s OSFP/QSFP112分支铜缆适用于400Gb/s NVIDIA 端到端 Infiniband和以太网解决方案。主要用途是将800Gb/s Quantum-2交换机或 Spectrum-4交换机连接到基于 OSFP/QSFP112的200Gb/s ConnectX-7PCIe 网络适配器卡/BlueField-3DPU。

-单端口 OSFP仅适用于 ConnectX-7/OSFP 网络适配器。

-BlueField-3/QSFP112DPU 和 ConnectX-7/QSFP112适配器需要 MCP7Y40和 MCA7J75铜缆上的 QSFP112端。

-有源铜缆 (ACC) MCA7J70、MCA7J75的长度可提供4米和5米。

OSFP -4x200G OSFP DAC/ACC连接示意图

OSFP -4x200G QSFP112DAC连接示意图

NDR InfiniBand Quantum-2交换机 —— DGX H800GPU Systems

1、NDR光模块

DGX-H800在顶部机箱部分包含8个“Hopper”H800GPU,在底部服务器部分包含两个 CPU、存储以及 InfiniBand 和/或以太网网络设备。其中包含八个400Gb/s ConnectX-7IC,安装在两个称为“Cedar-7”板卡的夹层板上,用于 GPU 到 GPU InfiniBand 或以太网网络。板卡 I/O 在内部路由至四个800G 双端口 OSFP 机箱,内置散热器安装于前面板上的机箱顶部。这需要在 DGX H800中使用flat-top transceivers、ACC 和 DAC 线缆。由于交换机中的气流入口减少,400G IB/EN 交换机需要使用finned-top2x400G 光模块进行额外冷却。

每个双端口2x400G 光模块提供两条从 DGX 到 Quantum-2或 Spectrum-4交换机的400G ConnectX-7链路。与 DGX A800相比,这减少了 ConnectX-7板卡冗余、复杂性和光模块数量,DGX A800使用8个独立的 HCA 和8个光模块或 AOC 线缆以及两个用于 InfiniBand 或以太网存储的附加 ConnectX-6。

此外,对于存储、集群和管理的传统网络,DGX-H800还支持多达四个 ConnectX-7和/或两个 BlueField-3DPU 在 InfiniBand 和/或以太网中用于存储 I/O,以及支持使用 OSFP 或 QSFP112光模块的400G 或200G 设备进行的额外网络。这些 PCIe 卡槽位于OSFP GPU机箱的两侧,并使用单独的电缆和/或光模块。

800G SR8连接示意图

800G DR8连接示意图

2、NDR Copper(DAC / ACC)

OSFP 平顶端Flat Top线缆可用于液冷交换机和 DGX H800系统,其中,MCP4Y10-N0XX-FLT无源DAC电缆长度为0.5m和1m,MCA4J80有源ACC电缆连接到DGX-H800Cedar 系统可使用的长度为3m。

800G DAC连接示意图

800G ACC连接示意图

超擎数智NDR交换机到HDR设备连接方案

NDR InfiniBand Quantum-2交换机 ——2x HDR InfiniBand Quantum交换机

NDR InfiniBand Quantum-2交换机 ——2x200G QSFP56ConnectX-6Adapter/BlueField-2DPU

MFA7U10-H00X是一款 OSFP 至2x QSFP56、400Gb/s 至2x200Gb/s 有源分光器电缆 (AOC),将来自单个 OSFP 端上的8个 MMF(多模光纤)对中的每对数据信号连接到每个 QSFP56多端口端的四对。MFA7U10-H00X用于将带有 OSFP 端口的 NDR 交换机连接到基于QSFP56端口的2个HDR 交换机或ConnectX-6适配器/BlueField-2DPU 。

400G OSFP -2x200G QSFP56AOC线缆连接示意图

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 简知科技“简智AI大模型”通过国家生成式人工智能服务备案,助力兴趣教育迈向智能化新阶段

    广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案,标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑,该模型围绕用户兴趣成长周期设计,提供个性化学习支持:可为未明确兴趣方向的用户智能推荐内容,为入门用户规划学习路径,为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖,并通过社群互动增强学习动力。公司未来将持续优化模型能力,联合行业伙伴构建完整培养体系,推动兴趣教育向个性化、高质量方向发展。

  • 人工智能落地“最后一公里”,戴尔工作站助力AI应用提速

    AI应用落地面临“最后一公里”部署难题:传统流程繁琐耗时,从模型开发到上线需数周。英特尔携手戴尔与零克云打造“工作站-AI PC-云端”协同生态,通过本地工作站进行小规模测试验证,降低试错成本与数据泄露风险,再通过“一键部署”快速扩展至云端规模化落地。这种“先本地验证、后云端放大”的路径显著提升开发效率,释放团队创造力,让有价值的AI想法快速照进现实。

  • 跨境支付的未来:人工智能、嵌入式金融和即时结算

    本文系统分析了人工智能、嵌入式金融与即时结算三大技术趋势如何重构跨境支付体系。人工智能通过智能填单、动态风控和预测性维护显著提升支付效率与安全性;嵌入式金融将支付功能无缝融入电商平台与供应链,实现“无跳转支付”;即时结算技术将跨境支付时间从数日缩短至秒级,并优化现金流。三大技术深度融合形成协同效应,推动跨境支付向更智能、高效、无缝�

  • 得一微 UFS存力主控荣获年度中国半导体优秀产品,加速手机生成式AI普及

    在2025年第八届中国IC独角兽论坛上,得一微电子UFS3.1存力主控芯片YS8803荣获"2024-2025中国半导体优秀产品"奖。作为中国大陆首款面向公开市场的UFS3.1主控,该芯片支持高达2150MB/s读取和2000MB/s写入速度,专为AI参数模型优化,显著缩短大模型加载时间,推动生成式AI在移动端普及。得一微电子通过存储控制、存算互联等技术创新,持续赋能高端手机市场,助力构建自主国产AI存力生态。

  • 从SEO到GEO的范式革命,《生成式AI时代 品牌战略指南》白皮书正式发布

    11月4日,《生成式AI时代+品牌战略指南》白皮书发布,聚焦企业AI搜索优化需求。白皮书提出GEO全链路解决方案,结合E-E-A-T信任框架和3C指导法则,帮助企业破解AI搜索覆盖率低、合规风险高等痛点,推动从流量竞争转向价值竞争,构建可持续增长生态。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

    科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲,强调高质量数据集是人工智能产业决胜关键。他指出,算力、算法和数据构成AI三大要素,而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施,通过集中管理、分散赋能模式,打通数据采集、治理到AI训练全链路,推动产业智能化升级。该平台已在制造、金融等领域落地,助力企业释放数据要素价值,实现弯道超车。

  • 下一代企业 AI 基础设施要来了?云天励飞与金蝶共建融合新范式

    11月4日,云励飞与金蝶在2025全球创见者大会上签署战略合作协议。双方将以企业数字化软件生态与国产AI算力底座为双引擎,打通“算力-软件-场景”全链路,推动AI推理能力融入企业数字化全流程,打造国内首个算力与软件生态深度融合标杆。未来计划联合推出软硬件一体化方案,共建实验室,聚焦技术攻关与行业创新,优化AI在企业管理中的应用体验,助力政企数字化智能化转型,为国产算力规模部署提供实践路径。

  • 平安云原生AI算力资源调度平台,荣获IDC “AI-就绪数字基础设施领军者优秀奖”

    近日,IDC公布2025年中国未来企业大奖获奖名单,平安科技打造的《云原生AI算力资源调度平台》创新项目荣获“AI就绪数字基础设施领军者优秀奖”。该平台通过统一资源池化管理、动态调度及GPU虚拟化等技术,显著提升资源利用率约30%,降低运营成本,并支持金融级高可用与弹性伸缩,助力企业高效应对AI推理与训练场景需求,体现了平安在AI基础设施构建与产业赋能方面的技术实力与国际认可。

今日大家都在搜的词: