首页 > 传媒 > 关键词  > GTC大会最新资讯  > 正文

华瑞指数云ExponTech联合合作伙伴在硅谷发布新型AI存储方案

2025-04-01 13:36 · 稿源: 站长之家用户

全球AI的优质盛会GTC于 3 月 17 日到 3 月 21 日在美国硅谷盛大举行。在GTC大会期间,华瑞指数云ExponTech CTO曹羽中受邀参加了专注于AI Storage的技术研讨会并发表演讲。在演讲中,曹羽中介绍了ExponTech与合作伙伴ScaleFlux, AIC基于英伟达的BlueField3 DPU以及英伟达比较新发布的Spectrum-X网络打造的新型AI Storage方案,展示了该方案的实际测试数据,并与合作伙伴,AI Storage行业专家以及一些大型客户进行了深入讨论。与会的专家均表示该方案的实测性能数据以及综合优势表现远超预期,具备很高的商业价值,very impressive!

新型AI存储方案采用的软硬件方案:

硬件:

F2026 AI服务器,是一台2U闪存JBOF,配备 2 个或 4 个NVIDIA BlueField- 3 数据处理单元(DPU)和 24 块高性能ScaleFlux CSD5000 NVMe SSD(CSD5000 是ScaleFlux公司比较新推出的一款内置硬件压缩与解压缩能力的高性能NVMe SSD介质);

NVIDIA Spectrum-X网络交换机;

软件:

华瑞指数云ExponTech下一代分布式存储软件平台WADP (WiDE AI Data Platform);

(本方案采用的2U存储节点及ScaleFlux CSD5000 NVMe SSD)

基于此方案的AI训练和推理环境的实测部署架构如下图:

1 台2U AIC JBOF作为存储服务器, 配备 4 块NVIDIA BlueField3 DPU, 提供1600Gbps网络带宽, 24 块ScaleFlux CSD5000 NVMe SSD,ExponTech WADP存储软件的后端运行于BlueField3 DPU内;

1 台标准2U服务器作为计算服务器,配备 4 块NVIDIA BlueField3 DPU,提供800Gbps网络带宽,在DPU内部运行ExponTech WADP存储软件的存储网关和协议;

计算服务器上可以配置GPU,用于训练或推理,存储软件和网络流量运行于DPU内,存储IO不会消耗计算服务器的CPU和内存资源,计算服务器可以拥有更充沛的资源用于计算处理;

测试环境特别选择了 4 台NVIDIA Spectrum-X交换机组成两层网络,主要是为了模拟与验证在大规模组网的情况下,RoCE网络是否依然可以很好的处理拥塞,存储软件可以依然保持稳定的存储性能和低时延;

存储服务器(JBOF)和计算服务器均可以按需独立扩展,按需加入更多的存储服务器(JBOF)或者计算服务器,构成大规模的,存算分离的,按需扩展的AI训练和推理集群。

基础存储性能验证:

基于上一节所述的实测部署环境,进行了存储系统的基础性能验证,其验证方法是从计算节点上运行FIO,测试存储系统的基础性能指标。

单个计算节点可以达到近90GB/s的存储带宽,接近计算节点网卡的物理带宽上限;

单个计算节点可以达到 310 万IOPS,当配置更多的计算节点时,可以同步获得更多的IOPS。考虑到整个存储系统的后端以及协议端都是跑在DPU内,DPU内的CPU处理性能远远不如服务器配置的CPU,单个计算节点+单个存储节点即达到 310 万IOPS已经充分展现了本方案相当惊人的IO处理效率;

存储系统的IOPS与存储节点上部署的数据处理单元(DPU)数量呈线性比例扩展,系统的IOPS随DPU部署数量线性扩展,表明其具备较好的横向扩展能力。本方案采用的存储节点最多可以配置 8 张DPU(当前测试环境配置 4 张),还可以实现IOPS性能翻倍以及网络带宽翻倍;

存储系统在使用小IO size时,并发大压力时延低至266us, 在使用大IO size时,打满计算节点的网络物理带宽,时延还能始终保持在 1 毫秒以下。

MLPerf Storage v1. 0 测试结果:

MLPerf™ 是影响力最广的国际AI性能基准评测,MLPerf™ Storage是针对AI Storage的基准性能测试,可以较为全面的评估测试AI应用程序的存储需求。MLPerf™ Storage基准测试通过运行一个分布式训练测试程序,模拟GPU计算过程,在此过程中真实的执行AI服务器对存储系统的读写访问,以此来测试存储系统能够支撑的比较大GPU数量和带宽表现。

MLPerf Storage v1. 0 于 2024 年 8 月推出,国内外一共有十三家从事高性能存储研发的厂家参与了测试并提交正式测试结果,其中包括DDN(Lustre),华为,WekaIO,Hammerspace等知名的分布式文件系统厂家。

本次我们选择了ResNet50 模型(主要用于图像分类和图像识别场景),在上述 1 存储节点(JBOF)+ 1 计算节点的测试环境上进行了MLPerf Storage v1. 0 基准测试,测试的结果如下:

测试结果表明:

ExponTech的新型AI存储方案具备全球领先的性能,单客户端能够支持的GPU卡的数量超过了所有参与了MLPerf Storage v1. 0 正式测试的厂商,位居全球首先;单客户端能够实现的存储带宽达到近30GB/s, 位居全球第二;本次测试环境只有一个客户端节点(计算节点),CPU和内存配置较低,在运行MLPerf Storage v1. 0 的测试中已经达到了客户端节点的计算能力的瓶颈,但是还远远没有达到存储节点的存储能力的瓶颈。如果换用处理能力更强的计算节点来做测试,可以测试出更高的性能数据,即支持更多的GPU卡,实现更高的存储带宽。

总结

基于本次在真实的环境上的全面测试,总结一下ExponTech与合作伙伴ScaleFlux, AIC基于英伟达的BlueField3 DPU以及英伟达比较新发布的Spectrum-X网络打造的新型AI Storage方案的关键特点和优势:

  1. 世界优质性能,SPC-1 评测超越所有高端全闪存储阵列,打破世界纪录,MLPerf Storage v1. 0 测试数据大幅度超越WekaIO, DDN等知名并行文件系统;

  2. 世界优质容量密度,当前每2U Storage Node可实现超过1.6PB存储裸容量,明年可扩展至每2U超过6.6PB,比较大化数据中心空间的AI数据价值;

  3. 配置的ScaleFlux CSD5000 NVMe SSD具有盘内透明压缩解压缩能力,能够在不消耗额外系统资源,不影响性能的情况下实现存储裸容量的数倍放大,存储容量效率获得惊人的提升;

  4. 同一平台上同时支持高性能分布式块存储和文件存储等多种协议,除了支持AI的训练和推理场景,还可以覆盖数据汇集,数据准备,RAG等AI Pipeline全场景,无须为AI Pipeline配置不同的存储方案以及反复进行数据拷贝移动,可以实现AI算力和存力的完全存算分离和独立扩展,具备更好的可管理性和效率;

  5. 强大的并行扩展性,存储节点及计算节点均可以独立的水平扩展,同时实现存储性能和容量的等比例扩展;

  6. 可靠性高,可维护性高,存储节点采用相比标准服务器更为精简的JBOF,硬件故障率更低,同时JBOF内部采用冗余的硬件设计来保障可靠性,提升可维护性;

  7. 支持基于RoCE的超大规模组网,采用RoCE动态路由和细粒度的负载均衡实现更好的拥塞控制,基于标准以太网在大规模RDMA组网中实现有效带宽, 低抖动和超低时延;

  8. 优化的总体拥有成本(TCO),高密度的存储节点+透明盘内压缩+新型软件定义存储软件的组合简化了硬件成本,大幅度提升了存储空间利用效率和读写性能,简化了管理,AI客户将因此大幅度优化其AI Storage的总体拥有成本(TCO);

  9. 基于此方案的KV Cache大规模持久化方案也即将推出,实现AI推理集群内的K,V向量的全局共享,能够以低成本高性能的大规模存储能力替代AI推理过程中K,V向量的大量重复运算,实现AI推理算力成本的大幅降低。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 寒武纪:携手合作伙伴 共同繁荣合作生态

    东方证券研报显示,寒武纪2024年业绩表现亮眼:全年营收11.74亿元,同比增长65.56%,其中云端产品线收入占比高达99.30%,同比暴增1187.78%。公司实现连续两个季度盈利,2025年一季度营收同比激增4230.22%至11.11亿元。作为专注AI芯片研发的企业,寒武纪通过产业生态建设和技术开源,持续推动半导体领域创新,产品覆盖物联网、金融、医疗等多个场景。2024年公司深化合作伙伴生态共建,完成多项产品兼容适配认证,并通过开发者社区运营和技术开源支持AI生态发展。

  • 突破数据库备份恢复瓶颈:华瑞指数云“无损快照”技术赋能企业数据库实现秒级数据保护

    文章探讨了数字化时代下数据库备份与恢复技术的重要性,重点分析了传统备份方式的痛点(耗时、占用资源、性能影响)和快照技术的优势(秒级创建、空间节省、低I/O影响)。详细对比了COW(写时复制)和ROW(写时重定向)两种快照技术原理及优劣,指出ROW在写入性能上的优势。同时介绍了华瑞指数云WDS基于"无损ROW快照克隆"的创新方案,通过优化读写流程实现秒级备份恢复且性能零损耗。文章还对比了AWS RDS/Aurora和阿里云RDS/PolarDB等主流云数据库的备份实现方式,并通过PostgreSQL实践案例展示了WDS方案的高效性。最后强调分布式存储架构为数据库带来的性能突破和扩展能力,重新定义了企业级数据保护的标准。

  • 卓世科技与浙江移动达成创新业务战略合作伙伴关系​

    卓世科技与浙江移动达成战略合作,双方将围绕数字化技术展开深度协同。作为数字化领域创新先锋,卓世科技将发挥在大模型、智能算法等领域的技术优势,结合浙江移动的通信资源与市场布局,共同探索智慧政务、企业服务等场景的创新应用。此次合作将推动"AI普惠"理念在浙江落地,加速区域数字化转型进程,为构建开放共享的数字经济新生态注入动能。

  • 雷军祝贺高通成立四十周年 称高通始终是坚定的合作伙伴

    5月21日,美国高通公司与小米公司庆祝合作15周年,并签署了多年期合作协议。雷军通过视频祝贺高通成立40周年,盛赞高通在移动技术创新领域的领导地位。双方合作从小米首款手机延伸至智能汽车、穿戴设备等领域,高通技术为小米产品提供了强大支持。根据协议,小米旗舰手机将继续搭载骁龙8系移动平台,覆盖多代产品并全球销售,预计出货量逐年增长。小米还将成为首批采用下一代骁龙8系旗舰平台的厂商之一。双方表示将在智能手机、汽车、可穿戴设备等多个领域深化合作,共同推动行业发展。

  • 汽车存储新选择,江波龙自研芯片与车规级存储方案深度融

    中国半导体企业江波龙在智能汽车存储领域取得显著进展。自2019年布局汽车存储市场以来,已构建覆盖UFS、eMMC、LPDDR4x等车规级存储产品矩阵。其创新产品包括突破eMMC 5.1标准的全芯片定制版,带宽提升50%;以及车规级LPDDR4x,能在极端温度下保持稳定性能。目前公司已与20余家主机厂和50多家Tier1客户建立合作,产品应用于智能座舱、行车记录仪等车载设备。江波龙将持续加大研发投入,推动高性能汽车存储解决方案发展,助力智能汽车产业繁荣。

  • 强强联合!赛狐ERP与白鹿会达成战略合作

    5月13日,跨境电商SaaS服务商赛狐ERP与跨境亿级卖家社群白鹿会达成战略合作。双方将聚焦资源整合、技术创新、生态共建等维度展开深度协作,助力卖家实现从经验驱动到数据驱动的转型升级。当前跨境电商行业面临运营成本攀升、数据决策能力不足等发展瓶颈,此次合作将赛狐ERP的数字化管理能力与白鹿会的实战经验、优质资源相结合,打造贯穿卖家全生命周期的成长方案。白鹿会作为行业头部社群,汇聚近千位亿级跨境卖家。此次"技术+资源"的双向赋能模式,将推动行业从单一竞争走向协同发展,为跨境电商数字化升级注入新动能。

  • 电竞世界杯基金会宣布 OBSBOT 寻影成为2025电竞世界杯官方相机和摄像头合作伙伴

    随着电竞直播热度的持续攀升,行业对更智能、更快捷、更无缝衔接的影像技术需求达到前所未有的高度。高清画质仅是基础,内容创作者更期待的是专业级连接与自动化功能,让他们专注于游戏表现而非录制过程。OBSBOT 寻影的 AI 直播相机与直播摄像头搭载先进的 AI 智能跟踪技术,可确保画面始终跟上主播的动作,轻松且智能地捕捉每一个精彩瞬间。

  • 京东联合BOE、OPPO等公益伙伴 向理塘县村戈乡小学捐赠AI教学设备

    2025年6月9日,京东联合BOE、OPPO等合作伙伴在四川理塘县村戈乡小学启动"照亮成长路"公益项目。作为核心支持方,京东捐赠了搭载BOE高端显示技术的AOC显示器和AI教学套装,助力乡村教育数字化发展。该项目计划今年在四川理塘、陕西富平、青海杂多等地捐建30间智慧教室,预计总量将突破156间,覆盖全国10个省市。活动还开展了传统文化、应急救护等特色课程。中国乡村发展基金会表示将持续推动教育公平,京东则承诺将继续通过科技赋能,将优质教育资源精准输送到偏远地区。

  • 合合信息发布票据自动化产品TextIn DocFlow,AI赋能财务工作文档处理全流程

    上海举办"2025企业AI+数智运营创新大会",聚焦AI在企业办公流程中的深度应用。合合信息发布票据自动化产品TextIn+DocFlow,通过智能文档处理技术提升报销、审核等场景效率。该产品支持多类型文档处理,实现数据自动采集、分类和验证,并能与ERP等系统对接。目前已在财务共享、进出口物流等领域应用,帮助企业提升协同办公效率。专家指出,AI应用需专注细分场景需求,文档处理是企业高频垂直场景。随着AI技术发展,正从单点提效向全流程赋能演进。