首页 > 传媒 > 关键词  > 正文

IBM AI存储:算力稀缺时代的“破局者”

2023-11-22 09:56 · 稿源: 站长之家用户

算力稀缺时代,存力大有可为

2023 年 11 月,业界“又双叒叕“发布了数款重磅 AI 基础架构产品。算力方面,英伟达(NVIDIA)发布了新一代AI芯片H200,和上一代产品相比,显存容量几乎翻了一番,性能提升了60% 到90%。存力方面,IBM同样发布了新一代 Storage Scale System 6000(SSS 6000),这是一个旨在满足数据密集型和 AI 工作负载需求的云规模全球数据平台,单个模块可提供超过 256GB/s 的吞吐量和 5M IOPS 的文件访问性能,分别超过市场领先竞争对手 2.5 倍和 2 倍,能够满足多个并行的 AI 工作负载和数据密集型工作负载对极 高的数据访问速度要求。

( IBM Storage Scale System 6000 )

IBM 在 2022 年发布的Storage Scale System 3500(SSS 3500)数据存储,单个模块 24 块NVMe SSD可以提供超过125GB/s 的数据访问性能,已经大幅领先于大部分 AI 存储产品,IBM为何要推出更高性能的 SSS6000 呢?

算力和算法的发展,需要更快速的数据访问

人工智能是算法、数据、算力的有效结合,近年来大模型训练和推理、多模态 AI等领域的突破更是得益于高质量数据的发展。随着数据集规模不断增加,应用程序载入数据花费的时间越来越长,进而影响了应用程序的性能,因为存力不足导致的低效I/O使得运算速度日益提升的GPU无用武之地。为了满足不断提高的算力和各种基础模型对更大参数规模的需要,也需要提供更高速的数据访问能力。

举例来说,在目前主流的NVIDIA H100/H800 平台上,运行一个大小为30TB的图像数据集用于AI训练,每颗GPU所需的数据存储访问性能就超过了4GBps,运行更大规模的数据集的应用或支持多种负载的智算平台可能需要数百GBps到数TBps的高速数据存储才能满足其对存力的需求。经过充分优化的 IBM Storage Scale System 可以充分发挥并行架构和高速网络的优势,加速各种 AI 工作负载应用。

此外,不仅仅是训练环节,对于AI应用来说,从数据摄入到生产推理,每个环节都需要利用不同工具实现海量数据处理,并且这是一个不断重复的流程。用户需要构建的端到端的高速数据管道,简化流程并实现数据安全、有效的流动。基于IBM Storage Scale软件多协议互通的全局数据平台能力,用户可以在不同地点通过不同接口访问同样的数据,减少创建不必要的数据副本并通过智能的缓存技术减少数据传递的网络开销,整合来自核心、边缘和云端的宝贵数据资源。

( AI应用全流程 )

算力短缺时代,需要提高GPU资源的利用率

随着通用型人工智能和大模型的发展,目前包括中国公司在内的全球AI公司都存在算力短缺的情况,英伟达等主要供应商的中高性能 GPU更是“比较稀有”。对于拥有一定数量GPU的用户来说,如果能够将GPU的利用率提高一倍,就相当于增加了一倍的额外算力,在更短的时间内完成更多的应用。

由于显存容量受限,多机多卡的GPU集群需要共享的外部存储来为所有节点提供高速的应用数据访问。将数据从存储载入到GPU,过去都是由CPU负责,而这将会成为硬件性能的瓶颈。即使实现了服务器节点到存储的高速访问,数据到GPU的这“最后一公里”往往会造成GPU等待数据的情况,导致GPU利用率低下。

为此,英伟达开发了GPUDirect存储技术,可以通过RDMA高速网络直接将数据从外部存储传输至 GPU 显存上,能有效减轻CPU I/O的瓶颈,提升GPU 访问数据的带宽并大幅缩短时间延迟。IBM Storage Scale软件是首批支持该技术的认证存储产品,经测试,采用GDS 技术的IBM Storage Scale System 可以将GPU 访问数据的带宽提高一倍,时间延迟缩短一半。

在实际应用中,通过采用GDUDirect 存储(GDS)技术可以将GPU的利用率提高90%。例如,德国大陆汽车(Continental Automotive AG)采用 IBM Storage Scale System 作为 NVIDIA DGX 系统的共享数据存储后,AI 训练时间缩短了 70%,每个月完成的试验数量增长了 14 倍,宝贵GPU资源的利用率得到了极大的提升。

( GPUDirect 存储技术带来时间延迟和CPU利用率的显著改善 )

IBM 存储与英伟达有着多年的合作历史,早在 2018 年和 2019 年就推出了DGX-1 POD和DGX-2 POD 的参考架构,并帮助英伟达利用IBM Storage Scale System构建了 2018 年全球超 级计算机排名第 61 位的Circe和 2019 年全球排名第 22 位的DGX-2H SuperPOD;此后更是成为其 GPU Direct to Storage (GDS) 公开测试版本的合作伙伴,针对NVIDIA DGX A100 和 H100 的BasePOD 和 SuperPOD 都提供了NVIDIA认证的参考存储架构。

IBM Storage Scale软件也是首批官方认证支持GDS的产品。今年 11 月发布的最 新Top500 超 级计算机榜单中,位于西班牙巴塞罗那超 级计算中心的MareNostrum 5 ACC(GPU集群分区) 排名第八,该系统采用了 4500 块NVIDIA H100 GPU,其存储部分采用了容量为248PB的IBM Storage Scale System和400PB的磁带系统。

IBM AI存储的降本增效“黑科技”

除了 IBM Storage Scale 软件的高性能数据访问能力,以及跨系统、跨地域的全局数据访问和调度能力,IBM AI存储还有不少“黑科技”可以更好地帮助 AI 用户降本增效:

· 绿色节能: IBM 享有专利的计算存储驱动器FlashCore Module (FCM) 在存储驱动器内部集成了智能的FPGA芯片,通过硬件加速可实现强大的在线数据压缩和加密功能。基于该技术 Storage Scale System6000 可以在4U空间内 提供高达 3.6PB 全闪存有效容量,将每 TB 的存储成本降低 70%,将每TB的能耗降低 53%。

· 安全弹性: IBM Storage Scale 软件的纠删码功能确保了数据可靠性,与传统 RAID 相比,可以在数分钟(而非数小时或数天) 内重建磁盘,最 大程度地减少故障对数据访问性能的影响;IBM Storage Scale 软件提供 Safeguarded Copy(不可篡改的数据快照)和日志审计、加密功能,可以有效应对如网络攻击和勒索病毒等的安全威胁,提供高达 6 个 9 的可用性。

· 支持混搭: IBM Storage Scale 提供多种部署和配置选项,可将不同存储设备、基于 NFS 的其它文件存储和基于S3 的其它对象存储、甚至是磁带存储统一纳入到全局命名空间中,消除数据孤岛,简化海量数据的访问和管理。

得益于这些领先优势,在 2023 年发布的Gartner 分布式存储魔力象限报告中,IBM连续第八年被评为领导 者,并在报告中被认为是用于高性能文件、AI 和分析型工作负载的最 佳解决方案。

无论是应对当前算力稀缺的挑战,还是发展以数据为中心的新一代AI应用,提升存力、优化数据存储已经成为必选项。我们期待继续携手中国客户和合作伙伴突破算力瓶颈、避开成本陷阱,更加有效地将AI转化为生产力!

( 作者:周立旸,IBM 大中华区科技事业部存储软件产品总监 )

关于IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、有效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 球迷体验再升级!IBM为温网推出AI驱动的实时互动及结果预测

    2025年温网将引入AI助手"Match Chat"和增强版"Likelih ood to Win"预测工具。球迷可通过温网App实时提问获取比赛分析,AI系统基于IBM watsonx平台构建,整合赛事数据和语言模型技术。预测工具将根据球员表现动态更新胜率分析。全英草地网球俱乐部表示,这些创新旨在为全球球迷提供更沉浸式的观赛体验。IBM强调这是双方35年合作的最新成果,通过AI技术拉近球迷与赛事�

  • 以AI破局换季难题,三星AI神 黑钻热泵洗烘旗舰让衣物洁净随“季”而变

    三星AI神黑钻热泵洗烘旗舰通过18公斤洗涤+15公斤烘干超大容量设计,搭载AI洗涤技术智能识别衣物材质与污渍程度,自动匹配最佳洗涤方案。其热泵烘干技术采用抽湿再热循环系统,高效节能;蒸汽除菌程序可深层祛除细菌螨虫;滚筒自清洁功能防止二次污染。配备7英寸AI智控大屏和SmartThings APP互联,支持远程操控和定制护理周期。产品以AI科技赋能衣物从洁净到烘干全流程,为换季洗涤提供高效健康解决方案,重塑智慧生活仪式感。

  • 成都汇阳投资关于原厂推动减产+AI 需求刺激,存储价格有望上涨

    全球五大NAND闪存厂商(三星、SK海力士、美光、铠侠与西部数据)计划在2025年上半年同步减产10%-15%,以应对供过于求的市场局面。预计第二季度存储芯片价格将出现超预期反弹。同时,北美云服务商持续加大AI投资,将带动企业级SSD需求在2025年第三季显著增长,预计价格季增幅可达10%。国内存储厂商正通过差异化策略在利基市场实现突破,预计随着海外厂商减产,国内厂商市场份额有望提升。AI需求持续增长,预计2025年HBM出货量同比增70%,并带动DDR5等产品增长。国内互联网大厂纷纷加码AI投资,将进一步推动存储市场需求。

  • AI时代,苹果不想让硬件被管道化

    这是《窄播Weekly》的第57期,本周我们关注的商业动态是:苹果在全球开发者大会WWDC2025上展示了一个围绕硬件搭建的AI生态的雏形。 与WWDC2024相比,苹果在WWDC2025上对AI进展的介绍显得太过琐碎、平淡和抽象。造成这种反差的一个直接原因,是Siri缺席WWDC2025导致的核心记忆点的缺失。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • AI竞争关键在于“数据竞赛”, 星环科技AI-Ready Data Platform成破局密钥

    文章探讨了大模型技术红利窗口正在收窄的行业现状。随着Transformer架构主导的算法同质化,模型性能差异从技术代差演变为工程优化。同时指出企业80%非结构化数据仍处于沉睡状态,包括设备日志、工艺文档等数据金矿未被有效开采。在此背景下,企业AI能力建设重心正从"模型军备竞赛"转向"数据基建深耕"。 星环科技发布的AI-Ready Data Platform通过架构革命、治理跃迁与工具链进化三个维度的创新,构建从数据沉淀到AI落地的全栈数据能力。该平台实现了11种模型数据的统一存储管理,并凭借实时湖仓集技术构建端到端秒级分析体系。在金融和制造业的实践中,该平台显著提升了数据处理效率和决策响应速度,验证了数据基础设施重构的商业价值。

  • 芯片界“变形金刚”:清微智能超2000万颗出货,重构AI算力新范式

    第七届北京智源大会成功举办,清微智能作为国产可重构芯片架构领导者受邀出席,展示前沿国产算力技术成果。公司首次官宣可重构芯片累计出货量突破2000万颗,成为全球销量领先的可重构芯片厂商。清微依托清华20年技术积淀,坚持高阶国产替代路径,已量产TX8与TX5两大系列十余款芯片,为AI智算中心、大模型等场景提供算力支持。公司还与智源研究院深化合作共建FlagOS生态,并与华为同期加入FlagTree,共同打造统一自主的国产AI芯片软件生态。清微通过"芯片+模型"软硬协同模式重构国内AI生态,成为高阶国产替代赛道的长期主义样本。

  • 小鹏G7官宣6月11日发布 号称首款具有L3级算力的AI汽车

    小鹏汽车董事长何小鹏透露,全新小鹏G7将于本周三晚正式亮相。该车型定位为市场首款具备L3级算力的AI汽车,融合极致硬核科技与空间舒适性,是一款面向未来的智能SUV。G7延续家族式设计风格,采用流线型外观和贯穿式尾灯,车身尺寸4892×1925×1655mm,轴距2890mm。内饰延续极简风格,取消传统仪表盘,将首发搭载与华为合作的AR-HUD系统。动力方面搭载218千瓦电机,配备磷酸铁锂电池组。新车已完成申报工作,超低能耗预计将成为其重要卖点。

  • 忆联 Docker+MySQL 流控方案:打造安全高效存储底座,释放 AI 极致性能

    文章探讨了在AI时代背景下,基于Docker部署MySQL数据库的高效解决方案。通过Docker容器化技术,MySQL实现了灵活部署、资源高效利用和稳定隔离性,成为AI应用的首选数据库方案。测试结果显示,采用PCIe5.0企业级SSD配合Namespace技术和QoS优化策略,能精准控制性能偏差在2%以内,在混合读写场景下更可控制在1%以内。该方案显著提升了存储资源管理效率,为AI应用提供稳定可靠的数据存储支持,同时降低企业TCO成本,推动数据价值释放。

  • 音综神仙打架,新节目“亚洲新声”如何破局?

    #内娱史上最难音综出现了。谁能想到一档音综里,歌手们既要在邮轮上又晕又晃,还得上甲板又唱又跳。为了给观众吃这一口细糠,也是把音乐“航海”俩字狠狠具像化了。 看完昨晚上线(5月23日)的《亚洲新声》首期节目,只想感慨2025年的音综太有活了,就让这场头部对打来得更猛烈吧,毕竟实打实被爽到的是观众。如果说《歌手2025》与《天赐的声音》率先打响了关于技