AI训练过程中频繁中断是行业共性难题。据统计,AI训练中心连续训练时间平均仅2. 6 天,导致需反复保存检查点(CheckPoint)数据,极大影响算力效率。
Huawei OceanStor A系列存储,通过提供TB级集群带宽和高速数据读写能力,显著优化断点续训性能。
AI大模型集群部署该方案后,恢复时间从 15 分钟缩短至 1 分钟,保障GPU/NPU算力资源得以充分利用。
在华为全联接大会 2025 期间的数据存储峰会上,华为公司副总裁、数据存储产品线总裁周跃峰博士再次强调,超高性能存储正在成为以“存”强“算”的关键基础架构。
#华为全联接大会 #华为AI #华为重磅发布 #华为HC2025
(推广)
