快科技8月13日讯,据媒体报道,在2025金融AI推理应用落地与发展论坛上,华为推出了AI推理创新技术UCM(推理记忆数据管理器)。此技术被业内看作是可能重塑国内AI推理格局的关键进展。
UCM技术的关键在于其先进的KV Cache系统,借助融合多种缓存加速算法工具以及精细的分级管理策略,高效应对推理过程中生成的大量记忆数据。这产生了诸多明显优势:有效拓宽上下文窗口,保证推理过程具备高吞吐量与低延迟,并显著降低每个Token的推理成本。
特别关键的是,UCM技术有希望缓解当前因HBM(高带宽内存)资源不足致使的任务停滞与响应延迟问题,为AI应用提供更顺畅的体验,进而减少行业对HBM的过度依赖。
此次论坛不仅是UCM技术的首次露面,华为还宣布会与中国银联携手,共同发布双方在AI推理领域的最新应用成果。论坛还邀请了信通院、清华大学、科大讯飞等机构的专家,分享他们在优化大模型推理速度以及提升用户体验方面的前沿经验。
华为数据存储产品线副总裁樊杰在演讲中着重强调了高质量行业数据与高性能存储对AI发展的重要性。他表示,未来的AI突破将极大依赖于此,高性能AI存储系统能把数据加载时间从数小时缩短至几分钟,同时让算力集群的效率实现翻倍。
华为打算在2025年9月正式开源UCM技术,首发平台是魔擎社区。后续,华为会逐步把该技术贡献给业界主流的推理引擎社区,并向所有采用“共享一切”(Share Everything) 架构的存储厂商及生态伙伴开放共享。
(举报)
