首页 > AI头条  > 正文

华为推新技术优化大模型推理:UCM 技术缓解 HBM 依赖

2025-08-12 15:37 · 来源: AIbase基地

8月12日,华为将在 2025金融AI推理应用落地与发展论坛 上发布突破性 AI 推理创新技术 UCM(推理记忆数据管理器)。该技术有望降低中国 AI 推理对 HBM(高带宽内存)的依赖,并显著提升国内大模型推理性能。

UCM 以 KV Cache 为核心,融合多类型缓存加速算法工具,通过分级管理推理过程中产生的记忆数据,扩大上下文窗口,实现高吞吐、低时延的推理体验,并降低每 Token 的推理成本。这一方案可缓解 HBM 资源不足带来的任务卡顿与响应延迟问题。

大模型 元宇宙 (2)

在此次论坛上,华为将与中国银联共同发布 AI 推理最新应用成果。信通院、清华大学、科大讯飞等机构专家也将分享大模型推理加速与体验优化的实践。华为数据存储产品线副总裁樊杰表示,未来 AI 突破将高度依赖高质量行业数据的释放,高性能 AI 存储可将数据加载时间从小时级缩短至分钟级,使算力集群效率从30% 提升至60%。

业内分析认为,UCM 的推出正值 AI 产业从“追求模型能力极限”转向“追求推理体验最优化”的关键节点,推理体验已成为衡量 AI 商业价值的重要标准。长城证券指出,随着大模型能力持续提升与商业场景扩展,算力及产业链公司有望迎来新的发展机遇。


  • 相关推荐
  • 华为发布AI推理技术UCM:降低HBM依赖 计划9月正式开源

    在2025金融AI推理应用落地与发展论坛上,华为重磅发布了其AI推理创新技术UCM(推理记忆数据管理器)。这项技术被业内视为有望重塑国内AI推理格局的关键突破。 UCM技术的核心在于其先进的KV Cache系统,通过融合多种缓存加速算法工具与精细的分级管理策略,高效处理推理过程中产生的大量记忆数据。这带来了多重显著优势:有效扩大上下文窗口,确保推理过程的高吞吐量与

  • 华为即将发布AI推理领域突破性成果:或能降低对HBM内存依赖

    华为将于8月12日在2025金融AI论坛发布AI推理领域突破性技术成果。该技术有望降低中国AI对HBM高带宽内存的依赖,提升大模型推理性能,完善国内AI生态。HBM作为3D堆叠DRAM方案,具有高带宽、低延迟等优势,是高端AI芯片标配,但面临产能紧张和美国出口限制。国内厂商正探索Chiplet封装、低参数优化等替代方案。

  • 北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

    北京大学张牧涵团队在昇腾算力支持下,研发出一套高效大模型训练推理架构,实现百万tokens输入成本低至1元。该成果包含三项关键技术:1)通过分离注意力头中的位置与非位置信息,仅用3%位置信息即可维持模型性能;2)采用联合KV低秩压缩方法,仅保留12.5%的KV Cache;3)基于昇腾硬件并行计算能力,实现Recurrent Decoding技术提升训练数据利用率。该架构显著降低AI大模型应用成本,验证了昇腾算力平台支撑尖端科研的实力。

  • 问界M8累计交付破6万辆 余承东:8月再交2万 纯电首发华为新技术

    问界M8交付量突破6万台,8月将再交付2万台。该车型售价35.98-44.98万元,作为均价40万的豪华SUV表现亮眼。纯电版即将发布,搭载华为电池延寿技术,续航后驱版达705km,四驱版655km。M8 EV版虽起售价37.8万,但72小时内订单超1.5万。新车采用华为800V碳化硅高压七合一电驱,配备宁德时代大电池,悬架系统升级为前双叉臂+后五连杆,标配闭式双腔空悬+EDC可变阻尼减震器。

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • 聚焦大模型训练效率提升 北大依托昇腾突破细粒度混合并行技术

    北京大学崔斌教授团队在鹏城实验室支持下,研发了面向大模型的高效分布式训练框架。该框架通过统一训练接口、细粒度模型切分与并行策略搜索算法,解决了训练任务多样性和负载不均问题,实现训练效率提升15%。同时利用昇腾计算资源管理能力,优化硬件通信效率,通过计算通信重叠技术提升流水线效率。研究成果已在NeurIPS等顶会发表3篇论文,展现了国产算力在分布式计算领域的潜力,为AI产业自主化突破提供支撑。

  • 昆仑万维技术周启幕:SkyReels模型重塑内容创作基建

    2025年8月11日,昆仑万维启动SkyWork+AI技术发布周,将连续五天发布五大领域AI模型:视频生成模型Skyreels、世界模型、生图一体化模型、智能体(Agent)模型和AI音乐创作模型Mureka。首日发布的Skyreels-A3是全球首个支持分钟级长视频生成的模型,通过四大技术创新解决直播电商等场景痛点,可实现180秒连贯视频生成、影视级运镜控制与自然动作交互。该模型采用多模态协同生成范式,突破传统视频生成技术误差累积限制,并通过Step蒸馏技术将推理步数压缩至4步,生成时间缩短至80秒。商业化方面,昆仑万维已形成"研发-产品变现-现金流反哺"闭环,2025年Q1经营性现金流净额增长58.3%,旗下DramaWave、Mureka等产品年化流水分别达1.2亿和1200万美元。此次技术周标志着中国AI企业首次跑通规模化盈利路径。

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • 实战指南:AI大模型使用费用预测怎么做?AIbase大模型费用计算器帮你告别成本“黑箱”

    本文探讨了如何预测AI大模型使用费用,并介绍了AIbase费用计算工具的价值。随着ChatGPT等大模型的普及,企业面临高昂API费用、复杂Token计费模式等问题。文章提出四个关键步骤:1)量化使用规模,包括调用量、Token消耗等;2)深入解读定价模型,注意输入/输出Token价差、上下文窗口等隐藏成本;3)构建预测模型,推荐使用AIbase等专业工具进行多模型成本对比;4)持续监控优化。AI

  • 猿辅导AI大模型:技术深融与场景革新,重构学习体验

    2025年教育科技领域迎来智能化新浪潮。猿辅导集团通过自主研发的"猿力大模型"与开源推理大模型DeepSeek深度融合,构建覆盖"数据-场景-交互"全链路的AI教育生态。其技术方案已获信通院"模型开发5级"认证,成为教育行业首个获此最高评级的大模型。硬件方面推出"小猿学练机"和"小猿AI学习机",实现学习平板与智能基座结合,支持打印、情感交互等功能。校园端覆盖25省市超1000所学校,通过"AI安全驾驶模拟"等项目培养学生计算思维。编程教育领域推出支持代码实时监测的AI-Agent工具。凭借300亿条学情数据和15亿题库构建的高质量素材库,显著降低"幻觉"风险68%。目前旗下出海产品已服务100多个国家,推动中国教育科技走向国际。

今日大家都在搜的词: