11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
2026年3月,谷歌研究院发布TurboQuant压缩算法,旨在解决大模型推理中KV Cache内存占用过高的问题。该技术可压缩KV缓存,实现内存占用降低6倍、推理速度提升8倍的潜力。面对KV Cache随上下文窗口扩大而指数级膨胀的挑战,产业界正从算法压缩与硬件优化两方面寻求突破。作为国内企业级存储方案提供商,忆联创新性地将高效压缩技术融入AI推理场景,打造兼具高性能与成本优势的硬件级KV Cache存储优化方案,为行业破解“内存墙”困局提供新路径。
2025年中国AI算力产业进入效率驱动新阶段,大模型竞争从参数比拼转向集群稳定性、推理成本与全场景渗透的综合较量。国内通用GPU龙头天数智芯披露年度数据,全年营收103.4亿元,同比增长91.6%,毛利率与营收双提升。其通用GPU产品收入92.3亿元,同比增长149.6%,成为业绩支柱。公司依托全栈自研软件栈,实现新模型、新算子的“Day0”原生支持,并推出面向云边端全面布局的端侧算力产品。天数智芯坚持“量产一代、设计一代、预研一代”的三位一体研发战略,下一代产品正针对大规模训练、新兴大模型推理持续优化,保持技术前瞻性。此次财报亮点不仅标志着企业自身商业里程碑,更向行业传递明确信号:国内通用GPU的竞争已从“有没有”转向“优不优”的能效与生态较量,成为中国AI算力产业自主创新的核心支撑力量。
3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设,金额4.2亿元。项目将基于其自研国产AI推理加速卡,打造中国首个全栈国产AI推理千卡集群,搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供便捷、低成本的AI能力。此举标志着湛江人工智能产业发展迈出实质性步伐,“AI渗透之城”建设进入全面提速新阶段。
2026年1月15日,绿算技术宣布其GP7000全闪存存储平台已通过英伟达适配,成为全球首批、也是唯一支持G3级KV Cache分层存储的国产化方案。该平台采用存算分离架构,结合以太网闪存簇设计,为下一代AI工厂建设提供关键基础设施支撑,能显著提升推理吞吐量并降低延迟,实现成本与效率的最优平衡。
在2025年湾区半导体产业生态博览会上,云天励飞以“算力积木”为核心理念,全面展示全栈AI推理产品体系。重点推出自研芯片DeepEdge系列及配套模组与加速卡,覆盖从边缘计算到云端推理的不同层级,构建灵活可扩展的算力体系。通过D2D Chiplet等模块化技术,实现8T至256T算力范围,高效支持7B至130B参数的大模型实时推理。目前公司已适配国产鸿蒙系统及主流大模型,参与国家重大专项工程,为航天探测等提供核心算力支撑。未来将持续深化AI芯片研发,携手生态伙伴推动智能计算的普惠化与无处不在。
在2025金融AI推理应用落地与发展论坛上,华为重磅发布了其AI推理创新技术UCM(推理记忆数据管理器)。这项技术被业内视为有望重塑国内AI推理格局的关键突破。 UCM技术的核心在于其先进的KV Cache系统,通过融合多种缓存加速算法工具与精细的分级管理策略,高效处理推理过程中产生的大量记忆数据。这带来了多重显著优势:有效扩大上下文窗口,确保推理过程的高吞吐量与
华为将于8月12日在2025金融AI论坛发布AI推理领域突破性技术成果。该技术有望降低中国AI对HBM高带宽内存的依赖,提升大模型推理性能,完善国内AI生态。HBM作为3D堆叠DRAM方案,具有高带宽、低延迟等优势,是高端AI芯片标配,但面临产能紧张和美国出口限制。国内厂商正探索Chiplet封装、低参数优化等替代方案。
7月10日,云天励飞董事长陈宁博士在联合国"AI for Good"峰会上发表演讲,分享AI推理芯片推动AI普惠的探索成果。他介绍了中国无人机外卖、自动驾驶等AI应用案例,同时指出全球仍面临数字鸿沟问题。陈宁提出AI推理芯片是关键,将其比作"用电"环节,能实现AI能力的大规模落地应用。云天励飞通过创新技术已推出五代NPU产品,并提出"算力积木"架构提升性能。最后,他倡议打造高效AI推理平台、制定统一标准、拓展应用边界,以缩小数字鸿沟,让AI技术惠及全球。
有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�
DeepSeek作为2025年开年最受关注的AI大模型,因其出色的性能、低廉的开发成本和开源生态三大核心优势,火爆出圈,迅速引爆全球AI热潮,当前已广泛应用于端侧、教育、金融、办公、传媒、医疗、智能汽车、企业服务等多个应用场景。DeepSeek低成本的解决方案,大幅降低了AI在各行各业应用的技术和成本门槛,为AI的产业化落地提供了更快的路径,因此催生出了很多本地私有化部署的需求,打造企业和私人专属AI助手。使用TensorRT框架以及Triton推理服务为用户提供高吞吐、低延迟的模型体验,在此基础上,通过技术支持,协助用户深度挖掘数据价值,从实现更高精度、更广覆盖的AI应用场景。