11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
2026年1月15日,绿算技术宣布其GP7000全闪存存储平台已通过英伟达适配,成为全球首批、也是唯一支持G3级KV Cache分层存储的国产化方案。该平台采用存算分离架构,结合以太网闪存簇设计,为下一代AI工厂建设提供关键基础设施支撑,能显著提升推理吞吐量并降低延迟,实现成本与效率的最优平衡。
在“雪球嘉年华”上,云天励飞董事长兼CEO陈宁围绕《重新定义AI推理时代的算力》发表主题演讲,系统阐释了大模型应用爆发背景下,“推理规模化”成为产业主线的趋势判断,并披露云天励飞面向推理时代的产品矩阵与下一代云端推理芯片架构规划。
昇思MindSpore开源社区将于2025年12月25日在杭州举办昇思人工智能框架峰会。届时,MindSpore Lite团队将分享基于MindSpore Lite的端侧AI推理优化技术实践,重点介绍CPU混合精度推理方案在鸿蒙翻译模型部署中的应用。该方案通过混合精度子图调度、IO免拷贝等关键技术,将鸿蒙内置翻译模型的推理内存优化至66MB,相比原始100MB以上显著降低,支持模型在鸿蒙6.0上线部署。文章还详细阐述了MindSpore Lite的模型转换流程、推理API及性能验证方法,展示了其在降低内存、提升性能方面的优势,为开源模型的商用部署提供技术保障。
上海交大李健教授团队联合昇腾AI,基于vLLM-Ascend框架研发出超长上下文推理系统。该系统创新采用KV Cache分级缓存机制,通过智能识别关键数据块、冷热数据分层存储策略,结合昇腾CANN架构动态调度能力,成功突破单卡处理超100万字符长文本的显存与性能瓶颈,推理吞吐量提升超39%。相关代码已在Gitee开源,未来将推动大模型在长文本分析、智能办公等场景的深度应用。
今日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。 SpatialBench榜单显示,Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分,领先于Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5等海外顶尖模型。
11月6日,月之暗面发布Kimi-K2-Thinking模型,其落地使大模型推理部署的硬件门槛问题再成焦点。趋境科技与清华大学开源的高性能异质推理框架KTransformers第一时间完成适配,支持单卡环境流畅推理,并与主流框架SGLang深度合作,打破依赖昂贵多卡GPU的固有认知,为大模型落地提供高性价比、易操作的全新路径。该框架已入选SOSP2025顶尖技术成果,技术实力获国际认可,目前已被Qwen、Kimi等头部开源模型推荐为推理引擎,加速大模型产业级落地进程。
10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。
微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术,通过创新队列机制和深度强化学习优化CNN推理过程,结合分布式计算与隐私保护机制,在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点,减少数据传输范围,实现高效推理与隐私安全的平衡,为智能医疗、交通等领域提供可靠解决方案。
在2025年湾区半导体产业生态博览会上,云天励飞以“算力积木”为核心理念,全面展示全栈AI推理产品体系。重点推出自研芯片DeepEdge系列及配套模组与加速卡,覆盖从边缘计算到云端推理的不同层级,构建灵活可扩展的算力体系。通过D2D Chiplet等模块化技术,实现8T至256T算力范围,高效支持7B至130B参数的大模型实时推理。目前公司已适配国产鸿蒙系统及主流大模型,参与国家重大专项工程,为航天探测等提供核心算力支撑。未来将持续深化AI芯片研发,携手生态伙伴推动智能计算的普惠化与无处不在。
云天励飞近日加入OISA生态,携手产业伙伴共建国产AI芯片互联体系,为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系,旨在打造全向、对等、智能的互联新范式,解决智算集群内存互访难题,为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累,将依托“算力积木”架构的模块化优势,在大规模推理集群中实现高效互联,助力突破万级MoE大模型推理瓶颈,推动国产算力生态发展。