首页 > 传媒 > 关键词  > 雪球嘉年华最新资讯  > 正文

推理时代加速到来:云天励飞用GPNPU重构云端大模型算力

2025-12-22 12:56 · 稿源: 站长之家用户

在“雪球嘉年华”舞台上,云天励飞董事长兼CEO陈宁围绕《重新定义AI推理时代的算力》发表主题演讲,系统阐释了大模型应用爆发背景下,“推理规模化”成为产业主线的趋势判断,并披露云天励飞面向推理时代的产品矩阵与下一代云端推理芯片架构规划。

推理拐点:token消耗攀升,算力逻辑重写

陈宁在演讲中指出,行业正在经历底层逻辑切换:随着大模型应用从“试用”走向“高频使用、规模化部署”,推理需求呈数量级增长,进而推动算力结构从过去以GPU为核心的“训推一体”,逐步走向“训练与推理分离”的两条赛道并行发展。

在他给出的案例中,海外大模型产品的日均token量在用户规模、使用时长与频率提升下出现百倍级增长;国内以豆包为代表的应用,日均token量在一年半内显著攀升,并仍保持快速增长态势。当token成为衡量推理规模化的“产能指标”,推理算力将从“配角”转为支撑AI应用大爆发的“基础设施”。

基于这一判断,云天励飞将推理芯片定位为“面向规模化落地的产业化引擎”:目标不只是追求峰值性能,而是围绕客户最关心的总体拥有成本(TCO),提升token生产效率、降低单位token的CapEx与OpEx,帮助客户把推理能力真正做成可持续运营的“算力工厂”。

产品全景:DeepEdge、DeepVerse、DeepXbot三线并进

围绕“推理规模化”需求,云天励飞持续专注AI推理芯片,并以三大系列覆盖边缘、云端与具身智能等关键方向——DeepEdge、DeepVerse、DeepXbot。

DeepEdge面向边缘推理部署,强调在多业务、多模型场景下的算力效率与性价比,满足更广泛的边缘侧推理需求;DeepVerse面向云服务与运营商等“大规模推理”客户形态,围绕推理集群形态(加速卡、服务器、超节点)构建云端推理能力栈;DeepXbot面向具身智能与VLA等新型模型需求,规划覆盖更宽算力段的国产工艺推理芯片供给。

通过三条产品线的协同,云天励飞希望把推理能力从“单点芯片性能”升级为“面向不同应用形态的可交付方案”,从而更贴近推理时代的真实需求:规模化、可迁移、可运营。

架构上云:下一代GPNPU面向云端推理

面向更具挑战的云端推理场景,陈宁披露云天励飞正在推进下一代芯片架构——GPNPU,并计划在后续产品中落地,用于支撑面向云端的大算力推理。

在演讲阐释中,GPNPU的思路是将三类能力进行融合优化:一是结合GPGPU的顶层调度与生态兼容思路,降低软件迁移门槛;二是结合团队在指令集与硬件/算法亲和性上的沉淀,强化矩阵计算等推理关键路径优化;三是融合国产工艺条件下的存储与封装演进方向,缓解推理时代日益突出的内存与带宽瓶颈,在成本与能效上形成更优解。

陈宁强调,推理时代的关键不在于单一指标拉满,而在于针对不同推理负载实现更合理的“算力—带宽—存储容量”参数配比,并在功耗、部署与运营环节持续降低成本,从而系统性提升单位token的综合效率。

核心底座:做好推理芯片的三大硬实力

面向“为什么能做成”的问题,陈宁在演讲中给出云天励飞的三项核心基础能力总结。

第一,场景理解与需求牵引。云天励飞强调不仅做架构对标,更从消费、企业与行业等多类场景中提炼推理范式变化,反向指导指令集与软件栈设计,以更贴近客户TCO目标与部署约束。

第二,指令集与NPU架构长期沉淀。公司已商用多代神经网络处理器架构,并参与推动国内NPU相关标准体系建设;在此基础上推进GPNPU等新架构,以适配边缘、具身与云端推理对灵活性与效率的更高要求。

第三,国产工艺与供应链体系能力。公司较早拥抱国产工艺路径,并围绕Chiplet、封装与存储等关键方向延伸能力,形成与推理时代“成本/能效/供给确定性”相匹配的产业化基础。

从“训练竞赛”到“推理规模化”,产业正在进入以token为核心计量单位的全新阶段。云天励飞将继续专注AI推理芯片赛道,依托DeepEdge、DeepVerse、DeepXbot三大产品线布局,推动下一代GPNPU架构面向云端推理落地,以更优的TCO与更高的token生产效率,服务AI应用的大规模普及与产业化进程。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 云天励飞公布大算力芯片战略:目标把百万 Tokens 推理成本降低 100 倍以上

    云天励飞于2月3日举办“大算力芯片战略前瞻会”,首次公布未来三年大算力+AI推理芯片战略布局。公司提出“训练追赶、推理超车”战略方向,并发布基于“PD分离”思路的芯片路线图,目标将百万Tokens推理成本降低100倍以上,推动AI从技术尝鲜走向普惠生产力。未来三年,云天励飞规划三代芯片产品,聚焦云推理场景,通过P芯片(Prefill)和D芯片(Decode)组合满足大模型集群化部署需求,并依托GPNPU架构提升兼容性、能效与带宽,加速大模型规模化落地。

  • 阿里云AI火花大会:AI加速从单点创新迈向规模化落地

    1月15日,阿里云AI创新应用火花大会在上海成功举办。大会汇聚超千家企业代表,共同见证AI应用从“使用”到“用好”、大模型从“单点创新”走向“规模化落地”的关键拐点。当前AI发展已进入“质变加速期”,竞争焦点转向高效推理、多模态融合与智能体(Agent)的广泛应用。大会系统解读千问大模型技术能力,发布行业场景解决方案,并分享可复制、可衡量的标杆实践,助力企业用大模型实现产品创新与商业模式重塑。阿里云将持续投入,携手伙伴与客户,让AI深入产业、扎根场景、共创未来。

  • AI日报:Kimi K2.5上线;阿里发布推理模型Qwen3-Max-Thinking;Claude 深度集成 Slack 等办公神器

    本期AI日报聚焦多款AI产品更新:Kimi K2.5上线,视觉与工具调用功能升级;腾讯搜狗输入法20.0版本全面AI化;阿里发布万亿参数Qwen3-Max-Thinking模型,性能对标国际顶尖;阿里健康AI应用“氢离子”新增动态证据定位功能;百度文心APP开启“多人多Agent”群聊内测;千问PC和网页端上线国内最强推理模型;Anthropic推出交互式应用,深度集成办公工具;蚂蚁灵波开源空间感知模型LingBot

  • 芯片散热的中国名片:瑞为新材金刚石散热技术助力军工与民用算力发展

    在南京瑞为新材料科技公司的展台上,一枚仅指甲盖大小的芯片引人注目。它表面覆盖着金刚石/金属复合散热材料,是我国率先实现批量化生产与应用的第三代芯片封装散热核心材料。瑞为新材料依托南航创新港的生态赋能,仅用四年时间,从实验室技术攻关到产品服务大国重器,走出了一条高校科技成果从“书架”跃向“货架”的标杆之路。公司产品已成功应用于卫星、战斗机等大国重器供应链,成为国内首家实现金刚石散热材料批量供货的企业。未来,这家“小巨人”企业将继续以技术为刃,以生态为翼,在芯片散热赛道上持续领跑。

  • 闪极Loomos L1 AI拍摄眼镜:架构革新+全链路AI,助力智能穿戴升级

    闪极科技推出旗舰级Loomos L1 AI拍摄眼镜,以创新架构和前沿功能重新定义智能眼镜标准。其搭载全新凤凰架构,采用4纳米四核ARM主处理器与专业蓝牙Soc的双芯组合,解决了初代产品通话卡顿、画质不佳等问题。首创摄像头与前框解耦设计,将索尼1200万像素CMOS融入镜腿,兼顾卓越拍摄效果与美观。产品采用钛合金复合板材框架,鼻梁体感重量控制在20克以内,并提供多种时尚框型与配色。核心AI功能革新包括独家VAD主动人声识别算法,可实现全天候自动录音、拍照、录像,并实时上传云端分析,形成个人记忆库。此外,隐形镜头盖设计可一秒遮蔽摄像头,平衡拍摄便捷与隐私安全。配合多功能换电仓与降噪聚音旗等配件,满足不同场景需求。闪极L1以其极致佩戴体验和全链路AI赋能,成为内容创作者、生活记录者及办公协同者的智能伴侣。

  • 李想:理想L9马赫100双芯片总算力2560TOPS 拥有代差体验

    全新理想L9已于2月6日开启官宣,定位具身智能旗舰SUV。 理想汽车CEO李想今日发文称,全新L9用的马赫100双芯片,总算力2560 TOPS。

  • 2025算力100强榜单重磅出炉 算子芯片赛道龙头企业同台竞技

    近期,中科院《互联网周刊》与德本咨询联合发布“2025年度算力100强”榜单。榜单全景呈现我国算力产业从数据中心到智算云的全链条头部格局,聚焦量子芯片、国产GPU等核心硬件的自主化进展,为行业技术攻关与投资决策提供重要参考。其中,华为海思、寒武纪、海光信息等企业强势跻身算力芯片子榜单前十。展望未来,量子芯片、国产GPU等技术攻关将不断突破瓶颈,为数字经济发展筑牢底座,赋能相关产业实现更高维度的跃迁。

  • 国产存储突破:绿算GP7000率先适配英伟达G3层KV Cache架构,AI推理效率提升17倍

    2026年1月15日,绿算技术宣布其GP7000全闪存存储平台已通过英伟达适配,成为全球首批、也是唯一支持G3级KV Cache分层存储的国产化方案。该平台采用存算分离架构,结合以太网闪存簇设计,为下一代AI工厂建设提供关键基础设施支撑,能显著提升推理吞吐量并降低延迟,实现成本与效率的最优平衡。

  • 硬科技突围:一颗中国芯片,如何破解AI算力的“存储墙”难题?

    在全球AI算力竞争白热化的今天,存储瓶颈正严重制约大模型的实际性能。绿算技术公司推出了一款基于自主IP的NVMe-oF桥接芯片原型“擎翼”,旨在将GPU显存中容量巨大的KV Cache卸载到由标准NVMe SSD构建的存储池中,并保证访问延迟低于20微秒。该芯片通过全硬件卸载和零拷贝传输,实现了高达489万IOPS和21.8GB/s的顺序读取带宽,功耗低于10瓦。这不仅大幅降低了扩展KV Cache至TB级的成本,也为AI大模型的规模化部署提供了关键的经济性保障。此次尝试标志着AI算力竞争正从单一的“算力芯片竞赛”演进到“系统级效率竞赛”。

  • 国家超算互联网核心节点上线试运行,托举中国AI算力应用关键一跃!

    2月5日,国家超算互联网核心节点在郑州上线试运行,由曙光ScaleX万卡超集群提供超3万卡国产AI算力,是全国最大单体国产AI算力资源池。该节点旨在破解算力供需脱节、资源闲置等痛点,支持万亿参数模型训练、AI for Science等大规模AI计算场景。依托国家超算互联网平台,节点已适配优化400多个主流大模型,可接入上千款应用,为全球用户提供高效普惠的中国AI算力服务,推动�

今日大家都在搜的词: