从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

2025-09-02 15:53 · 稿源：站长之家用户

2025年8月27日，在第四届828B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点，通过xDeepServe架构创新，单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能，超过业界水平。

发挥“大杂烩”优势，以系统能力打造先进算力

过去18个月，中国AI算力需求呈现指数级增长。数据显示，2024年初中国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已突破30万亿，1年半的时间增长了300多倍，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上，今年3月，华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次，华为云的Tokens服务正式接入CloudMatrix384，并通过384原生的xDeepServe框架再次实现了吞吐量的突破，从年初的1920TPS提升至2400TPS，TPOT仅为50ms。

大算力的构建不是单点突破，而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新，充分依托了华为的“大杂烩”能力。

首先，CloudMatrix384超节点以全新的计算架构创新，突破性能瓶颈，构筑稳固澎湃的算力根基; CANN昇腾硬件使能，优化算子与高效通信策略，让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙，突破性地实现“以存强算”，彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer，xDeepServe全面激发算力潜能

作为CloudMatrix384超节点的原生服务，xDeepServe以Transformerless 的极致分离架构，把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块，相当于在一台CloudMatrix384上把“大模型”拆成“积木”，并分派到不同的NPU上同步处理任务。之后，再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台，即Tokens的“超高速流水线”。通过xDeepServe不断调优，最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层，CANN包含多个算子库和和XCCL这种高性能通信库等组件，共同支撑AI模型的高效运行。其中，XCCL作为专为超节点上的大语言模型（LLM）服务而量身打造的高性能通信库，能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力，为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎，FlowServe把CloudMatrix384切成完全自治的 DP 小组，每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈，完全自给自足，做到千卡并发也不“拥堵”。

目前，xDeepServe已实现MA分离，而下一步，将把Attention、MoE、Decode全部改成自由流动的数据流，并把同样的拼图方法复制到多台超节点，让推理吞吐像铺轨一样线性延伸，最终或将视线吞吐量的更大突破，让每块 NPU 都高效运作，芯片永不排队，推理永不塞车。

聚焦主流大模型，不断提升模型性能

目前，华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力，从而实现“源于开源，高于开源”，让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说，在轻微损失画质的情况下，通过Int8量化、旋转位置编码融合算子等方式，在在华为云MaaS平台实现了2倍于业界主流平台的出图速度，最大尺寸支持2K×2K。而在文生视频大模型上，不仅通过量化方式来提速，还通过通算并行等方式，降低延迟与显存占用，大幅提升视频生成速度，相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础，也让更多企业能够快速开发和构建AI Agent。

而在应用层，华为云已与超过100家伙伴携手深入行业场景，共建丰富的Agent，在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题，让企业更便捷地拥抱AI创新，加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案，集成了先进的自然语言处理、机器学习和深度学习技术，能实现与用户的智能交互和任务处理，显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能，实现政企办公智能化转型。

以Token为动力的智能社会已经到来，而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力，助力各行各业加速落地AI。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

华为11月14日推出WATCH ULTIMATE DESIGN非凡大师紫金款智能手表。该系列定位超高端，于2023年9月首次发布，由刘德华代言。新款采用18K黄金材质，设计灵感源自航海轮舵，表圈手工镶嵌六颗黄金，搭配黄金表圈、旋转表冠及可伸缩蝴蝶扣等精致设计，尽显奢华质感。功能方面支持双向北斗卫星消息、百米防水及健康管理，智能模式下续航达8天。新品将于11月15日10:08开启预售，面向追求高端独特风格的消费者。

华为WATCH ULTIMATE DESIGN
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
最强Mate旗舰！华为Mate 80本月下旬亮相

华为Mate 80系列会在11月25日前后发布，这将是史上最强Mate旗舰。据悉，本次发布会将会推出Mate 80、Mate 80 Pro、Mate 80 Pro 和Mate 80 RS四款旗舰，其中标准版代号Voyager，支持66W有线快充；Pro、Pro 及RS版统一采用Sagittarius代号，支持100W有线充电。

华为Mate 80 麒麟9030芯片
荣耀500系列11月24日亮相：比华为Mate 80早一天

荣耀宣布即将发布荣耀500系列，该系列以越级配置带来双超体验，性能不妥协，续航再突破，重新定义档位标准。博主定焦数码爆料，荣耀500系列发布时间应该是11月24日，跟华为Mate 80系列发布会很接近，后者预计会在11月25日亮相。据悉，荣耀本次发布会将会推出荣耀500和荣耀500 Pro两款机型，全系搭载高通骁龙8系旗舰平台，其中标准版搭载高通骁龙8s Gen4，Pro版搭载高通骁�

荣耀500系列高通骁龙8系横向跑道DECO
DeepSeek崩了上热搜页面显示“服务器繁忙”

截至2025年11月3日，大量用户在微博话题#DeepSeek崩了#下集中反馈，DeepSeek平台出现服务异常状况，引发广泛关注。综合各方信息，此次故障呈现多方面表现，对用户使用造成显著影响。众多用户表示遭遇服务全面中断问题，在尝试使用平台

DeepSeek故障服务器异常服务中断
全球“双11”热潮席卷俄罗斯！即将引爆Yandex Market平台流量！

2025年俄罗斯电商旺季即将开启，中国“双十一”购物节已发展为全球商业盛事。俄罗斯电商平台Yandex Market将“双十一”作为重要促销节点，数据显示2024年其销售额同比增长1.4倍，订单量增长1.7倍。平台将于11月29日在深圳举办品牌峰会，发布招商、物流及流量政策重大调整，并邀请胡锡进分享俄罗斯电商机遇。俄罗斯电商旺季持续4个月，占全年销售额一半以上，成为跨境卖家重要增长机会。

俄罗斯电商双十一跨境购物
前DeepSeek研究员罗福莉已加入小米：全力奔赴AGI

11月12日，“95后AI天才少女”罗福莉宣布加入小米MiMo大模型团队。她曾因“雷军千万年薪挖角”话题引发热议，拥有丰富AI研发经历，先后在幻方量化和DeepSeek参与大模型研发。罗福莉表示，将与团队致力于推动AI从语言迈向物理世界，全力构建通用人工智能。她的加入将为小米AI研究注入新活力。

AI天才少女小米大模型罗福莉
华为Mate 80下周开始预热 11月25日发布：五款机型标配麒麟9030

为了迎接即将到来的Mate 80系列，华为内部今天启动保密级培训，而新机会在11月17日开始预热。最新的消息中还指出，Mate 80系列会在11月25日发布，而新系列预计推出五款机型，包括标准版、Pro版、Pro 版、RS 非凡大师版以及一款搭载主动散热风扇的神秘机型”。此外，按照一些博主透露的消息，华为Mate 80全系或标配麒麟9030芯片，Pro 版

华为Mate 80 麒麟9030芯片
从“实现需求”到“共创价值”：AI Native时代需要什么样的工程师团队？

在1024程序员节，小红书技术副总裁风笛出席CCF工程师文化日五周年庆典，分享AI时代技术团队转型方向。他指出传统开发模式下工程师仅1/3时间编码，其余被会议沟通挤占，导致技术成长受阻、创新力下降。提出AI Native时代需重构协作模式：通过任务导向的扁平化组织，让工程师从需求执行者转变为价值创造者。以48小时上线翻译功能为例，展示新型协作效能。强调AI不会取代工程师，而是将其角色提升至系统定义和复杂性管理的新高度。

1024程序员节工程师文化 AI
华为WATCH Ultimate 2非凡探索版明日开启预售

华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能，具备海豚声呐通信技术，可在水下30米实现手表间信息传输，60米内一键SOS求救。同时搭载北斗卫星语音消息功能，无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕，峰值亮度达3500nit，支持20ATM防水与IP68/9防尘。省电模式下续航达11天，常规使用达4.5天。该手表海外售价799英镑（约7443元人民币），国内价格尚未公布。

华为WATCH Ultimate2 智能手表

今日大家都在搜的词：

热文

3 天
7天

从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

最强Mate旗舰！华为Mate 80本月下旬亮相

荣耀500系列11月24日亮相：比华为Mate 80早一天

DeepSeek崩了上热搜页面显示“服务器繁忙”

全球“双11”热潮席卷俄罗斯！即将引爆Yandex Market平台流量！

前DeepSeek研究员罗福莉已加入小米：全力奔赴AGI

华为Mate 80下周开始预热 11月25日发布：五款机型标配麒麟9030

从“实现需求”到“共创价值”：AI Native时代需要什么样的工程师团队？

华为WATCH Ultimate 2非凡探索版明日开启预售

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

雷军回应小米双11战绩：谢谢大家支持

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

卢伟冰：小米手机双11连续三年国产销量第一

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

雷军回应小米双11战绩：谢谢大家支持

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

OPPO Reno15系列定档11月17日发布

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

焕新享界S9开卖72小时预订突破8000台

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

站长商机