首页 > 传媒 > 关键词  > GLM-5.1开源最新资讯  > 正文

百度百舸 x 昆仑芯助力GLM-5.1规模化应用 百度智能云打造国产算力基础设施

2026-04-10 09:21 · 稿源: 站长之家用户

4月8日,智谱正式开源新一代大模型 GLM5.1。作为智谱 GLM 系列的最新力作,GLM-5.1的整体能力得到了全面提升。尤其在代码能力上:在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1超过 GPT-5.4、Claude Opus4.6,刷新全球最佳成绩。此外,GLM-5.1还在长程任务(Long Horizon Task)处理能力上实现了显著突破,有别于当前以分钟级交互为主的模型,GLM-5.1可在单次任务中持续、自主地工作长达8小时,凭借自主规划、执行与迭代进化,最终交付完整的工程级成果。

百度百舸基于昆仑芯硬件平台第一时间完成了 GLM-5.1的模型适配与集群部署,助力最新开源大模型快速投入生产环境的大规模应用。

百度百舸基于 Prefill-Decode 分离架构,使用 CP (Context Parallelism) 上下文并行策略有效降低128K 以上序列的计算负载和显存压力,从而使得 GLM-5.1能够更好的支撑 AI Agent、Coding 场景的长上下文与高并发需求。

目前,百度百舸与昆仑芯已具备「极速模型适配 - 全链路性能提升 -  高效规模化部署 - 超大规模集群落地」的完备能力。

极速模型适配

为实现高性能模型的快速开发与适配,百度百舸联合昆仑芯开发了 vLLM-Kunlun Plugin,将 vLLM 社区版与昆仑芯 XPU 后端完全解耦。用户通过 vLLM-Kunlun Plugin,快速适配主流开源模型。

依托 CUDA-like 特性,vLLM-Kunlun Plugin 在软件层面「抹平」了硬件差异,使开发者能够像使用通用 GPU 一样便捷地使用昆仑芯。同时,vLLM-Playground 已全面支持昆仑芯,即便是初学者也能通过直观的 Web UI 一键完成模型配置与推理。

在适配效率上,基于昆仑芯成熟的高性能算子库,针对无新增算子的新模型(如从 GLM-5.0版本迭代至 GLM-5.1)可实现 Day0极速适配,针对有新增算子的新模型,也可在极短时间内完成新算子的开发与模型适配。再配合 torch_xray 精度对齐工具与 PyTorch Profiler 性能分析工具,百度百舸为模型跑对与性能表现提供了全方位保障。

全链路性能提升

为了使国产模型充分发挥昆仑芯硬件算力,百度百舸从算子、Kernel Launch、框架及系统等不同维度开展全链路优化 —— 依据昆仑芯硬件单元特性为各类算子制定专属优化策略,借助 CUDA Graph 消除 CPU 调度开销显著降低 Kernel Launch 耗时,针对框架原生的性能瓶颈开发了昆仑芯定制算子,并在系统层面上大幅提升并行计算能力。

同时,在量化层面,百度百舸推出了「模型层 - 框架层 - 硬件层」的端到端的量化体系——通过昆仑芯自研量化工具链实现高精度、高效率的模型量化,对不同来源的 INT8/ INT4量化模型实现最佳模型部署与量化推理,并基于昆仑芯 XPU 的计算特性,定制化开发高性能量化专用算子库。在实际部署时,采用 INT4混合精度量化,仅用单机昆仑芯 P800,即可实现754B 超大参数模型的64K 长序列支持,并将推理性能提升20%。

高效规模化部署

在完成模型适配并实现性能提升的基础上,百度百舸依托 PD 分离架构进一步优化集群推理效能,并提供针对标准8卡与超节点硬件平台的标准化部署方案。

 在传统8卡服务器场景中,通过 TP/EP 扩展,仅需6台昆仑芯 P800便可实现 GLM-5.0模型200K 的超长序列推理;  在超节点场景中,相较同卡数的单机8卡场景,Prefill 阶段性能提升超16%,Decode 阶段提升超17%。

同时,百度百舸构建了精细化的 KV Cache 调度与加速引擎,实现高达80% ~90% 的缓存命中率,将64K 序列的 TTFT 缩短6.2倍,为 AI Agent 及复杂 Coding 等高并发、极长文本业务提供了稳健的响应保障。

此外,针对业务流量波动,百度百舸对昆仑芯集群的弹性扩缩容能力进行了系统性优化,将实例拉起时间从分钟级压缩至秒级。

万卡集群与天池超节点 百度智能云打造国产算力基础设施

目前,百度智能云已自建完成多个大规模国产算力基础设施。

 2025年2月,百度智能云成功点亮昆仑芯 P800万卡集群,这是国内首个正式点亮的自研万卡 AI 集群。同年4月,该集群规模进一步扩展至3.2万卡,并已支撑百度千帆、百度蒸汽机等多个千卡级大模型训练任务。

  •  2025年4月,百度发布基于昆仑芯的天池超节点方案,采用32卡一层点对点全互联架构,通信延迟低至1.5 μs;方案兼容现有机房环境,支持单人运维,并依托昆仑芯与百度百舸的持续软硬协同优化,实现极致的每 Token 成本。

截至目前,百度百舸基于昆仑芯完成了 GLM、Qwen、DeepSeek、MiniMax、Kimi、MiMo 等最新大模型的部署和应用,让顶尖 AI 能力转化为产业发展动能。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 百度文心大模型5.1正式发布

    百度正式发布了新一代基础大模型——文心大模型5.1。该模型采用了自主研发的“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,便达到了基础效果领先的水平,并登上LMArena搜索榜国内第一的位置。 在多项行业权威基准测试中,文心5.1在智能体、知识理解、逻辑推理以及深度搜索等核心能力上表现突出。其中,智能体能力提升显著,已超越DeepSeek-V4-Pro;创意�

  • 火山引擎Coding Plan上线GLM-5.1,联合ArkClaw支持一键“虾马同养”

    火山方舟Coding Plan正式上线GLM-5.1,提供与原厂一致的满血能力,不限购。该模型在多项基准测试中媲美Claude Opus 4.6,尤其在Agent长程任务上可一次性执行超8小时的持续工作。Coding Plan作为国内首个多模型订阅套餐,还集成了豆包、MiniMax、Kimi等模型,用户可按需切换。同时,火山引擎ArkClaw推出Hermes Agent插件,一键开启即可体验具备强大自我进化能力的Agent。用户可通过Coding Plan Pro直接体验ArkClaw的新能力。

  • 不用等了!小米汽车宣布YU7交付能力大幅提升:最快2小时就能提车

    今日,小米汽车发文宣布:小米YU7的交付能力大幅提升,现在买车不用等,最快2小时就能提车。 根据官方公布的流程,用户通过小米汽车APP锁定订单、支付定金后,专属顾问将快速调配车辆并确认细节。 完成车辆检测、清洁及文件准备后,到店签约即可提车,实现从下单到开走的极速体验。

  • 阿里发布Qoder 1.0:自主接管代码生成、验证和交付全流程

    阿里正式发布Qoder 1.0,从AI IDE升级为智能体自主开发工作台。用户只需专注定义需求,Agent团队即可自主完成执行、验证与交付的全流程任务。 Qoder 1.0最大的亮点在于其自主开发模式。用户只需明确提出需求,无需深入参与具体执行细节,Agent团队便能自主完成从任务执行到最终交付的全过程。这一模式大幅降低了开发门槛,让更多非专业开发者也能轻松参与软件开发。 同时

  • AI越来越会写代码,唯独在地图这件事上集体“失忆”

    百度地图发布AI智能体“脉芽”(MAPYA),专为开发者解决地图开发中API选型、代码生成及平台管理的复杂问题。传统流程需翻数百API文档、处理坐标偏移等,耗时数天;脉芽通过对话式交互,几秒内给出精准方案与可用代码,并集成23项控制台管理能力,将典型开发从2天压缩至2小时。它弥补了通用AI工具在地图领域的“知识盲区”,让开发者无需成为地图专家即可高效开发。

  • 销售易发布多级订货能力,提升海外多级渠道销售效率!

    中国出海企业通过销售易CRM的多级订货系统,解决了海外渠道管理中的协同效率低、库存不透明等问题。该系统支持新品全球同步发售、区域市场波动下的库存调拨及灵活补货,通过数字化平台实现订单透明管理、自动入库和促销返利机制,显著提升渠道订货效率、降低库存成本,并驱动全球业务可复制增长。

  • 一天工作8小时包括午餐和午休吗:答案来了

    一直以来不少职场人都有个普遍疑问,我们熟知的一天8小时工作制,午餐和午休时间算不算在总时长里? 律师明确指出,目前相关法律没有出台明确的硬性规定,要求午休必须计入或者不计入8小时工时。两种核算方式都合规,要是企业明确把午休排除在8小时工作时长之外,就必须保证给到员工的午休时间完全由个人自由支配,是实打实的休息时间,具体核算规则最终以企业

  • 大妈超市偷肉类百货藏腰间堪比仓鼠 储物能力老板看傻眼

    超市里偷东西,听说过偷零食、偷化妆品的。但这位大妈,偷的是排骨、兔肉、挂面,还有日用品。而且不是第一次了。 5 月 12 日,四川德阳一家超市。一位 50 多岁的大妈准备离开时被保安拦住。接下来的一幕让在场的人都看呆了——大妈从腰间一件一件往外掏:排骨、兔肉、挂面、洗发水……零零散散,价值差不多 300 块钱。 超市老板说,这位大妈是“老熟人”了,经常�

  • 阿布扎比综合交通中心开展23英尺自主巡逻艇实地测试

    阿布扎比综合交通中心近日启动23英尺自主巡逻艇的实地测试,旨在推动智能出行生态建设与海事运输进步。测试在严格监督下进行,获投资办和Blue Gulf集团支持,核心是部署自主控制技术驱动的先进巡逻艇,提升水域监控效率与精准度。此举将助力阿布扎比自主海事运输生态系统发展,构建现代监管框架,保障公众安全并提升运营效率。

  • 微信状态能看访客了?回应来了:iOS端灰度测试

    今日,一则关于微信状态可查看访客记录的消息迅速登上热搜,引发大量网友关注和讨论。 根据已体验用户的反馈,在微信状态的有效期内,用户点击状态页面右下角即可看到该条状态的浏览人数。更值得注意的是,如果浏览者当前也开启了微信状态,那么还能直接看到对方的头像,轻点头像甚至可以跳转查看对方正在展示的状态内容,互动性明显增强。

今日大家都在搜的词: