首页 > 传媒 > 关键词  > 百度智能云最新资讯  > 正文

百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

2025-10-28 14:43 · 稿源: 站长之家用户

10月28日,百度智能云宣布携手SGLang 社区,将一套针对DeepSeek-V3.2推理性能优化的 MTP(Multi-Token Prediction,多token预测)技术代码正式开源。SGLang 社区实测显示,采用这套技术, DeepSeek-V3.2模型解码吞吐量能提升超过2倍。

据了解,这套技术代码来自于百度智能云内部百舸AI计算平台团队。代码开源之前也已经在百度内部核心业务中长期运行,性能与稳定性上均经过严苛考验。社区用户可以结合自身业务场景,“开箱即用”地使用这套代码能力。

今年年初,DeepSeek以低成本和高性能横空出世,迅速吸引全球科技圈关注。而MTP正是其实现这一效果的核心技术创新之一。

在DeepSeek之前,大模型和推理多采用传统的自回归解码方式,模型每次只生成一个 token,生成下一个时必须等待上一个完成。如同逐字输入,过程稳定但速度存在瓶颈。

MTP则采用的是批量生成、集中验证的机制。模型会一次性智能地推算出多个后续 token 作为候选,然后统一进行验证。这好比从逐字输入升级为智能联想输入,一次性能提供多个候选词句,从而大幅减少生成轮次,突破序列化瓶颈。

在训练阶段,MTP有助于大模型更好地理解词元之间的依赖关系,从而提升大模型整体性能;在推理阶段,MTP快速生成多个候选词元,并由主模型进行一次前向传播来验证和修正,从而实现推理加速。

作为模型的配套技术,MTP需要与大模型自身的架构保持深度适配。这也导致最新的 DeepSeek-V3.2由于采用了与过往不同的的 DSA(DeepSeek Sparse Attention,稀疏注意力)架构,使得此前适用于 DeepSeek 老版本的 MTP 代码无法直接复用于 DeepSeek-V3.2,急需全新的系统级优化和深度适配工作。

百度百舸团队此次开源的MTP 方案,与 DeepSeek-V3.2的 DSA架构进行了深度适配,并在百度集团内部业务中进行了生产级场景的完整验证。此次开源,使得 SGLang 社区开发者无需重复底层探索与试错,能够直接获得性能倍增且稳定可靠的推理能力。

未来,百度百舸团队将持续开源生产级别核心代码,方便中小企业及开发者快速、稳定、低成本地部署先进AI能力,加速创新落地。

百度百舸AI计算平台是百度智能云打造的面向大模型训推一体化的基础设施,可以从资源准备、模型开发、模型训练到模型部署,为AI工程全周期提供丰富特性和极致易用体验。今年8月,百度智能云正式发布百度百舸5.0,在网络、算力、推理系统,以及训推一体系统等四大方向上全面升级,并正式上线了昆仑芯超节点公有云服务。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 中国AI算力突围:东方超算Deep X算力盒子超国际竞品82%,重新定义行业标准

    中国公司东方超算发布Deep X G20系列AI工作站,在MLPerf测试中性能超越NVIDIA DGX Spark达82%,价格持平,实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡,AI算力达1824 TOPS,体积仅2.7L。通过三大技术创新实现突破:智能异构计算引擎提升资源利用率40%;统一推理运行时支持多框架;深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断,已在量化金融、医疗影像等领域实现显著投资回报,标志着中国AI硬件实现重要突破。

  • WEEX反诈指南:提升警觉,防范高收益陷阱

    近年来数字资产市场快速发展,但网络诈骗层出不穷,包括仿冒交易平台、高收益投资骗局和假客服等手段。WEEX以安全为本,通过多重加密、冷热钱包分离、多因素身份验证等技术防护,结合反诈教育和实时监控系统保护用户。文章提醒投资者警惕高收益承诺,不点击陌生链接,不泄露验证信息,仅通过官方渠道下载APP,强调安全需平台与用户共同维护。

  • 百度百科词条总量突破3000万,联合《大学科普》等多机构推出科普专刊

    10月24日,百度百科联合《大学科普》推出“繁星计划”主题专刊,作为该刊2025年第3期面向全国高校发行,助力权威科普传播。同日,繁星计划新增北京林业大学林学院等5家合作机构,扩大行业影响力。该计划自2024年12月启动,已联合10万专家、500家机构共建超100万专业词条,百度百科词条总量突破3000万。通过与权威期刊合作,百度百科旨在为高校学子搭建连接前沿科学与知识普及的桥梁,践行“让知识轻松可及”的使命。

  • 实时调度36万真人医生,百度健康AI管家有医靠更可信

    10月18日,百度健康发布AI健康管家,首创“AI+真人”双保障模式。该产品在训练阶段引入36万医生标注数据,生成建议后由真人医生二次核验,确保专业安全。覆盖诊前、诊中、诊后全环节,提供数十项AI功能,包括科普问答、用药咨询、报告解读等。用户可通过百度APP搜索使用,定位为7*24小时个人健康助手,有效解决在线医疗服务时效性难题。

  • WEEX将出席迪拜区块链生活2025,担任白金赞助商亮相全球舞台

    WEEX确认将出席2025年10月28-30日在迪拜举行的Blockchain Life峰会。这场被誉为中东最具影响力的区块链盛会预计吸引超万名从业者,聚焦加密资产、Web3与区块链产业新趋势。WEEX将携团队亮相,与全球伙伴交流平台在交易安全、产品创新及全球布局的最新进展,展现其深耕国际市场的决心。此次参会是平台全球化战略深化的重要举措,也是其2025下半年重点行程之一。

  • 百度网盘正式适配安卓实况照片:iOS和安卓可跨系统互传

    近日,百度网盘针对安卓用户推出重磅功能更新,正式适配安卓系统实况照片(Live Photo)的存储与播放需求,一举解决安卓阵营长期存在的动态照片管理痛点。此次升级不仅实现了iOS与安卓设备间实况照片的无障碍互传,更在画质保留、格式兼容等方面带来突破性体验。 据更新日志显示,安卓用户上传实况照片至百度网盘后,可直接在

今日大家都在搜的词: