首页 > 业界 > 关键词  > DeepSeek最新资讯  > 正文

DeepSeek第四天放出了双响炮:开源DualPipe和EPLB

2025-02-27 11:50 · 稿源: 快科技

快科技2月27日消息,今天是DeepSeek开源周第四日,不同于前三日早早就发出的开源项目

今天DeepSeek公布开源项目,比平日稍微晚些,让关注者们等的稍微有点着急,包括小编在内。

但是等待的结果总是值得的,这不今天公布了两项开源内容。话不多说,转入正题。

今天DeepSeek发布了DualPipe(双向管道并行算法)和EPLB(专家并行负载均衡器)

据DeepSeek介绍,DualPipe是一项在DeepSeek-V3技术报告中引入的双向管道等值算法,它实现了向后和向后计算通信阶段的双向重叠,显著减少训练空闲时间。

同时,流水线气泡优化这一创新调度策略,降低传统管道并行中的气泡”问题,有效提升硬件资源利用率。在GitHub上,目前该算法已经获得544个Star收藏。

另外,在此谈一谈EPLB(专家并行负载均衡器)

EPLB(专家并行负载均衡器)具有动态负载均衡、分层与全局平衡结合、流量优化的特点

具体来看,动态负载均衡是基于混合专家(MoE)架构,通过冗余专家策略复制高负载专家,并采用启发式分配算法优化GPU间的负载均衡;

另外在分层与全局平衡结合方面,它既支持单个节点的分层负载管理,也实现跨节点的全局负载平衡,减少GPU闲置。

此外在流量优化上,可在平衡负载的同时,通过调整专家分布降低节点间通信数据量,提升整体训练效率。

DeepSeek第四天放出了双响炮:开源DualPipe和EPLB

举报

  • 相关推荐
  • 陕西一景区介绍标注作者为DeepSeek 工作人员:有版权问题

    近日,陕西渭南的一处景区引发了网友们的热议,原因竟是景区介绍牌上标注的作者是一个颇为特别的名字——“DeepSeek”。 不少游客在看到这个作者名时,都误以为是个外国人的名字,仔细一瞧才发现,这原来是一款人工智能助手的名字。景区工作人员解释说,这块介绍牌是去年摆放的,上面的内容确实是由DeepSeek生成的,主要是对尧头窑进行一个简单的介绍。

  • DeepSeek V4 Lite悄然更新:2000亿小参数性能逼近美国顶流

    虽然春节档DeepSeek V4没有发布,但DeepSeek在2月11日发了一个新模型,被称为DeepSeek V4 Lite,只有2000亿参数,规模比较小。 DeepSeek V4 Lite主要特色是1M上下文,之前网友测试其表现除了超长上下文之外也没太惊艳的地方,毕竟参数规模跟主流的大模型差很多。 然而DeepSeek V4 Lite发布之后一直在悄悄升级,2月27日已经有网友测试发现其性能越来越强大,昨天又升级了一波,Linux Do社区�

  • AI日报:多模态大模型DeepSeek V4即将发布;谷歌即将停用Gemini 3 Pro Preview;微软推出AI软件组合

    本期AI日报聚焦行业动态:谷歌将停用Gemini 3 Pro Preview,开发者需迁移至3.1版本;DeepSeek V4发布,支持多模态生成并与华为、寒武纪合作优化硬件;微软计划推出AI软件组合,月费或高达99美元;爱奇艺财报显示利润下滑,将押注AI电影制作与去中心化转型;壁仞智能完成数亿元融资,深化端侧AI布局;英伟达将发布集成Groq技术的推理处理器,巩固市场地位;联想展示模块化AI PC概念,提升用户体验;我国发布首个国家级人形机器人标准体系,推动产业高质量发展。

  • AI日报:MiniMax发布Expert 2.0与云端助手MaxClaw;DeepSeek V4 细节曝光;肯德基AI 点餐助手接入通义千问

    本期AI日报聚焦多款AI产品动态:MiniMax发布Expert 2.0与云端助手MaxClaw,降低专业AI Agent开发门槛;DeepSeek V4细节曝光,具备万亿参数与原生多模态能力;肯德基接入通义千问推出AI点餐助手“小K”;华强北AI眼镜在美销量暴涨;Perplexity发布通用AI代理Computer,集成多模型协同工作;三星Galaxy S26系列手机AI功能全面升级;三七互娱“小七大模型”深度落地游戏出海等场景。整体呈现AI

  • DeepSeek突发更新:不是V4但惊喜很多 编程实测来了

    DeepSeek于2月11日悄然更新模型,主要提升上下文能力至1M,可一次性处理《三体》三部曲等超长文本。官方强调这是最新模型,未命名特定子版本。实测显示其在编程、物理模拟等多方面能力均有提升,甚至超越此前所有版本达到SOTA水平。不过,新模型在部分具体问题(如50米距离洗车方式)上回答不一致,其是否为完整版尚不确定。

  • 一年了 美国还在追着抹黑!曝DeepSeek春节再扔王炸 最新披露

    一年了,美国还在追着Deepseek抹黑,可中国最新的Seedance都2.0了。中国视频生成模型Seedance2.0吸引全球目光时,当地时间2月12日,美国人工智能公司OpenAI向美国众议院提交了一份备忘录,再次抹黑中国人工智能大模型DeepSeek,称其抄袭”了美国的大模型。DeepSeek的下一代模型V4或将在今年春节前后正式发布。

  • 提升7倍 DeepSeek官宣测试全新大模型:或为V4 Lite

    前几天国产AI来了一波爆发,智谱GLM-5、Minimax2.5及DeepSeek在11日同一天都发布了新的大模型,其中DeepSeek的自然最受关注。此前我们已经报道过了,这次更新主要是提升了上下文能力,达到了1M之前的DeepSeeV3系列也就是128K,这方面相对前代V3系列大模型提升了7倍。传闻中的DeepSeekV4满血版是1.5万亿参数,比V3系列翻倍还多会使用之前DeepSeek研究的Engram、mHC等新技术,性能全面提升的同时成本还低,这个期待值还是很高的。

  • DeepSeek回应被指变冷淡:已收到反馈 为平衡效率与情感

    DeepSeek近期技术升级后,其AI助手风格从“细腻共情”转向“公事公办”,引发用户争议。部分用户认为新版更理性客观,能专注问题本身;也有人批评其语气疏离、缺乏温度。官方解释称,调整旨在提升信息密度与响应效率,并为2026年V4版本进行极限压力测试。这表明AI在拟人化与功能性之间寻求平衡,不同用户对交互风格存在差异化需求。

  • DeepSeek更新上下文达百万级token:可一次性处理超长文本

    DeepSeek近日在网页端及APP端完成版本更新,正式将上下文窗口扩展至1M(百万) Token,迎来对话容量的显著跃升。 相较于去年8月发布的DeepSeek V3.1所支持的128K上下文,新实装模型的上下文能力较两个月前更新的V3.2提升达八倍。 网友实测显示,DeepSeek已可一次性处理《三体》三部曲体量的超长文本,并在问答中明确表示其知识截止日期更新至2025年5月。

  • OpenAI开发双向语音模型:被打断也能秒回 让通话更自然顺畅

    OpenAI正研发新型双向语音模型BiDi,旨在让用户与ChatGPT的对话更自然流畅。其核心突破在于,当用户在AI发言过程中打断时,AI能实时调整回应,而非突然停止。目前ChatGPT的高级语音模式采用回合制对话机制,用户需先说完话,AI才会处理语音并生成回答。BiDi模型能持续处理说话者的语音输入,因此在被打断时可以立即调整响应。相比之下,现有的语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。这项技术目前仍处于开发阶段,原计划今年第一季度发布,但最新发布时间可能推迟到第二季度或更晚。

今日大家都在搜的词: