首页 > 业界 > 关键词  > DeepSeek最新资讯  > 正文

DeepSeek代码开源周收官,世界已经变了

2025-03-01 12:47 · 稿源: TechWeb.com.cn

3月1日消息,AI公司DeepSeek为期五天的 “代码开源周” 告一段落。

本周一至周五,DeepSeek以每日不定时一更的频率,开源多个代码库,涵盖FlashMLA、DeepEP通信库、DeepGEMM、并行优化策略、并行文件系统3FS。

DeepSeek认为:通用人工智能(AGI)不存在“高高在上的象牙塔”,而是秉持车库创业精神,与社区共同构建创新力量。

五天的代码开源,展示了DeepSeek在优化大模型训练、推理、通信以及文件系统方面的技术创新与突破。这些开源项目不仅提升了AI模型的性能和效率,也为AI领域的研究者和开发者提供了宝贵的资源和工具。

从模型开源,到代码开源,DeepSeek凭一己之力,重塑了大模型世界。

英伟达跌落神坛

在这一周里,AI大模型火起来至今的最大赢家(赚钱最多)英伟达发布了最新财报。但是股价已经连跌多日,从130多美元跌到120美元左右。

英伟达2025财年第四季度营收同比增长78%,较此前连续五个季度三位数增长的态势显著放缓,且同比增速为近两年来最低水平。2024财年第四季度曾达到265%的峰值‌。

分析师们在分析英伟达营收增速放缓的原因时认为一方面是微软、Meta等核心客户同步研发自研芯片以减少对英伟达的依赖;一方面是‌DeepSeek-R1低成本AI模型降低算力需求,部分削弱市场对英伟达高端芯片的依赖‌。

当日,英伟达股价大跌8.5%,市值蒸发2740亿美元。

一个月前,DeepSeek发布的低成本、高性能开源推理模型R1引发市场震动,英伟达股价一度暴跌近17%。

尽管英伟达CEO黄仁勋强调,DeepSeek的开源工具和低成本模型虽然对行业产生了冲击,但英伟达通过软硬件协同优化,依然保持了在AI芯片领域的领先地位。

但是也未能阻止投资者对其业绩增速放缓、毛利率下降及中国AI公司DeepSeek的影响的担忧。

被改变的还有同行。

OpenAI最新大模型GPT-4.5被槽太贵

闭源大模型no1的OpenAI在周五发布了最新的最强大模型GPT-4.5,当然也是最贵的。

GPT-4.5是OpenAI史上参数规模最大的模型,其计算量是上一代的10倍。GPT-4.5的API价格为每百万Tokens 75美元,相较上一代GPT-4o的2.5美元上涨30倍。

GPT-4.5不是一个专注于推理的模型,GPT-4.5并不能完全替代GPT-4o,在基准测试中它的某些能力低于o1、o3-mini。

这款被网友吐槽“贵得要死”的大模型,并没能如OpenAI此前的历届旗舰大模型发布时一样引发好评热议如潮。现在,更多人会用DeepSeek来酸它:有免费好用的DeepSeek开源可用,给我一个花这么多钱用你的理由?

附上DeepSeek代码开源周内容:

2月24日:Flash MLA开源

(详情: https://www.techweb.com.cn/it/2025-02-24/2957370.shtml)

‌开源内容‌:DeepSeek开源了Flash MLA,这是一个针对英伟达Hopper GPU优化的高效MLA(Multi-head Latent Attention,多头潜注意力)解码内核。

‌核心特性‌:特别针对可变长度序列进行优化,使用基准为Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平台上,内存受限配置下可达最高3000GB/s,计算受限配置下可达峰值580 TFLOPS。

‌技术亮点‌:FlashMLA的设计参考了FlashAttention 23以及CUTLASS的技术实现,通过KV压缩与潜在变量、低秩降维技术、动态序列处理等优化,显著减少了大模型训练和推理过程中的内存占用。

2月25日:DeepEP通信库开源

(详情:https://www.techweb.com.cn/it/2025-02-25/2957421.shtml)

‌开源内容‌:DeepSeek开源了DeepEP,这是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库。

‌核心特性‌:为所有GPU内核提供高吞吐量和低延迟,支持低精度操作(包括FP8)。针对NVLink到RDMA的非对称带宽转发场景进行深度优化,提供高吞吐量,并支持SM数量控制。

‌技术亮点‌:对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。同时,引入了一种基于钩子的通信计算重叠方法,不占用任何SM资源。

2月26日:DeepGEMM代码库开源

‌(详情:https://www.techweb.com.cn/it/2025-02-26/2957487.shtml)

开源内容‌:DeepSeek开源了DeepGEMM代码库,专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计。

‌核心特性‌:同时支持普通的和专家混合(MoE)分组的GEMM运算,为V3/R1训练和推理提供动力支持。使用CUDA编写,无需编译,通过轻量级即时编译模块在运行时编译所有内核。

‌技术亮点‌:DeepGEMM设计简洁,代码量约为300行,但性能在各种矩阵形状上与专家调优的库相匹配或超越。在H800上测试,计算性能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。

2月27日:并行优化策略开源

(详情:https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml)

开源内容‌:DeepSeek开源了三项并行优化策略,包括DualPipe、EPLB和Profile-data。

DualPipe‌:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法,显著减少管道气泡(空闲时间)。

EPLB‌:一个针对V3/R1的专家并行负载均衡工具,根据估计的专家负载计算平衡的专家复制和放置计划。

Profile-data‌:DeepSeek基础设施中的数据分析,包括来自训练和推理框架的性能剖析数据,旨在帮助社区更深入地理解通信与计算重叠策略及相关底层实现细节。

2月28日:3FS文件系统开源

‌(详情:https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml)

开源内容‌:DeepSeek开源了Fire-Flyer文件系统(3FS),一个高性能并行文件系统。

‌核心特性‌:应对AI训练和推理工作负载的挑战,利用现代SSD和RDMA网络提供共享存储层,简化分布式应用程序的开发。在由180个存储节点组成的大型测试集群上,总读取吞吐量达到约6.6个TIB/S。

‌技术亮点‌:3FS的主要功能和优势包括性能和可用性、强一致性、文件接口开发、多样化的工作负载(如数据准备、数据加载器、检查点、用于推理的KVCache)等。

举报

  • 相关推荐
  • 本周开始,DeepSeek 宣布将开源 5 个代码库!

    备受关注的中国人工智能模型公司DeepSeek已宣布,将开源五个关键代码库。在此之前的2月21日,Deepseek通过官方SNS平台宣布了这一消息。”长期以来,开源一直被视为实现技术民主化和提高透明度的一种重要方式,Deepseek本次的开源也受到了开源支持者的欢迎。

  • DeepSeek将自己定义为小公司 宣布将开源5个代码

    DeepSeek今日宣布,我们是探索AGI的小公司,接下来一周,会陆续开源5个代码库,每日都有新内容解锁,进一步分享新的进展。DeepSeek表示,这些在线服务中的基础构建模块已经经过文档化、部署,并在生产环境中经过实战检验。DeepSeek通过开放其技术细节,为遍布全球的研究人员提供了宝贵的资源与灵感,有力推动了整个领域的进步与发展,真正实现了技术的普惠与赋能。

  • DeepSeek今日启动开源:公布首个开源代码库Flash MLA

    据报道,DeepSeek宣布启动开源周”,首个开源的代码库为FlashMLA。这是一个针对HopperGPU优化的高效MLA解码内核,专为处理可变长度序列设计,目前已投入实际生产应用。DeepSeek承诺,在开源周”期间,每日都会有新内容解锁,进一步分享新的技术进展,为开发者带来更多惊喜。

  • DeepSeek第三弹:开源DeepGEMM!

    今天上午9点,DeepSeek继续履行开源周承诺,发布了开源DeepGEMM。该帖子一经转发,立即引来了2.1万阅读量,足以见其在国内外受到追捧的热度。本次开源属于DeepSeek开源周”的第三项项目,此前已发布FlashMLA和DeepEP。

  • DeepSeek完美收官开源劳苦功高的3FS!

    在不舍与兴奋中,我们迎来了DeepSeek开源周第五天。今天DeepSeek开源的项目是:Fire-Flyer文件系统,即3FS。

  • 寻找DeepSeek梁文锋

    AI大模型DeepSeek凭借好用、开源、免费三大特点火爆全球,成为史上最快突破3000万日活跃用户的APP,如今当下各行各业都在被DeepSeek化。就是这样一家公司,在爆火之前,外界知之甚少,它极少出现在媒体报道、猎头招聘、同行调研之中,也从未像“AI六小龙”那样激起过市场的水花。但无论如何,DeepSeek打破巨头了在AI领域的叙事,现在投资人们迫切希望在下一个DeepSeek出现之�

  • 广告盯上DeepSeek

    AI搜索加广告,是必然吗?定焦One原创作者|王璐编辑|魏佳DeepSeek们最近因为答案中疑似“夹带”广告被骂了。起因是科普博主“三个老爸实验室”称在腾讯元宝接入的DeepSeek里发现,生成答案中有“建议通过58到家等正规平台比价预约”“建议通过快回收平台或本地正规回收商询价”等广告倾向性内容。需要提醒大家的是,即便有没有广告,AI的回答也不是绝对客观中立。

  • DeepSeek们的成本,是怎么计算的?

    DeepSeek彻底让全球都坐不住了。马斯克携“地球上最聪明的AI”——Gork3在直播中亮相,自称其“推理能力超越目前所有已知模型”,在推理-测试时间得分上,也好于DeepSeekR1、OpenAIo1。大模型的降本速度还会越来越快。

  • 国产显卡动作神速!摩尔线程全面支持DeepSeek开源成果

    日前摩尔线程宣布,随着DeepSeek开源周收官,摩尔线程在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe以及Fire-Flyer文件系统。摩尔线程表示,这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

  • 我已确诊为“DeepSeek人格”:勿扰

    可能是AGI迟迟不来、等待“AI更像人/超越人”太辛苦。也或许是“AI代替人类劳动力”的预言太惊悚,吓到了人类。”说到底,AGI还没达到,终究是人被异化了。

热文

  • 3 天
  • 7天