首页 > 业界 > 关键词  > DeepSeek最新资讯  > 正文

DeepSeek代码开源周收官,世界已经变了

2025-03-01 12:47 · 稿源: TechWeb.com.cn

3月1日消息,AI公司DeepSeek为期五天的 “代码开源周” 告一段落。

本周一至周五,DeepSeek以每日不定时一更的频率,开源多个代码库,涵盖FlashMLA、DeepEP通信库、DeepGEMM、并行优化策略、并行文件系统3FS。

DeepSeek认为:通用人工智能(AGI)不存在“高高在上的象牙塔”,而是秉持车库创业精神,与社区共同构建创新力量。

五天的代码开源,展示了DeepSeek在优化大模型训练、推理、通信以及文件系统方面的技术创新与突破。这些开源项目不仅提升了AI模型的性能和效率,也为AI领域的研究者和开发者提供了宝贵的资源和工具。

从模型开源,到代码开源,DeepSeek凭一己之力,重塑了大模型世界。

英伟达跌落神坛

在这一周里,AI大模型火起来至今的最大赢家(赚钱最多)英伟达发布了最新财报。但是股价已经连跌多日,从130多美元跌到120美元左右。

英伟达2025财年第四季度营收同比增长78%,较此前连续五个季度三位数增长的态势显著放缓,且同比增速为近两年来最低水平。2024财年第四季度曾达到265%的峰值‌。

分析师们在分析英伟达营收增速放缓的原因时认为一方面是微软、Meta等核心客户同步研发自研芯片以减少对英伟达的依赖;一方面是‌DeepSeek-R1低成本AI模型降低算力需求,部分削弱市场对英伟达高端芯片的依赖‌。

当日,英伟达股价大跌8.5%,市值蒸发2740亿美元。

一个月前,DeepSeek发布的低成本、高性能开源推理模型R1引发市场震动,英伟达股价一度暴跌近17%。

尽管英伟达CEO黄仁勋强调,DeepSeek的开源工具和低成本模型虽然对行业产生了冲击,但英伟达通过软硬件协同优化,依然保持了在AI芯片领域的领先地位。

但是也未能阻止投资者对其业绩增速放缓、毛利率下降及中国AI公司DeepSeek的影响的担忧。

被改变的还有同行。

OpenAI最新大模型GPT-4.5被槽太贵

闭源大模型no1的OpenAI在周五发布了最新的最强大模型GPT-4.5,当然也是最贵的。

GPT-4.5是OpenAI史上参数规模最大的模型,其计算量是上一代的10倍。GPT-4.5的API价格为每百万Tokens 75美元,相较上一代GPT-4o的2.5美元上涨30倍。

GPT-4.5不是一个专注于推理的模型,GPT-4.5并不能完全替代GPT-4o,在基准测试中它的某些能力低于o1、o3-mini。

这款被网友吐槽“贵得要死”的大模型,并没能如OpenAI此前的历届旗舰大模型发布时一样引发好评热议如潮。现在,更多人会用DeepSeek来酸它:有免费好用的DeepSeek开源可用,给我一个花这么多钱用你的理由?

附上DeepSeek代码开源周内容:

2月24日:Flash MLA开源

(详情: https://www.techweb.com.cn/it/2025-02-24/2957370.shtml)

‌开源内容‌:DeepSeek开源了Flash MLA,这是一个针对英伟达Hopper GPU优化的高效MLA(Multi-head Latent Attention,多头潜注意力)解码内核。

‌核心特性‌:特别针对可变长度序列进行优化,使用基准为Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平台上,内存受限配置下可达最高3000GB/s,计算受限配置下可达峰值580 TFLOPS。

‌技术亮点‌:FlashMLA的设计参考了FlashAttention 23以及CUTLASS的技术实现,通过KV压缩与潜在变量、低秩降维技术、动态序列处理等优化,显著减少了大模型训练和推理过程中的内存占用。

2月25日:DeepEP通信库开源

(详情:https://www.techweb.com.cn/it/2025-02-25/2957421.shtml)

‌开源内容‌:DeepSeek开源了DeepEP,这是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库。

‌核心特性‌:为所有GPU内核提供高吞吐量和低延迟,支持低精度操作(包括FP8)。针对NVLink到RDMA的非对称带宽转发场景进行深度优化,提供高吞吐量,并支持SM数量控制。

‌技术亮点‌:对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。同时,引入了一种基于钩子的通信计算重叠方法,不占用任何SM资源。

2月26日:DeepGEMM代码库开源

‌(详情:https://www.techweb.com.cn/it/2025-02-26/2957487.shtml)

开源内容‌:DeepSeek开源了DeepGEMM代码库,专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计。

‌核心特性‌:同时支持普通的和专家混合(MoE)分组的GEMM运算,为V3/R1训练和推理提供动力支持。使用CUDA编写,无需编译,通过轻量级即时编译模块在运行时编译所有内核。

‌技术亮点‌:DeepGEMM设计简洁,代码量约为300行,但性能在各种矩阵形状上与专家调优的库相匹配或超越。在H800上测试,计算性能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。

2月27日:并行优化策略开源

(详情:https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml)

开源内容‌:DeepSeek开源了三项并行优化策略,包括DualPipe、EPLB和Profile-data。

DualPipe‌:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法,显著减少管道气泡(空闲时间)。

EPLB‌:一个针对V3/R1的专家并行负载均衡工具,根据估计的专家负载计算平衡的专家复制和放置计划。

Profile-data‌:DeepSeek基础设施中的数据分析,包括来自训练和推理框架的性能剖析数据,旨在帮助社区更深入地理解通信与计算重叠策略及相关底层实现细节。

2月28日:3FS文件系统开源

‌(详情:https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml)

开源内容‌:DeepSeek开源了Fire-Flyer文件系统(3FS),一个高性能并行文件系统。

‌核心特性‌:应对AI训练和推理工作负载的挑战,利用现代SSD和RDMA网络提供共享存储层,简化分布式应用程序的开发。在由180个存储节点组成的大型测试集群上,总读取吞吐量达到约6.6个TIB/S。

‌技术亮点‌:3FS的主要功能和优势包括性能和可用性、强一致性、文件接口开发、多样化的工作负载(如数据准备、数据加载器、检查点、用于推理的KVCache)等。

举报

  • 相关推荐
  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • DeepSeek红利耗尽后,元宝拿什么和豆包斗?

    短短60天内,中国AI原生应用下载排行榜的位次排名,就三易其主。最新情况是,截至4月15日中午,中国区苹果应用商店免费APP下载排行榜上,豆包再次超越DeepSeek,位列第二,紧随其后的DeepSeek被挤到了第三的位置,腾讯元宝则滑落到了第七名。2月13日,作为首家在C端主力产品中接入DeepSeek-R1满血版的元宝,一度趁着DeepSeek东风崛起:3月3日力压DeepSeek和豆包,首度登顶。但好景�

  • DeepSeek的极致谄媚,正在摧毁我们的判断力。

    昨天别人给我发了一个很好玩的帖子。就是如果你问DeepSeek一个问题:“北京大学和清华大学哪个更好,二选一,不需要说明理由”DeepSeek在思考了15秒之后,会给出答案。

  • AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

    “昔者仓颉作书天雨粟,鬼夜哭”——人类掌握文字后,天地为之动容,因为属于人类的文明诞生了。“仓颉作书”出自西汉《淮南子》,距离人类掌握文字已经过去了千年。AI进化的答案,或许早就镌刻在人类文明的起点里。

  • 深度deepin 23.1正式发布!AI默认引擎切换至DeepSeek、修复超百项问题

    快科技4月16日消息,今天,深度操作系统宣布,deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题,大幅提升新用户安装体验,同时集成多项功能优化与问题修复,进一步优化系统使用。本次版本的重点改进包括内核优化、AI 默认引擎切换至DeepSeek、修复超百项用户反馈问题等,具体重点改进如下:硬件兼容性与内核优化:集成6.6/6.12内核更新、NVIDIA显卡驱动升级、Intel/AMD CPU微码更新,全面提升硬件支持与底层性能;核心功能增强:DDE新增智能镜像源管理、紧凑模式入口,全局搜索支持离线自然语言与AI处理能力;?

  • DeepSeek领航大模型普惠化浪潮,xAI/微美全息加速开源AI布局打造新格局

    DeepSeek 作为当前最受关注的大模型之一,凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示,DeepSeek已经成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前,DeepSeek市场份额6.58%,仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品,它的市场份额从2.34%快速增长至6.58%,展现出强劲的增长态势。全球著名�

  • 国羽加油口号是DeepSeek想的 网友:这个口号好厉害

    中国羽毛球队在2025年苏迪曼杯首轮比赛中5-0战胜阿尔及利亚队,赛前全队高喊"羽啸鼓浪巅,中国剑指天!"的霸气口号。这句由DeepSeek团队借助科技力量创作的口号,既体现了羽毛球运动精神,又展现了队员们的昂扬斗志。口号成为国羽标志性语言,激励队员为国争光。此次合作彰显科技与体育的完美结合,也体现了DeepSeek对体育事业的支持。未来期待DeepSeek继续发挥创意技术优势,为更多体育赛事提供支持,共同推动中国体育事业发展。

  • 奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。

热文

  • 3 天
  • 7天