首页 > 业界 > 关键词  > DeepSeek最新资讯  > 正文

DeepSeek代码开源周收官,世界已经变了

2025-03-01 12:47 · 稿源: TechWeb.com.cn

3月1日消息,AI公司DeepSeek为期五天的 “代码开源周” 告一段落。

本周一至周五,DeepSeek以每日不定时一更的频率,开源多个代码库,涵盖FlashMLA、DeepEP通信库、DeepGEMM、并行优化策略、并行文件系统3FS。

DeepSeek认为:通用人工智能(AGI)不存在“高高在上的象牙塔”,而是秉持车库创业精神,与社区共同构建创新力量。

五天的代码开源,展示了DeepSeek在优化大模型训练、推理、通信以及文件系统方面的技术创新与突破。这些开源项目不仅提升了AI模型的性能和效率,也为AI领域的研究者和开发者提供了宝贵的资源和工具。

从模型开源,到代码开源,DeepSeek凭一己之力,重塑了大模型世界。

英伟达跌落神坛

在这一周里,AI大模型火起来至今的最大赢家(赚钱最多)英伟达发布了最新财报。但是股价已经连跌多日,从130多美元跌到120美元左右。

英伟达2025财年第四季度营收同比增长78%,较此前连续五个季度三位数增长的态势显著放缓,且同比增速为近两年来最低水平。2024财年第四季度曾达到265%的峰值‌。

分析师们在分析英伟达营收增速放缓的原因时认为一方面是微软、Meta等核心客户同步研发自研芯片以减少对英伟达的依赖;一方面是‌DeepSeek-R1低成本AI模型降低算力需求,部分削弱市场对英伟达高端芯片的依赖‌。

当日,英伟达股价大跌8.5%,市值蒸发2740亿美元。

一个月前,DeepSeek发布的低成本、高性能开源推理模型R1引发市场震动,英伟达股价一度暴跌近17%。

尽管英伟达CEO黄仁勋强调,DeepSeek的开源工具和低成本模型虽然对行业产生了冲击,但英伟达通过软硬件协同优化,依然保持了在AI芯片领域的领先地位。

但是也未能阻止投资者对其业绩增速放缓、毛利率下降及中国AI公司DeepSeek的影响的担忧。

被改变的还有同行。

OpenAI最新大模型GPT-4.5被槽太贵

闭源大模型no1的OpenAI在周五发布了最新的最强大模型GPT-4.5,当然也是最贵的。

GPT-4.5是OpenAI史上参数规模最大的模型,其计算量是上一代的10倍。GPT-4.5的API价格为每百万Tokens 75美元,相较上一代GPT-4o的2.5美元上涨30倍。

GPT-4.5不是一个专注于推理的模型,GPT-4.5并不能完全替代GPT-4o,在基准测试中它的某些能力低于o1、o3-mini。

这款被网友吐槽“贵得要死”的大模型,并没能如OpenAI此前的历届旗舰大模型发布时一样引发好评热议如潮。现在,更多人会用DeepSeek来酸它:有免费好用的DeepSeek开源可用,给我一个花这么多钱用你的理由?

附上DeepSeek代码开源周内容:

2月24日:Flash MLA开源

(详情: https://www.techweb.com.cn/it/2025-02-24/2957370.shtml)

‌开源内容‌:DeepSeek开源了Flash MLA,这是一个针对英伟达Hopper GPU优化的高效MLA(Multi-head Latent Attention,多头潜注意力)解码内核。

‌核心特性‌:特别针对可变长度序列进行优化,使用基准为Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平台上,内存受限配置下可达最高3000GB/s,计算受限配置下可达峰值580 TFLOPS。

‌技术亮点‌:FlashMLA的设计参考了FlashAttention 23以及CUTLASS的技术实现,通过KV压缩与潜在变量、低秩降维技术、动态序列处理等优化,显著减少了大模型训练和推理过程中的内存占用。

2月25日:DeepEP通信库开源

(详情:https://www.techweb.com.cn/it/2025-02-25/2957421.shtml)

‌开源内容‌:DeepSeek开源了DeepEP,这是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库。

‌核心特性‌:为所有GPU内核提供高吞吐量和低延迟,支持低精度操作(包括FP8)。针对NVLink到RDMA的非对称带宽转发场景进行深度优化,提供高吞吐量,并支持SM数量控制。

‌技术亮点‌:对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。同时,引入了一种基于钩子的通信计算重叠方法,不占用任何SM资源。

2月26日:DeepGEMM代码库开源

‌(详情:https://www.techweb.com.cn/it/2025-02-26/2957487.shtml)

开源内容‌:DeepSeek开源了DeepGEMM代码库,专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计。

‌核心特性‌:同时支持普通的和专家混合(MoE)分组的GEMM运算,为V3/R1训练和推理提供动力支持。使用CUDA编写,无需编译,通过轻量级即时编译模块在运行时编译所有内核。

‌技术亮点‌:DeepGEMM设计简洁,代码量约为300行,但性能在各种矩阵形状上与专家调优的库相匹配或超越。在H800上测试,计算性能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。

2月27日:并行优化策略开源

(详情:https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml)

开源内容‌:DeepSeek开源了三项并行优化策略,包括DualPipe、EPLB和Profile-data。

DualPipe‌:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法,显著减少管道气泡(空闲时间)。

EPLB‌:一个针对V3/R1的专家并行负载均衡工具,根据估计的专家负载计算平衡的专家复制和放置计划。

Profile-data‌:DeepSeek基础设施中的数据分析,包括来自训练和推理框架的性能剖析数据,旨在帮助社区更深入地理解通信与计算重叠策略及相关底层实现细节。

2月28日:3FS文件系统开源

‌(详情:https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml)

开源内容‌:DeepSeek开源了Fire-Flyer文件系统(3FS),一个高性能并行文件系统。

‌核心特性‌:应对AI训练和推理工作负载的挑战,利用现代SSD和RDMA网络提供共享存储层,简化分布式应用程序的开发。在由180个存储节点组成的大型测试集群上,总读取吞吐量达到约6.6个TIB/S。

‌技术亮点‌:3FS的主要功能和优势包括性能和可用性、强一致性、文件接口开发、多样化的工作负载(如数据准备、数据加载器、检查点、用于推理的KVCache)等。

举报

  • 相关推荐
  • 普适性覆盖人工智能典型场景 寒武纪产品技术优势凸显

    中科寒武纪科技预计2025年全年实现营业收入50亿至70亿元。公司已全面掌握智能芯片及基础系统软件研发核心技术,截至2025年6月30日,累计获授权专利1599项。2025年上半年,公司实现营业收入28.81亿元,同比增长4347.82%,净利润扭亏为盈。寒武纪持续优化智能处理器微架构及指令集,新一代产品将提升编程灵活性、易用性、性能及能效。高盛维持对公司的积极看法,上调12个月目标价至2104元,并调高2030年预期EBITDA及企业价值倍数。

  • 政策引领人工智能教育全面启动,猿力科技人工智能通识课覆盖千校

    国务院推动“人工智能+”行动,北京中小学新学期首次系统开设人工智能通识课程,每学年不少于8课时。猿力科技旗下飞象星球成为重要推动力量,其课程覆盖小学至初中全学段,包含10门课程、160节课,实践导向突出。该课程已服务北京298所学校、9.8万名学生,并推广至全国25个省市超1000所学校,覆盖15万学生,成为国内覆盖最广的人工智能通识课程之一。

  • 深入实施“人工智能+”,伊顿助力皓扬数据打造 AI 算力中心标杆

    近日,备受瞩目的《关于深入实施“人工智能+”行动的意见》正式发布,提出六大行动覆盖科技、产业、全球合作等领域。到2030年,新一代智能终端、智能体等应用普及率超90%,为数字基础设施建设勾勒出了宏大版图。北京皓扬云数据科技有限公司(以下简称:皓扬数据)作为国内 AI 算力中心开拓先锋,以覆盖全国的超大规模交付能力服务于数百家头部企业。两位创始人已在�

  • 迎“人工智能+”政策东风!2025中国智能产业大会&吴文俊人工智能创新大会即将落地常州

    在全球AI竞争加剧背景下,国务院印发《关于深入实施“人工智能+”行动的意见》,推动AI与经济社会深度融合。中国人工智能学会主办的“2025第十四届中国智能产业大会暨吴文俊人工智能创新大会”将于8月30-31日在常州举行,聚焦破解AI产业“卡脖子”难题。大会设置15场专题会议和3场特色活动,覆盖基础技术突破、核心应用落地、交叉学科融合等领域,为产学研各界搭建高

  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • 三旺通信入选大湾区人工智能+重点企业榜单TOP50

    8月27日,三旺通信在2025深圳国际通用人工智能大会上荣登“2025粤港澳大湾区人工智能+重点企业TOP50”榜单。该公司深耕工业互联领域二十余年,凭借在工业通信、边缘计算等领域的技术积累,积极布局AI应用,将人工智能能力融入智能制造、智慧交通等重点场景,推动产业实现更高效、更安全的数字化升级。未来,三旺通信将继续依托深圳及大湾区创新沃土,以开放姿态拥抱AI产业生态,携手产业链上下游共同推动人工智能与工业互联网的深度融合。

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • 美团也开源了大模型,但我觉得他们的野心是通用生活Agent。

    也有线上体验地址:https://longcat.ai 我自己去体验了一下,整体模型能力,中规中矩,但是快,是真的快,能把560B的模型,在推理的时候搞得这么快,是真的有点牛逼的。 我直接录了个屏给大家看一下。 这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度,他俩都是MoE架构,而且总参数量差不太多。 为了更公平的竞争,用了同一个问题,并关闭了联网搜索来避免搜索干扰�

  • 寒武纪:持续研发投入 聚力技术创新

    寒武纪2025年上半年业绩亮眼:总营收28.81亿元,同比增长4347.82%;归母净利润10.38亿元,增长295.82%。业绩增长得益于AI算力需求持续增长,公司凭借AI芯片核心优势,深化与大模型、互联网等领域头部企业技术合作。持续加大研发投入达4.56亿元,研发团队792人占比77.95%,80.18%为硕士及以上学历。新一代智能处理器微架构和指令集正在研发,基础系统软件平台持续优化迭代,训练和推理平台功能增强,支撑大模型预训练和强化学习业务。

  • 北电数智亮相世界人工智能大会,“四链融合”推动AI产业落地

    2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛圆满落幕。论坛聚焦“人才领航智启未来”主题,汇聚中科院、社科院专家及中国联通、腾讯云等机构代表,围绕“人工智能+”行动分享经验,为AI高质量发展筑牢人才根基、激发创新动能。北电数智CMO杨震出席并发表演讲,分享AI行业落地实践,强调紧跟国家战略,推进产业、创新、人才、资本四链融合,打造面向不同场景的AI解决方案,全方位助力AI产业发展。

今日大家都在搜的词: