首页 > 业界 > 关键词  > DeepSeek最新资讯  > 正文

DeepSeek推出NSA:快速进行长上下文训练和推理

2025-02-18 19:30 · 稿源: 快科技

创新稀疏注意力机制NSA问世,为长上下文处理提速

DeepSeek团队发布最新论文,推出了Native Sparse Attention (NSA)机制。NSA是一种创新的稀疏注意力机制,旨在与现代硬件高度协同,支持本机训练,大幅提升长上下文训练和推理速度。

NSA通过优化硬件特性进行设计,有效提升推理效率,降低预训练成本,同时保持模型性能不减。

官方测试表明,NSA在通用基准、长上下文任务和指令推理中表现优异,与全注意力模型相比毫不逊色。

DeepSeek设计了一种分层稀疏策略,将注意力划分为压缩、选择和滑动窗口三个分支,以同时捕捉全局上下文和局部细微信息。

NSA不仅实现了稀疏注意力的算法建模,还通过硬件对齐优化了内存访问和计算调度,大幅减少了处理长文本时的计算延迟和资源消耗。

论文地址:https://arxiv.org/pdf/2502.11089v1

举报

  • 相关推荐
  • DeepSeek后更大的机遇:AI端侧推理创新 | 智在终端

    每年开春的“新机潮”,今年出尽风头的是DeepSeek。几乎所有主流消费终端厂都在短时间内完成DeepSeek的接入。至少终端侧的智能新可能,已经在2025,初现曙光。

  • 寻找DeepSeek梁文锋

    AI大模型DeepSeek凭借好用、开源、免费三大特点火爆全球,成为史上最快突破3000万日活跃用户的APP,如今当下各行各业都在被DeepSeek化。就是这样一家公司,在爆火之前,外界知之甚少,它极少出现在媒体报道、猎头招聘、同行调研之中,也从未像“AI六小龙”那样激起过市场的水花。但无论如何,DeepSeek打破巨头了在AI领域的叙事,现在投资人们迫切希望在下一个DeepSeek出现之�

  • 广告盯上DeepSeek

    AI搜索加广告,是必然吗?定焦One原创作者|王璐编辑|魏佳DeepSeek们最近因为答案中疑似“夹带”广告被骂了。起因是科普博主“三个老爸实验室”称在腾讯元宝接入的DeepSeek里发现,生成答案中有“建议通过58到家等正规平台比价预约”“建议通过快回收平台或本地正规回收商询价”等广告倾向性内容。需要提醒大家的是,即便有没有广告,AI的回答也不是绝对客观中立。

  • DeepSeek+AI论文写作系统,帮学生快速拿捏论文初稿!

    凌晨三点还在死磕第8版初稿,咖啡续到第5杯,导师的批注依然满屏飘红——“逻辑断裂”“核心议题模糊”“文献关联性不足”……这场景是不是过于熟悉?更窒息的是,6月份答辩的DDL正在以肉眼可见的速度逼近!眼睁睁地看着还没写完的论文,学生们除了干着急却没有别的办法!别着急,王炸来了!DeepSeekAI论文系统,这两个任选其一都可以帮学生大幅提升论文写作效率!首先是DeepSeek,作为最近炙手可热的国产大模型,结合学术论文提示词即可提升学生们的写作效率!把学生本来写初稿一个月的时间,压缩到一周!注:图片来源于deepseek今天小编就来给大家分享如何用DeepSeek精准提示词7天搞定论文初稿,话不多说,直接上干货!第一步明确研究主题提示词模板:“请帮我探索[具体领域]中尚未被充分研究的热点问题,提供一些可能的研究方向。在人工智能领域,聚焦于自然语言处理技术的应用,列出五个有研究价值的主题,并简要说明理由。如果段落是关于‘人工智能在医疗中的应用’,请润色语言并引用权威文献以增强学术性。

  • 我已确诊为“DeepSeek人格”:勿扰

    可能是AGI迟迟不来、等待“AI更像人/超越人”太辛苦。也或许是“AI代替人类劳动力”的预言太惊悚,吓到了人类。”说到底,AGI还没达到,终究是人被异化了。

  • LG发布韩国首款开源推理AI模型,韩媒声称:数学比Deepseek强!

    18日,LG公开了韩国首个推理型AI大模型——一种像人类一样经过逻辑性和阶段性的思考过程后得出答案的AI模型——它与从已学习的数据中寻找答案的传统模型有所不同。来自中国的Deepseek以低成本、高性能震惊全世界,甚至撼动了“AI先锋”OpenAI的地位。LG计划逐步以B2B的形式扩大服务。

  • DeepSeek第二炸:开源首个用于 MoE 模型训练通信库

    今天是DeepSeek开源周第二日,一早,DeepSeek如约就放出了开源代码库DeepEP王炸。DeepEP是首个用于MoE模型训练和推理的开源EP通信库,它填补了MoE模型专用通信工具的空白,为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。6、深度优化场景针对NVLink到RDMA的非对称带宽转发场景进行专项优化,提升异构网络下的传输性能;此外,它还支持SM数量动态控制,平衡不同任务的吞吐量需求。

  • 人均DeepSeek,自上而下进行时

    席卷全球的「DeepSeek风暴」还在对各行各业进行无差别扫射,打工人的焦虑指数已然爆表。春节假期刚复工,黎阳看到律所的群里接连发来几条有关「AI培训」的信息。每个人都要做好迎接冲击波的准备。

  • 第一本关于DeepSeek的书出现了…

    三言Pro消息DeepSeek在春节期间火爆全网后,三言Pro此前在《第一波利用DeepSeek搞钱的人出现了》中写道,最先用DeepSeek赚到钱的依然是卖课的。一大波草根导师开始售卖DeepSeek课程。若需系统学习,推荐从官方文档和开源社区起步,逐步深入复杂场景非依赖商业化教程。

  • DeepSeek第三弹:开源DeepGEMM!

    今天上午9点,DeepSeek继续履行开源周承诺,发布了开源DeepGEMM。该帖子一经转发,立即引来了2.1万阅读量,足以见其在国内外受到追捧的热度。本次开源属于DeepSeek开源周”的第三项项目,此前已发布FlashMLA和DeepEP。