DeepSeek推出NSA：快速进行长上下文训练和推理

2025-02-18 19:30 · 稿源：快科技

创新稀疏注意力机制NSA问世，为长上下文处理提速

DeepSeek团队发布最新论文，推出了Native Sparse Attention (NSA)机制。NSA是一种创新的稀疏注意力机制，旨在与现代硬件高度协同，支持本机训练，大幅提升长上下文训练和推理速度。

NSA通过优化硬件特性进行设计，有效提升推理效率，降低预训练成本，同时保持模型性能不减。

官方测试表明，NSA在通用基准、长上下文任务和指令推理中表现优异，与全注意力模型相比毫不逊色。

DeepSeek设计了一种分层稀疏策略，将注意力划分为压缩、选择和滑动窗口三个分支，以同时捕捉全局上下文和局部细微信息。

NSA不仅实现了稀疏注意力的算法建模，还通过硬件对齐优化了内存访问和计算调度，大幅减少了处理长文本时的计算延迟和资源消耗。

论文地址：https://arxiv.org/pdf/2502.11089v1

（举报）

相关推荐

关键词：

你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

GEO指数是AI搜索时代的品牌可见度衡量指标，量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同，GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示，高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明，企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控，把握AI搜索新机遇。

GEO指数 AI搜索品牌能见度
DeepSeek崩了上热搜页面显示“服务器繁忙”

截至2025年11月3日，大量用户在微博话题#DeepSeek崩了#下集中反馈，DeepSeek平台出现服务异常状况，引发广泛关注。综合各方信息，此次故障呈现多方面表现，对用户使用造成显著影响。众多用户表示遭遇服务全面中断问题，在尝试使用平台

DeepSeek故障服务器异常服务中断
品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

随着AI搜索普及，传统SEO正被GEO（生成式引擎优化）取代。GEO核心是提升品牌在AI生成答案中的可见度，而非获取点击流量。数据显示超60%用户已使用AI搜索，若品牌未被AI提及将失去流量入口。文章推荐免费工具AIBase，支持多平台一键检测品牌在主流AI助手的曝光排名、竞品对比及可视化报告，并提供内容权威性、语义化表达等GEO优化策略，帮助品牌在AI时代建立竞争优势。
百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

10月28日，百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测（MTP）技术代码。该技术通过批量生成和集中验证机制，使模型解码吞吐量提升超2倍，突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配，并经过百度内部业务验证，开发者可"开箱即用"获得稳定可靠的推理加速能力。

百度智能云 DeepSeek-V3.2 MTP技术
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
【火柴AI必看】如何利用FB高效找客户：实战攻略全解析

本文介绍在Facebook高效寻找客户的五大策略：明确目标客户画像，优化账号资料与内容，精准投放广告，积极互动建立关系，提供优质服务促成合作。强调持续优化策略才能在激烈市场中脱颖而出，助力业务拓展。

Facebook营销目标客户分析社交平台优化
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
低代码赋能：中小企业信息化建设的高效破局之道

在数字经济加速渗透的背景下，中小企业面临前所未有的转型压力与机遇。传统信息化建设模式因定制周期长、成本高、依赖专业团队，使企业难以快速响应市场变化。如今，低代码平台以“标准功能+低代码拓展”的组合，通过可视化配置和拖拽组件，帮助企业灵活搭建覆盖项目管理、库存管理、合同管理及预算管理等系统，显著降低技术门槛与成本。这种模式不仅满足基础需求，更以高效、低成本优势成为数字化转型的核心驱动力，助力中小企业在竞争中脱颖而出。

数字经济中小企业转型信息化系统
想象力智能中高考等教育品牌分析

文章聚焦高考冲刺阶段家长如何选择提分产品。市面教育产品良莠不齐，存在师资模糊、错题多、服务差等问题。想象力智能中高考通过三大优势脱颖而出：1.名师团队与智能系统深度融合，精准定位薄弱点；2.动态迭代课程内容，紧跟考情变化；3.构建“测-学-练-固-汇”闭环服务体系，配备专属学管师。与速学霸、考试大师等产品形成鲜明对比，为考生提供真正高效可靠的提分方案。

中高考冲刺提分产品教育产品
解锁需求密码，一品威客开启创意交易高效新时代

在数字经济浪潮中，中小微企业成为创意服务需求主力军，但常因需求表达模糊导致对接效率低下。一品威客平台通过AI助手破解这一痛点：将抽象需求转化为专业描述，实现供需精准匹配。AI助手通过多轮对话梳理需求细节，结合庞大数据库推荐合适服务商，显著提升项目对接效率。实践案例显示，借助AI赋能，企业发布需求到敲定合作时间大幅缩短，交付成果更符合预期。该模式重构了创意交易信任链，推动行业向高效、精准的智能化生态升级。

数字经济中小微企业创意服务

今日大家都在搜的词：

热文

3 天
7天

DeepSeek推出NSA：快速进行长上下文训练和推理

你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

DeepSeek崩了上热搜页面显示“服务器繁忙”

品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

【火柴AI必看】如何利用FB高效找客户：实战攻略全解析

DeepSeek开源3B OCR模型：长文本识别达97%精度

低代码赋能：中小企业信息化建设的高效破局之道

想象力智能中高考等教育品牌分析

解锁需求密码，一品威客开启创意交易高效新时代

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

OPPO Reno15系列官宣11月10日发布

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

特斯拉股东批准马斯克万亿美元薪酬包

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

华为Mate70 Air官宣今日开启预售

站长商机