首页 > AI头条  > 正文

DeepSeek下一代技术获ACL2025最佳论文奖,长文本处理效率提升11倍!

2025-07-31 09:16 · 来源: AIbase基地

在刚刚结束的 ACL2025颁奖典礼上,由 DeepSeek 的梁文锋博士作为通讯作者,与北京大学等机构联合发表的研究论文荣获最佳论文奖。这次会议规模空前,投稿数量几乎翻倍,达到了8360篇,竞争之激烈可见一斑。

该论文提出了一种名为原生稀疏注意力(NSA)的新机制,能在算法与硬件的协同优化下,将长文本的处理速度提升至惊人的11倍。而更为振奋的是,这项技术的性能不仅提升,反而超越了传统的全注意力模型。通过这项技术,研究团队成功将上下文长度扩展到了惊人的100万 tokens,这为未来的前沿模型奠定了基础。

image.png

NSA 机制的核心在于通过动态分层的稀疏策略,结合三条并行的注意力分支,有效捕捉文本中的重要信息。首先是 “压缩注意力”,负责提炼全局信息;其次是 “选择性注意力”,聚焦于重要的词块;最后是 “滑动注意力”,确保局部上下文的完整性。这种设计不仅让模型更为灵活,同时在现代 GPU 硬件上进行了深度优化,实现了原生可训练模式。

image.png

在测试中,NSA 在处理64k 长度的文本时,解码阶段速度提升了11.6倍,前向传播和反向传播速度分别提升了9倍和6倍。更重要的是,NSA 在各种基准测试中表现优异,27B 参数的模型在9个评测指标中有7个超越了全注意力基线,特别是在多跳问答和代码理解等复杂任务中展现了明显的优势。

image.png

这项研究为长文本处理开辟了新的可能性,真正实现了速度与精度的双赢,证明了 NSA 机制在 AI 领域的广泛应用前景。

论文地址:https://arxiv.org/pdf/2502.11089

  • 相关推荐
  • 谁在往“DeepSeek们”的回答里塞广告?

    AI正在重塑现代职场与当代生活。如果说在过去,人们遇到问题往往会首选“搜一下”,如今,则变为“问问AI”。或许是ChatGPT和DeepSeek,也可能是豆包和元宝…… 从数据来看,头豹研究院数据显示,全球AI搜索的用户量从2024年1月的3.1亿增长至2025年2月份的19.8亿,增长率达538.7%。 而当AI在日常工作和生活中越来越成为不可或缺的工具,变化正悄然发生。当DeepSeek的回答里频繁�

  • 智能体迎来“DeepSeek时刻”,为何主角是纳米AI?

    大模型重塑了人工智能的产业格局,但却没有彻底颠覆人类的生产模式。 在这背后,并非其技术力量不足,而是当前的应用形态仍停留在“工具赋能”的初级阶段,大模型的潜力被束缚在碎片化场景中,未能转化为重构生产逻辑的核心动能。 正如360集团创始人、董事长周鸿祎所言,大模型的能力其实已经相当强大,甚至超越了我们中的许多人。只是其潜力尚未被挖掘。 而�

  • 网易MuMu模拟器亮相 2025 ChinaJoy:技术革新赋能全平台手游生态

    2025年8月,网易MuMu模拟器5.0版本在ChinaJoy展会亮相,成为首个支持Windows、Windows ARM和macOS的全平台安卓模拟器。该版本通过ARM架构深度适配等核心技术,实现"不挑设备、秒开秒用"的流畅体验,可运行超220万款手游。MuMu 5.0同步推出海外版,支持多语言切换,助力网易游戏全球化布局。在高通展区,MuMu展示了基于ARM架构的移动应用解决方案,解决Windows ARM设备运行安卓模拟器的需求。现场玩家可通过搭载骁龙芯片的电脑体验《蛋仔派对》等热门手游的PC端极致表现。此次升级标志着MuMu从工具向跨端智能枢纽的转型,重新定义"无界交互"的游戏体验边界。

  • Custouch市场易AI技术入选Topdigital2025全球AI营销图谱

    《TopDigital2025全球AI营销图谱》近日发布,Custouch市场易入选"内容智能生成"板块。该图谱为AI技术重构营销提供全链路产业地图,整合企业官网、学术报告、专利库等多维度信息。Custouch凭借AI技术在B2B营销领域的创新应用入选,其智能解决方案能有效满足企业实际需求。作为数字营销技术服务商,Custouch已为300+国际头部企业提供一站式营销管理体系,涵盖内容、活动、线索等全流程,助力企业实现高质量增长。此次入选既是对其AI成果的肯定,也是对其未来发展的激励。

  • 中国女子买下日本70万平方小岛上热搜:考虑留给下一代 欢迎大家来玩

    2023年初,30岁青岛女子在日本买下70万平方米小岛”的视频引发关注,而现在这个小岛情况怎么样了呢? 据国内媒体报道称,当事女孩张书卿是一位地地道道的青岛姑娘,自幼在海边长大,与家人于2020年12月买下了日本冲绳最大的无人岛屋那霸岛,并在2021年2月2日完成全部交接。 张书卿接受记者采访称,目前小岛暂无明确的开发计划,孩子越来越大,也考虑留给下一代。目�

  • 2025东莞台博会9月11日举办,向全国采购商发出邀请函

    2025年第16届东莞台湾名品博览会将于9月11-14日在广东现代国际展览中心举行,展区面积3.2万平方米,预计超500家台企参展。作为全国规模最大的两岸经贸盛会之一,2024年展会吸引42.3万人次参观,达成采购意向36.1亿元。本届展会聚焦电子信息产业,设立海峡两岸电子产业合作专区,重点展示人工智能、半导体、物联网等前沿科技,电子信息类展商占比超70%。同时新增"亚洲台商主题馆",吸引印度、马来西亚等10余家海外台企参展,并设立22个台湾县市形象馆及大陆省市展区。展会期间将举办产业对接会、新品发布会等活动,促进两岸经贸合作与产业升级。

  • 微星引爆2025 ChinaJoy!硬核装备集结,游戏盛宴邀你开战!

    2025 ChinaJoy上,微星科技联合多家品牌掀起硬件风暴:TCL展台汪东城cos登场,展示MAG 346CQ显示器;世纪华通展区带来海皇戟RS主机;抖音商城舞台呈现AI视觉盛宴。微星推出白色主题豪华装备礼包,包括MPG VELOX 300R机箱、MAG水冷等新品。重磅发布MAG 275QPF X30电竞显示器(2K/300Hz)和未来感十足的MEG VISION X AI主机。阿加斯特展区则通过匠心组装展示微星主板、电源等核心硬件协同作战的澎湃性能。微星以尖端硬件和沉浸体验为玩家打造硬核游戏乐园。

  • 聚焦大模型训练效率提升 北大依托昇腾突破细粒度混合并行技术

    北京大学崔斌教授团队在鹏城实验室支持下,研发了面向大模型的高效分布式训练框架。该框架通过统一训练接口、细粒度模型切分与并行策略搜索算法,解决了训练任务多样性和负载不均问题,实现训练效率提升15%。同时利用昇腾计算资源管理能力,优化硬件通信效率,通过计算通信重叠技术提升流水线效率。研究成果已在NeurIPS等顶会发表3篇论文,展现了国产算力在分布式计算领域的潜力,为AI产业自主化突破提供支撑。

  • 如何找到最佳AI工具?2025年最全AI工具导航平台指南

    本文介绍了AI工具导航平台的价值与功能。随着AI技术快速发展,各类AI工具已渗透到工作和生活的各个领域,但如何在海量工具中选择合适的成为新挑战。专业的AI导航平台通过分类整理、功能介绍、用户评价等,帮助用户快速定位所需工具。优秀平台应具备:丰富的工具资源库、精准分类导航、详细功能介绍、真实用户反馈、严格质量审核机制和持续更新维护。未来,这类平

  • 腾讯云获评“2025年全球游戏云平台领导者”,成为国内唯一入选领导者象限云厂商

    Omdia最新报告显示,腾讯云凭借前沿技术实力和市场领导力,首次在全球游戏云平台评估中获评"领导者"。报告指出,腾讯云在游戏服务器、多人游戏服务和AI机器学习三大核心能力上表现突出,覆盖全球21个区域的58个可用区,为游戏厂商提供低延迟、高扩展性服务。其游戏安全解决方案ACE利用AI技术检测作弊行为,支持18种语言内容审核。同时,腾讯云通过混元大模型为开发者提供AI创作工具,助力游戏美术资产生成和NPC行为训练。目前腾讯云已服务全球数百款游戏,为开发者提供从基础设施到AI工具的全生命周期服务。

今日大家都在搜的词:

热文

  • 3 天
  • 7天