首页 > AI头条  > 正文

大模型长文推理迎来“核弹级”提速!清华APBB框架狂飙10倍,Flash Attention直接被秒

2025-03-13 09:50 · 来源: AIbase基地

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架,直接给大模型装上“涡轮增压”引擎!实测显示,这项黑科技在处理超长文本时,速度竟比肩 Flash Attention 快10倍!没错,你没听错,是10倍!

image.png

要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“超级扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。

为了解决这个“卡脖子”难题,清华大学的科学家们联合多家研究机构和科技巨头,另辟蹊径,推出了 APB 框架。这套框架的核心奥秘在于“ 序列并行+稀疏注意力 ”的巧妙结合。

image.png

简单来说,APB 框架就像一个高效的“协同作战”团队。它将长文本“肢解”成小块,分配给多个 GPU “队员”并行处理。更绝的是,APB 还给每个 “队员” 配备了 “ 局部 KV 缓存压缩 ” 和 “ 精简通信 ” 技能,让它们在处理各自任务的同时,还能高效共享关键信息,协同解决长文本中的复杂语义依赖问题。

更令人惊喜的是,APB 框架并非以牺牲性能为代价换取速度。相反,在128K 超长文本测试中,APB 不仅速度狂飙,性能更是 超越 传统 Flash Attention!甚至连英伟达力推的 Star Attention 也被 APB 斩落马下,速度提升1.6倍,堪称“全能ACE”。

这项突破性技术,最直接的应用就是大幅缩短大模型处理长文本请求的 首 token 响应时间 。这意味着,未来搭载 APB 框架的大模型,在面对用户 “洋洋洒洒” 的长篇指令时,能够 瞬间理解,秒速响应 ,彻底告别“加载中…”的漫长等待。

image.png

那么,APB 框架究竟是如何做到如此“逆天”的提速效果呢?

原来,APB 框架深谙长文本处理的“痛点”—— 计算量 。传统注意力机制的计算量与文本长度的平方成正比,长文本就是计算的“黑洞”。 为了突破这个瓶颈,APB 框架祭出两大 “神招”:

第一招:提升并行度,让“众人拾柴火焰高”

APB 框架充分利用分布式计算的优势,将计算任务分散到多个 GPU 上,就像 “多人协同” 一样,效率自然倍增。尤其是在序列并行方面,APB 框架展现出极强的扩展性,不受模型结构限制,文本再长也能轻松应对。

第二招:减少无效计算,让“好钢用在刀刃上”

APB 框架引入 稀疏注意力机制 ,并非 “眉毛胡子一把抓”,而是 “选择性” 计算注意力。它就像一位 “火眼金睛” 的专家,只关注文本中的关键信息,忽略无关紧要的部分,从而大幅减少计算量。

然而, “并行” 和 “稀疏” 这两招看似简单,实则 “暗藏玄机”。 如何在序列并行框架下,实现高效的稀疏注意力计算?这才是 APB 框架真正的 “硬核” 所在。

要知道,在序列并行环境中,每个 GPU 只掌握部分文本信息,想要实现 “全局感知” 的稀疏注意力,就如同 “盲人摸象”,难度可想而知。此前的 Star Attention 和 APE 等方法,要么牺牲性能,要么适用场景受限,都未能完美解决这个问题。

而 APB 框架则巧妙地避开了 “大规模通信” 这个 “坑”,另辟蹊径,构建了一套 面向序列并行场景的低通信稀疏注意力机制 。 这套机制的核心组件包括:

更小巧的 Anchor block (锚点块): Anchor block 就像一个 “导航仪”,引导注意力机制聚焦关键信息。APB 框架创新性地缩小了 Anchor block 的尺寸,使其更轻巧灵活,降低了计算开销。

独创 Passing block (传递块): Passing block 是 APB 框架的 “灵魂” 组件,它巧妙地解决了长距离语义依赖难题。通过将前序 GPU 处理的关键信息 “压缩打包”,传递给后续 GPU,让每个 “队员” 都能 “纵览全局”,理解长文本的 “上下文” 语境。

查询感知的上下文压缩: APB 框架还引入了 “查询感知” 机制,让上下文压缩器能够 “理解问题”,更精准地筛选和保留与查询相关的关键信息,进一步提升效率和准确性。

基于以上 “独门绝技”,APB 框架构建了一套行云流水的推理流程:

上下文分割: 将长文本均匀分配给各个 GPU,并在开头拼接 Anchor block, “埋入” 查询问题。

上下文压缩: 利用 Locret 引入的保留头,对 KV 缓存进行 “智能压缩”。

高效通信: 通过 AllGather 算子,将压缩后的 KV 缓存 “传递” 给后续 GPU,构建 Passing block。

极速计算: 使用特制的 Flash Attention Kernel,配合优化的注意力掩码,进行高效计算。Passing block 在计算完成后 “功成身退”,不参与后续计算。

实验结果雄辩地证明了 APB 框架的卓越性能。在 Llama-3.1-8B-instruct, Qwen-2.5-14B-instruct 以及 Yi-34B-200K 等多个模型和 InfiniteBench、RULER 等多个benchmark 上的测试中,APB 框架均 力压群雄 ,在性能和速度之间取得了 最佳平衡 。

尤其值得一提的是,随着文本长度的增加,APB 框架的 速度优势 愈发明显,真正实现了 “越长越快” 的奇效。 这背后的奥秘在于,APB 框架的计算量远低于其他方法,且差距随着文本长度增加而扩大。

更深入的预填充时间拆解分析显示,序列并行技术本身就能显著缩减注意力和 FFN (前馈神经网络)的计算时间。而 APB 框架的稀疏注意力机制,则进一步将注意力计算时间压缩到极致。 与 Star Attention 相比,APB 框架巧妙地利用 Passing block 传递远距离语义依赖,大幅缩小了 Anchor block 的尺寸,有效降低了 FFN 的额外开销,实现了 “鱼与熊掌兼得” 的完美效果。

更令人振奋的是,APB 框架展现出 卓越的兼容性 ,能够灵活适应不同的分布式环境和模型规模,在各种 “严苛” 条件下都能保持 “稳如磐石” 的高性能和高效率。

可以预见,随着 APB 框架的问世,大模型长文本推理的 “瓶颈” 将被彻底打破,AI 应用的想象空间也将被无限拓展。 未来,无论是智能客服、金融分析,还是科研探索、内容创作,我们都将迎来一个 “更快、更强、更智能” 的 AI 新时代!

项目地址:https://github.com/thunlp/APB

论文地址:https://arxiv.org/pdf/2502.12085

  • 相关推荐
  • 凯迪拉克VISTIQ亚洲首秀,搭载Momenta飞轮大模型定义豪华纯电智能出行

    4月23日,凯迪拉克在上海举办"心驰·电掣"发布会,推出亚洲首秀的VISTIQ车型。该车与Momenta深度合作,采用行业首个量产飞轮大模型技术,实现L2全场景城区辅助驾驶功能,提供"有路就能开,有位就能停"的智能体验。凯迪拉克强调不应通过堆砌硬件实现智能化,而需技术创新与用户体验并重。此次合作展现了凯迪拉克拥抱智能化的决心,也彰显了Momenta在自动驾驶领域的技术领先地位。双方将共同推动豪华纯电出行的智能化升级。

  • Windows Arm64 托管运行器正式支持 GitHub Actions,加速开发流程

    Arm与GitHub深化合作,为Arm平台开发者提供更高效的开发体验。

  • GMSwap上线在即,Statter生态繁荣提速进行时

    在加密行业整体进入深度调整期、全球市场不确定性持续上升的背景下,Statter依然展现出非凡的战略定力与建设节奏,持续推进生态升级。近日,Statter 官方重磅宣布:生态内去中心化交易所(DEX)——GMSwap 即将重磅上线,并全面接入Statter Network!这一标志性事件不仅意味着 Statter 生态在底层基础设施建设上迈出坚实一步,更预示着整个生态系统即将进入一个全新的加速发展�

  • 易鑫宣布年内推出汽车金融行业首个Agentic大模型

    4 月15日,易鑫(02858.HK)在香港举行的“2 025 世界互联网大会亚太峰会”上宣布,将于年内推出汽车金融行业首个Agentic大模型。该模型通过自主决策智能体深度结合汽车金融场景需求,有望从根本上解决行业中长期存在的效率瓶颈和痛点。易鑫首席AI科学家、高级副总裁张磊现场演讲易鑫首席AI科学家、高级副总裁张磊在大会“人工智能大模型论坛”做主题演讲时,发布了这�

  • 李想AI Talk第二季来了:理想VLA司机大模型是从动物到人类的进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。

  • 还记得虐心游戏《Flappy Bird》吗:10年后重返安卓平台

    快科技5月1日消息,不知道还有多少人记得多年前的一款魔性扎心小游戏《Flappy Bird》,这款游戏在十年后终于重返安卓平台。这款经典游戏于2013年由越南开发者Dong Nguyen推出,凭借简单却极具挑战性的玩法迅速走红,登顶Google Play和App Store的排行榜,并获得了超过5000万次的下载量。不过该游戏在2014年2月被开发者下架,原因是开发者称游戏的成功毁了他的生活”,尽管当时他每天能从游戏中获得约5万美元的收入。此后,《Flappy Bird》的商标在2024年被Gametech Holdings获得,还出现了一个名为The Flappy Bird Foundation”的非官方重

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

    DeepSeek发布数学推理模型DeepSeek-Prover-V2,包含7B和671B两个参数版本。该模型采用"递归+强化学习"训练方法,在MiniF2F测试集上达到88.9%通过率,解决了PutnamBench中的49道题目。关键技术包括:1) 使用DeepSeek-V3分解复杂定理生成子目标;2) GRPO算法从多个候选方案中自动学习最优解;3) 通过思维链整合非形式化推理与形式化证明。模型在AIME竞赛题和教科书题目上也表现优异,7B小模型意外在部分问题上超越大模型。论文指出该方法为通向AGI提供了正确路径,未来将扩展至IMO级别数学难题。

  • 10倍精度升级!腾讯混元3D模型v2.5版本发布

    腾讯混元3D模型升级至v2.5版本,建模精度和贴图真实度显著提升。新版本参数体量从1B增至10B,有效面片数增加超10倍,支持1024几何分辨率。纹理系统支持4K高清贴图和凹凸细节,率先支持多视图生成PBR模型。针对动画场景优化骨骼蒙皮系统,支持非标准姿态自动绑定。新增文生/图生3D减面模型、多视图建模模板等专业工作流。混元3D v2.5已全面更新至腾讯AI创作引擎,免费生成额度提升至每日20次,并正式上线腾讯云API面向企业开放。GitHub开源版本累计Star超1.2万。

今日大家都在搜的词: