首页 > 业界 > 关键词  > LLM最新资讯  > 正文

斯坦福博士推加速推理新方法Flash-Decoding 长上下文LLM推理速度提8倍

2023-10-18 09:05 · 稿源:站长之家

要点:

1. FlashAttention团队推出了一种新的方法,Flash-Decoding,用于加速大型Transformer架构的推理,最高可提速8倍,特别适用于长上下文LLM模型。

2. Flash-Decoding的优点在于使用并行操作加载Key和Value缓存,然后重新缩放和合并结果,以显著提高推理速度。

3. 这个方法在CodeLLaMa-34b上进行了基准测试,结果显示Flash-Decoding可以将长序列解码速度提高8倍,同时具有更好的扩展性。

站长之家(ChinaZ.com)10月18日 消息:FlashAttention团队最近推出了一项名为Flash-Decoding的新方法,旨在加速大型Transformer架构的推理过程,特别是在处理长上下文LLM模型时。这项方法已经通过了64k长度的CodeLlama-34B的验证,而且得到了PyTorch官方的认可。

Flash-Decoding的核心思想是通过并行操作来加载Key和Value缓存,然后重新缩放并合并结果,从而实现大幅的推理速度提升。这个方法克服了在处理大型模型时注意力计算带来的性能瓶颈。

image.png

在基准测试中,作者将Flash-Decoding与其他注意力计算方法进行了比较,包括PyTorch原语运行的注意力、FlashAttention v2以及FasterTransformer的注意力内核。结果显示,Flash-Decoding可以将长序列解码速度提高8倍,并且在处理不同序列长度和批处理大小时表现出更好的扩展性。

这一方法的出现为大型Transformer模型的推理过程提供了更高效的解决方案,特别是在处理长上下文模型时,将大幅提高推理速度,有望在未来的大型自然语言处理任务中发挥重要作用。Flash-Decoding的实际使用方法也相对简单,可以根据问题的大小自动选择使用Flash-Decoding或FlashAttention方法。

作者团队中的Tri Dao是FlashAttention的主要作者,他已经加入大模型创业公司Together AI,并将担任普林斯顿大学的助理教授。这个新方法的推出为深度学习领域带来了更多的创新和性能提升。

参考资料:https://princeton-nlp.github.io/flash-decoding/

举报

  • 相关推荐
  • 大规模专家并行推理集群实现性能3跃迁,联通元景开启推理新纪元

    中国联通持续技术攻坚,依托元景大模型MaaS平台成功搭建“大规模专家并行”推理集群,实现DeepSeekMoE大模型在多节点间的超高效集群推理,单卡吞吐提升3倍,解码时延降低50%。这一成果不仅为人工智能技术的创新发展提供了强大助力,也让各行业以更高效率应用AI技术,加速推动千行百业的数字化转型。这一推理创新举措必将助力各行业在复杂多变、竞争激烈的市场环境中抢占先机,以智能化驱动数字化转型,进推动实体经济高质量发展。

  • MCP协议是什么?Model Context Protocol模型上下文详解

    在当今快速发展的AI时代,如何高效地将AI助手与各类数据系统连接起来,成为了一个亟待解决的问题。MCP协议应运生,它是由Anthropic公司提出并开源的一种开放标准协议,通过提供一个统一的开放标准,极大地简化了AI系统与数据源之间的连接,使得AI系统能够更可靠地访问所需数据,从产生更相关、更优质的响应。通过与AIbase的紧密结合,MCP协议能够更好地发挥其优势,为AI技术的发展提供更强大的动力。

  • 为什么要使用MCP?MCP模型上下文协议能解决什么问题?

    在当今数字化时代,AI应用的开发和部署正面临着一个关键挑战:如何将AI技术与现有的服务和系统高效集成。为了解决这一难题,MCP应运生。AIbase的MCP资源网站还提供了详细的开发文档和教程,帮助开发者快速上手并深入学习MCP技术。

  • 对标斯坦福!曹德旺:福耀科技大学将是中国科学家摇篮

    今年2月,由玻璃大王”、福耀集团董事长曹德旺捐100亿设立的福建福耀科技大学正式获批,并宣布王树国任校长。日前,曹德旺、王树国在《对话》节目中回应了为什么要建立大学?学校已初步荟聚了一支高水平国际化的师资队伍,包括海内外院士15人,全球前2%顶尖科学家56人,国家级高层次人才80人,具有境外教育背景或教科研经历教师占比71.2%。

  • 曹德旺捐100亿元建立 对标斯坦福!福耀科技大学领导班子亮相

    今年2月,玻璃大王”曹德旺捐100亿设立的福建福耀科技大学正式获批,同时官宣王树国任校长。曹德旺此前曾表示,福耀科技大学目标就是要对标斯坦福大学。陈建群是南京大学理学学士、硕士,法国国家应用科学学院博士,曾任南京大学生命科学学院教授、博士生导师,南京大学校长助理、金陵学院院长等职。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!

    【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。DeepSeekR2,果然近了。他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236BMoERFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 超过ChatGPT、Deepseek?谷歌发布 Gemini 2.5 Flash AI 模型

    新版AI模型缩短了响应时间,节约了运算成本;还推出了新的AI芯片“Ironwood”。谷歌发布了新的AI模型“Gemini2.5Flash”,据称,这款AI模型的性能比OpenAI和DeepSeek的AI产品“更高效”。谷歌计划在三星今年上半年推出的AI伴侣机器人Ballie上搭载生成式AI模型。

  • 高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

    全球首个工业界多模态推理模型Skywork-R1V升级至2.0版本,全面开源38B参数模型权重。该模型在高考物理、生物等学科题目上展现出强大的图文推理能力,准确率媲美985考生水平。技术突破包括:1)首创视觉奖励模型Skywork-VL Reward,在视觉和文本奖励基准测试中均获SOTA;2)引入混合偏好优化(MPO)机制,平衡推理深度与通用能力;3)采用选择性样本缓冲(SSB)技术解决训练中的优势�