首页 > 业界 > 关键词  > vLLM最新资讯  > 正文

开源机器学习库vLLM 提升大语言模型推理速度

2023-09-18 11:25 · 稿源:站长之家

要点:

1、PagedAttention 注意力算法通过采用类似虚拟内存和分页技术,可有效管理LLM推理中的关键值缓存内存。

2、vLLM服务系统几乎零浪费关键值缓存内存,内部和请求之间灵活共享缓存,大大提升吞吐量。

3、配备PagedAttention的vLLM相比HuggingFace Transformers提升了24倍吞吐量,无需改变模型架构,重新定义了LLM服务的最佳水准。

站长之家(ChinaZ.com)9月18日 消息:近年来,大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。但是,这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。针对此,研究人员提出了PagedAttention注意力算法和vLLM服务系统,大大提升了LLM的推理吞吐量,降低了每次请求的成本。

PagedAttention将序列的关键值缓存分块,弹性管理不连续的内存空间,充分利用内存,实现内部和请求之间的缓存共享。配备PagedAttention的vLLM相比主流系统,在不改模型架构的前提下,提升了24倍吞吐量,达到了LLM服务的最佳水准。本研究为降低LLM在实际应用中的部署成本提供了重要途径。

image.png

项目地址:https://github.com/vllm-project/vllm

论文地址:https://arxiv.org/abs/2309.06180

vLLM利用PagedAttention来管理注意力键和值。配备PagedAttention的vLLM比HuggingFace Transformers提供的吞吐量高出多达24倍,而无需对模型架构进行任何更改,这重新定义了LLM服务的当前最先进技术水平。

与传统的注意力算法不同,它允许在非连续内存空间中持续存储键和值。PagedAttention将每个序列的KV缓存分为块,每个块都包含了一定数量的令牌的键和值。这些块在注意力计算期间由PagedAttention内核高效识别。由于这些块不一定需要是连续的,因此可以灵活管理键和值。

内存泄漏只会发生在PagedAttention中序列的最后一个块中。在实际使用中,这导致了有效的内存利用率,仅有4%的微小浪费。这种内存效率的提高使GPU的利用率更高。

此外,PagedAttention还具有有效的内存共享的另一个关键优势。PagedAttention的内存共享功能大大减少了用于并行采样和波束搜索等采样技术所需的额外内存。这可以使采样技术的速度提高多达2.2倍,同时将内存利用率降低多达55%。这种改进使得这些采样技术对大型语言模型(LLM)服务变得更加有用和有效。

研究人员还研究了该系统的准确性。他们发现,与FasterTransformer和Orca等尖端系统相比,vLLM以与之相同的延迟增加了2-4倍的知名LLM的吞吐量。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

举报

  • 相关推荐
  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • 魔搭社区与vLLM和FastChat展开合作 提供高效LLM推理和部署服务

    魔搭社区与vLLM和FastChat展开合作,联合为中国开发者提供更快更高效的LLM推理和部署服务。开发者可以使用vLLM作为FastChat中的推理引擎,提供高吞吐量的模型推理。还可以结合FastChat和vLLM搭建一个网页Demo或者类OpenAIAPI服务器。

  • 加速替代CUDA!摩尔线程开源vLLM-MUSA 加速国产GPU AI

    近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,为开发者提供基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。摩尔线程表示,正努力围绕自主研发的统一系统架构GPU、MUSA软件平台,构建完善好用的MUSA应用生态。摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容,大幅提升了应用移植的效率,缩短了开发周期提供MUSIFY自动代码移植工具等一系列实用工具和脚本。

  • Ballmer:微软不会给苹果留任何余地

    冰冻三尺非一日之寒,微软与苹果之间的恩怨要追溯到上世纪90年代PC与Mac的激烈对阵,而两家的竞争直至现在也从未停止过。微软现任CEO Steve Ballmer也已经向软件商们许诺,微软将与苹果斗争到底。 在本周微软全球合作者大会上,Ballmer称:“微软的目标很明确 — 不给苹果留下任何余地。”目前,微软即将发布的新产品有Windows Phone 8、Windows 8以及新一代Xbox。Ballmer则表示:

  • 菲洛嘉医学科学升级,菲欧曼FILLMED让你逆转时光,定格青春

    在岁月面前,我们总是感叹自己的无能为力,因为每个人都要经历身体从充满力量到步履蹒跚,肌肤从光滑水嫩到布满皱纹,因此延缓衰老、永驻青春,成为了女人们永恒的梦想,这份遐想从人参果、不老丹等历史传说中就充分体现出来了。对此,为了守护广大爱美人士的肌肤状态,让每个人相遇最好状态的自己, 1978 年由法国医学美容专家、细胞生物学家Dr。 Michel Tordjman 创建了菲洛嘉实验室。 自创立以来,菲洛嘉医学便始终致力于抗衰老

  • Richard Stallman发布GNU C语言参考手册

    GNU创始人RichardStallman最近一直致力于精心编写GNUC语言介绍和参考手册,今天他宣布了GNUC语言介绍和参考手册,以涵盖GNU对C编程语言的扩展...如果你了解编程的基本概念,但对C语言一无所知,你可以从头开始按顺序阅读本手册,也可以用来学习C语言...如果你是编程的初学者,建议你首先学习一种具有自动垃圾收集和无显式指针的语言,而不是从C语言开始,其中一些好的选择包括Lisp、Scheme、Python和Java...有兴趣的计算机爱好者可以先阅读Stallman的公告:......

  • 安生乔恩整形医师余斌为FILLMED交流会带来三节大师课

    余斌作为FILLMED艺术填充臻选注射医师、美国舒铂面部假体指定临床手术专家、诺鼻尔美鼻整形大赛金奖获得者, 在为期 3 天的学术盛宴中,先后带来了关于艺术填充、鼻整形、面部假体手术三节大师课,受到现场嘉宾的们的一致好评...2019 年,以色列医疗整形发展组织对余斌的技术能力和成果案例给予高度评价,特邀余斌医生成为以色列整形美容推广大使,希望共同推动整形美容在中国乃至世界的发展......

  • LLM Guard:增强LLM安全性的开源工具包 安全使用各种等模型

    LLMGuard是一个旨在增强大型语言模型安全性的开源工具包,旨在简化LLMs在企业中的安全采用。它的设计目的是为了轻松集成和部署在生产环境中,为LLMs的输入和输出提供广泛的评估,包括清理、检测有害语言和数据泄漏,以及防止注入和越狱攻击。这一工具包的推出将有望促进大型语言模型在企业中的更广泛应用,为企业提供了更好的安全保障和可控性,从更加自信地采用这一新兴技术。

  • AutoLLM:在几秒钟内创建基于 RAG 的 LLM Web 应用程序!

    AutoLLM是一个强大的工具,能够让您在几秒钟内部署基于Retrieval-AugmentedGeneration的大型语言模型Web应用。它为开发人员提供了一种简化、统一和增强LLM应用程序的方式,具备多项核心功能,包括支持100多种LLM模型、统一API、20多种向量数据库、成本计算、以及一键将LLM引擎转换为FastAPI应用的能力。5.快速部署:通过AutoLLM,您可以轻松将LLM引擎转换为FastAPI应用,以便快速部署Web应用程序。

  • Mistral、AI2 发布新的开源 LLMs:更小,更便宜

    站长之家1月31日消息:MistralAI和Allen人工智能研究所今天发布了新的大型语言模型,它们声称这些模型在各自类别中属于最先进的。Mistral的模型被称为MistralSmall3Allen人工智能研究所发布的则是Tülu3405B。「通过这一发布,我们展示了我们在405B参数规模上应用后训练方法的可扩展性和有效性。

今日大家都在搜的词:

热文

  • 3 天
  • 7天