首页 > 业界 > 关键词  > vLLM最新资讯  > 正文

开源机器学习库vLLM 提升大语言模型推理速度

2023-09-18 11:25 · 稿源:站长之家

要点:

1、PagedAttention 注意力算法通过采用类似虚拟内存和分页技术,可有效管理LLM推理中的关键值缓存内存。

2、vLLM服务系统几乎零浪费关键值缓存内存,内部和请求之间灵活共享缓存,大大提升吞吐量。

3、配备PagedAttention的vLLM相比HuggingFace Transformers提升了24倍吞吐量,无需改变模型架构,重新定义了LLM服务的最佳水准。

站长之家(ChinaZ.com)9月18日 消息:近年来,大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。但是,这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。针对此,研究人员提出了PagedAttention注意力算法和vLLM服务系统,大大提升了LLM的推理吞吐量,降低了每次请求的成本。

PagedAttention将序列的关键值缓存分块,弹性管理不连续的内存空间,充分利用内存,实现内部和请求之间的缓存共享。配备PagedAttention的vLLM相比主流系统,在不改模型架构的前提下,提升了24倍吞吐量,达到了LLM服务的最佳水准。本研究为降低LLM在实际应用中的部署成本提供了重要途径。

image.png

项目地址:https://github.com/vllm-project/vllm

论文地址:https://arxiv.org/abs/2309.06180

vLLM利用PagedAttention来管理注意力键和值。配备PagedAttention的vLLM比HuggingFace Transformers提供的吞吐量高出多达24倍,而无需对模型架构进行任何更改,这重新定义了LLM服务的当前最先进技术水平。

与传统的注意力算法不同,它允许在非连续内存空间中持续存储键和值。PagedAttention将每个序列的KV缓存分为块,每个块都包含了一定数量的令牌的键和值。这些块在注意力计算期间由PagedAttention内核高效识别。由于这些块不一定需要是连续的,因此可以灵活管理键和值。

内存泄漏只会发生在PagedAttention中序列的最后一个块中。在实际使用中,这导致了有效的内存利用率,仅有4%的微小浪费。这种内存效率的提高使GPU的利用率更高。

此外,PagedAttention还具有有效的内存共享的另一个关键优势。PagedAttention的内存共享功能大大减少了用于并行采样和波束搜索等采样技术所需的额外内存。这可以使采样技术的速度提高多达2.2倍,同时将内存利用率降低多达55%。这种改进使得这些采样技术对大型语言模型(LLM)服务变得更加有用和有效。

研究人员还研究了该系统的准确性。他们发现,与FasterTransformer和Orca等尖端系统相比,vLLM以与之相同的延迟增加了2-4倍的知名LLM的吞吐量。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

举报

  • 相关推荐
  • All-in-One驱动:快鹭科技办公引擎的整合创新与优势解析

    快鸭科技以“All-in-One”为核心,依托AI Agent技术,提供一站式数智办公服务。通过整合产品矩阵、技术体系和服务网络,覆盖全流程办公需求,包括低代码平台、会议系统等,支持多行业定制化方案。其技术融合与协同化体系,助力企业实现高效数字化转型,提升运营效率。

  • 八年深耕铸就“即刻精彩”,HOLLYLAND猛玛2025秋季新品发布会前瞻

    猛玛将于2025年8月26日举办品牌战略暨秋季新品发布会,系统呈现其全球战略布局与技术成果。深耕无线音视频领域八年,猛玛致力于打造全球创作者信赖的“创作底座”,通过技术创新降低专业设备门槛,推动创作工具智能化与普惠化。发布会将首次系统阐释品牌使命“科技助力轻松表达,丰富人类精神世界”,并带来秋季重磅新品,展现对创作全流程需求的深入覆盖。

  • 第十三届互联网安全大会开幕:All In Agent

    2025年8月6日,第十三届互联网安全大会(ISC.AI2025)在北京国家会议中心开幕。本届大会以"All In Agent"为主题,聚焦智能体时代下的数字安全与人工智能前沿。360创始人周鸿祎指出,大模型必须进化成智能体才能成为生产力工具,并揭示了智能体演进的四个层级:从聊天助手到多智能体蜂群协作。360推出的安全智能体基于大模型,具备自主规划、工具调用等能力,可复制人类安全专家能力。在网络安全领域,智能体正形成颠覆性影响,360将推动全线产品智能化,用安全智能体重塑数字安全。周鸿祎强调"安全是数字化的底座,AI是数字化的巅峰",360将坚持"安全+AI"双主线发展。

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • 魔搭社区与vLLM和FastChat展开合作 提供高效LLM推理和部署服务

    魔搭社区与vLLM和FastChat展开合作,联合为中国开发者提供更快更高效的LLM推理和部署服务。开发者可以使用vLLM作为FastChat中的推理引擎,提供高吞吐量的模型推理。还可以结合FastChat和vLLM搭建一个网页Demo或者类OpenAIAPI服务器。

  • 加速替代CUDA!摩尔线程开源vLLM-MUSA 加速国产GPU AI

    近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,为开发者提供基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。摩尔线程表示,正努力围绕自主研发的统一系统架构GPU、MUSA软件平台,构建完善好用的MUSA应用生态。摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容,大幅提升了应用移植的效率,缩短了开发周期提供MUSIFY自动代码移植工具等一系列实用工具和脚本。

  • “科创宝安·宝安发布”第六十九期 “智启新程·共赢未来”Billus AI产品发布会成功举办

    2025年7月30日,Billus AI在深圳湾科技园举办产品发布会,推出建筑行业AI大模型系列产品。活动由宝安区科技创新服务中心等机构主办,150家企业代表出席。Billus AI发布开源大模型Billus_0.4C_Ckpt及闭源产品矩阵,其中建筑创作大模型Billus_0.55D_Ckpt和Billus Diffusion CONTROLNET展现技术突破。产品具有多模态输入、30秒生成3K高清图等优势,已在中建西南院等项目中提升效率46%。现场12家设计院签约共建生态,推动"设计-施工-供应链"数字化体系。圆桌论坛探讨AI驱动下设计行业三大趋势:全流程数字化渗透率突破80%、跨领域技术融合、文化基因成为AI设计核心竞争力。创始人吕嘉强调深耕中国创新,从传统营造智慧中提炼东方诗意算法。

  • Ballmer:微软不会给苹果留任何余地

    冰冻三尺非一日之寒,微软与苹果之间的恩怨要追溯到上世纪90年代PC与Mac的激烈对阵,而两家的竞争直至现在也从未停止过。微软现任CEO Steve Ballmer也已经向软件商们许诺,微软将与苹果斗争到底。 在本周微软全球合作者大会上,Ballmer称:“微软的目标很明确 — 不给苹果留下任何余地。”目前,微软即将发布的新产品有Windows Phone 8、Windows 8以及新一代Xbox。Ballmer则表示:

  • 菲洛嘉医学科学升级,菲欧曼FILLMED让你逆转时光,定格青春

    在岁月面前,我们总是感叹自己的无能为力,因为每个人都要经历身体从充满力量到步履蹒跚,肌肤从光滑水嫩到布满皱纹,因此延缓衰老、永驻青春,成为了女人们永恒的梦想,这份遐想从人参果、不老丹等历史传说中就充分体现出来了。对此,为了守护广大爱美人士的肌肤状态,让每个人相遇最好状态的自己, 1978 年由法国医学美容专家、细胞生物学家Dr。 Michel Tordjman 创建了菲洛嘉实验室。 自创立以来,菲洛嘉医学便始终致力于抗衰老

  • Richard Stallman发布GNU C语言参考手册

    GNU创始人RichardStallman最近一直致力于精心编写GNUC语言介绍和参考手册,今天他宣布了GNUC语言介绍和参考手册,以涵盖GNU对C编程语言的扩展...如果你了解编程的基本概念,但对C语言一无所知,你可以从头开始按顺序阅读本手册,也可以用来学习C语言...如果你是编程的初学者,建议你首先学习一种具有自动垃圾收集和无显式指针的语言,而不是从C语言开始,其中一些好的选择包括Lisp、Scheme、Python和Java...有兴趣的计算机爱好者可以先阅读Stallman的公告:......

今日大家都在搜的词: