首页 > 业界 > 关键词  > vLLM最新资讯  > 正文

开源机器学习库vLLM 提升大语言模型推理速度

2023-09-18 11:25 · 稿源:站长之家

要点:

1、PagedAttention 注意力算法通过采用类似虚拟内存和分页技术,可有效管理LLM推理中的关键值缓存内存。

2、vLLM服务系统几乎零浪费关键值缓存内存,内部和请求之间灵活共享缓存,大大提升吞吐量。

3、配备PagedAttention的vLLM相比HuggingFace Transformers提升了24倍吞吐量,无需改变模型架构,重新定义了LLM服务的最佳水准。

站长之家(ChinaZ.com)9月18日 消息:近年来,大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。但是,这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。针对此,研究人员提出了PagedAttention注意力算法和vLLM服务系统,大大提升了LLM的推理吞吐量,降低了每次请求的成本。

PagedAttention将序列的关键值缓存分块,弹性管理不连续的内存空间,充分利用内存,实现内部和请求之间的缓存共享。配备PagedAttention的vLLM相比主流系统,在不改模型架构的前提下,提升了24倍吞吐量,达到了LLM服务的最佳水准。本研究为降低LLM在实际应用中的部署成本提供了重要途径。

image.png

项目地址:https://github.com/vllm-project/vllm

论文地址:https://arxiv.org/abs/2309.06180

vLLM利用PagedAttention来管理注意力键和值。配备PagedAttention的vLLM比HuggingFace Transformers提供的吞吐量高出多达24倍,而无需对模型架构进行任何更改,这重新定义了LLM服务的当前最先进技术水平。

与传统的注意力算法不同,它允许在非连续内存空间中持续存储键和值。PagedAttention将每个序列的KV缓存分为块,每个块都包含了一定数量的令牌的键和值。这些块在注意力计算期间由PagedAttention内核高效识别。由于这些块不一定需要是连续的,因此可以灵活管理键和值。

内存泄漏只会发生在PagedAttention中序列的最后一个块中。在实际使用中,这导致了有效的内存利用率,仅有4%的微小浪费。这种内存效率的提高使GPU的利用率更高。

此外,PagedAttention还具有有效的内存共享的另一个关键优势。PagedAttention的内存共享功能大大减少了用于并行采样和波束搜索等采样技术所需的额外内存。这可以使采样技术的速度提高多达2.2倍,同时将内存利用率降低多达55%。这种改进使得这些采样技术对大型语言模型(LLM)服务变得更加有用和有效。

研究人员还研究了该系统的准确性。他们发现,与FasterTransformer和Orca等尖端系统相比,vLLM以与之相同的延迟增加了2-4倍的知名LLM的吞吐量。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

举报

  • 相关推荐
  • 时空壶接入大语言模型,跨语言沟通已成翻译的艺术

    在当今全球化浪潮中,跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判,到文化交流中的思想碰撞,高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代,时空壶有望持续引领行业变革,推动全球交流合作迈向新的高度,真正实现跨越语言障碍,让世界沟通无阻。

  • 时空壶接入DeepSeek、豆包等大语言模型,翻译准确度再次跃升

    在全球跨语言沟通需求持续攀升的当下,时空壶再次以创新之举震撼行业。时空壶正式宣布接入DeepSeek、豆包等大语言模型,为其同传耳机产品带来了前所未有的体验升级,彻底改写了同传翻译的游戏规则,也让传统机翻模式成为历史。这一创新举措不仅满足了当下各行业对高质量跨语言沟通的迫切需求,更为未来跨语言交流的发展指明了方向,有望推动整个行业向更加智能、精准、自然的方向迈进,助力全球交流合作开启全新篇章。

  • 提升模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • OpenAI要Open了,奥特曼开源首个推理模型,ChatGPT一小时暴增百万用户

    OpenAI终于要OpenAI了!一大早,奥特曼郑重官宣,「未来几个月,将开源一款强大的推理模型」。这是自GPT-2以来,OpenAI首个开源的模型。无疑为OpenAI下一步增添了更多的戏剧性。

  • 苦等一年 Meta终于放大招 正式发布开源大模型Llama 4

    美国科技巨擘Meta重磅推出其迄今最为强大的开源AI模型Llama4,恰逢Llama3上市一周年之际。Llama4系列采用了先进的混合专家架构,这一架构在模型训练及用户查询回答过程中展现出更高效率,通过将模型划分为多个专注于特定任务的专家”子模型,实现精准高效的处理。Meta首席执行官扎克伯格表示:他们的目标是建立世界领先的人工智能,将其开源,并使其普遍可用,以便世界上每个人都能受益。

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • 新增自主决策推理模型!理想汽车OTA 7.2开启推送

    快科技4月3日消息,我们从理想汽车官方获悉,OTA7.2版本车机系统正式开启推送,预计一周内完成,升级耗时约50分钟。本次更新新增自主决策推理模型,该模型基于车载场景数据及通用推理模型数据打造,可根据问题内容自主决策是否深度思考,面对车控指令等简单问题时,能够保障响应速度。智能座舱方面,新增全能儿童锁功能,支持一键锁定副驾老板键、后排座椅物理按�

  • 中国智力持续发力,智象未来开源模型再获国际认可

    国内AI企业智象未来研发的开源图像生成模型HiDream-I1近日取得重要突破:该模型凭借17B参数规模,在图像真实感、细节处理及指令响应能力上超越行业标杆,多项评测指标超过GPT-4o与Flux1.1。继登顶AI基准测试平台Artificial Analysis、获Hugging Face收录后,该模型正式被谷歌技术生态体系收录,成为首个登顶该平台榜首的中国自研开源模型。其24小时内登顶的纪录,被视为中国AI技术全球竞争力的重要里程碑。谷歌的收录将推动HiDream-I1触达全球开发者,助力开源生态共建进入新发展阶段。