田渊栋团队论文解决大模型部署难题推理系统吞吐量提高近30倍！

2023-12-07 09:50 · 稿源：站长之家

站长之家（ChinaZ.com）12月7日消息:田渊栋团队最新发表的论文解决了大型语言模型在实际部署中遇到的内存和输入长度限制的问题，将推理系统的吞吐量提高了近30倍。论文提出了一种实现KV缓存的新方法，通过识别和保留重要的tokens，显著减少了内存占用，并在长输入序列的任务中表现良好。

这篇论文的研究对象是大型语言模型（LLM），该模型在实际部署中面临着KV缓存成本昂贵和对长序列的泛化能力差的问题。为了解决这些问题，田渊栋团队提出了一种基于重要tokens的KV缓存逐出策略，通过识别并保留对生成结果有重要贡献的tokens，显著减少了内存占用，并提高了模型在处理长输入序列时的表现。

论文地址:https://arxiv.org/pdf/2306.14048.pdf

代码地址:https://github.com/FMInference/H2O

在实验中，作者使用了OPT、LLaMA和GPT-NeoX等模型验证了他们提出的方法的准确性和有效性。实验结果显示，通过使用该方法，DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen这三个推理系统的吞吐量分别提高了29倍、29倍和3倍，且在相同的批量大小下，延迟最多可以减少1.9倍。

通过研究发现，大部分注意力键和值嵌入在生成过程中贡献较少的价值，只有一小部分tokens贡献了大部分的价值。基于这个发现，作者提出了一种基于重要tokens的KV缓存逐出策略，动态保持最近的tokens和重要tokens的平衡。通过使用这种策略，可以显著减少KV缓存的大小，从而降低了内存占用，并提高了模型的推理效率。

综上所述，田渊栋团队的最新论文成功解决了大型语言模型在实际部署中的难题，通过优化KV缓存的实现方法，将推理系统的吞吐量提高了近30倍。这一成果在NeurIPS'23上将进行展示，对于大型语言模型的部署和应用具有重要的意义。

（举报）

相关推荐

关键词：

活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试，成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构，覆盖数据管理、模型接入、插件开发等八大能力域，具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平，可为企业提供低门槛智能体落地解决方案，已在制造、政务、医疗等领域深度应用，助力企业数字化转型。

智能体平台低代码开发企业数字化
AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

本期AI日报聚焦视频生成领域重大进展：昆仑万维SkyReels将于11月上线新版AI视频工具；LiblibAI完成1.3亿美元融资；阿里推出夸克对话助手；豆包视频模型Seedance1.0pro实现首尾帧一致性突破；Vidu Q2全面开放API；Sora新增角色客串功能并即将推出安卓版；MiniMax海螺2.3在真实感方面超越Veo；谷歌推出免费AI学习平台"Google Skills"；字节跳动Seed团队发布3D生成模型Seed3D1.0，支持单图生成高质量3D资产。

AI视频昆仑万维 SkyReels
Ballmer：微软不会给苹果留任何余地

冰冻三尺非一日之寒，微软与苹果之间的恩怨要追溯到上世纪90年代PC与Mac的激烈对阵，而两家的竞争直至现在也从未停止过。微软现任CEO Steve Ballmer也已经向软件商们许诺，微软将与苹果斗争到底。在本周微软全球合作者大会上，Ballmer称：“微软的目标很明确 — 不给苹果留下任何余地。”目前，微软即将发布的新产品有Windows Phone 8、Windows 8以及新一代Xbox。Ballmer则表示：

微软CEO 智能手机苹果
菲洛嘉医学科学升级，菲欧曼FILLMED让你逆转时光，定格青春

在岁月面前，我们总是感叹自己的无能为力，因为每个人都要经历身体从充满力量到步履蹒跚，肌肤从光滑水嫩到布满皱纹，因此延缓衰老、永驻青春，成为了女人们永恒的梦想，这份遐想从人参果、不老丹等历史传说中就充分体现出来了。对此，为了守护广大爱美人士的肌肤状态，让每个人相遇最好状态的自己， 1978 年由法国医学美容专家、细胞生物学家Dr。 Michel Tordjman 创建了菲洛嘉实验室。自创立以来，菲洛嘉医学便始终致力于抗衰老

菲欧曼FILLMED
Richard Stallman发布GNU C语言参考手册

GNU创始人RichardStallman最近一直致力于精心编写GNUC语言介绍和参考手册，今天他宣布了GNUC语言介绍和参考手册，以涵盖GNU对C编程语言的扩展...如果你了解编程的基本概念，但对C语言一无所知，你可以从头开始按顺序阅读本手册，也可以用来学习C语言...如果你是编程的初学者，建议你首先学习一种具有自动垃圾收集和无显式指针的语言，而不是从C语言开始，其中一些好的选择包括Lisp、Scheme、Python和Java...有兴趣的计算机爱好者可以先阅读Stallman的公告：......

RichardStallma Stallman GNUC语言
安生乔恩整形医师余斌为FILLMED交流会带来三节大师课

余斌作为FILLMED艺术填充臻选注射医师、美国舒铂面部假体指定临床手术专家、诺鼻尔美鼻整形大赛金奖获得者，在为期 3 天的学术盛宴中，先后带来了关于艺术填充、鼻整形、面部假体手术三节大师课，受到现场嘉宾的们的一致好评...2019 年，以色列医疗整形发展组织对余斌的技术能力和成果案例给予高度评价，特邀余斌医生成为以色列整形美容推广大使，希望共同推动整形美容在中国乃至世界的发展......

医疗整形鼻综合整形整形外科
LLM Guard：增强LLM安全性的开源工具包安全使用各种等模型

LLMGuard是一个旨在增强大型语言模型安全性的开源工具包，旨在简化LLMs在企业中的安全采用。它的设计目的是为了轻松集成和部署在生产环境中，为LLMs的输入和输出提供广泛的评估，包括清理、检测有害语言和数据泄漏，以及防止注入和越狱攻击。这一工具包的推出将有望促进大型语言模型在企业中的更广泛应用，为企业提供了更好的安全保障和可控性，从更加自信地采用这一新兴技术。

LLMGuard ChatGPT
AutoLLM：在几秒钟内创建基于 RAG 的 LLM Web 应用程序！

AutoLLM是一个强大的工具，能够让您在几秒钟内部署基于Retrieval-AugmentedGeneration的大型语言模型Web应用。它为开发人员提供了一种简化、统一和增强LLM应用程序的方式，具备多项核心功能，包括支持100多种LLM模型、统一API、20多种向量数据库、成本计算、以及一键将LLM引擎转换为FastAPI应用的能力。5.快速部署:通过AutoLLM，您可以轻松将LLM引擎转换为FastAPI应用，以便快速部署Web应用程序。

AutoLLM
Mistral、AI2 发布新的开源 LLMs：更小，更便宜

站长之家1月31日消息：MistralAI和Allen人工智能研究所今天发布了新的大型语言模型，它们声称这些模型在各自类别中属于最先进的。Mistral的模型被称为MistralSmall3Allen人工智能研究所发布的则是Tülu3405B。「通过这一发布，我们展示了我们在405B参数规模上应用后训练方法的可扩展性和有效性。

Mistral Ai2 人工智能
Character-LLM: 一款可训练的角色扮演智能代理可通过LLM模拟贝多芬

GitHub上发布了一个名为Character-LLM的项目。该项目旨在通过对大型语言模型进行训练，以模仿历史上的杰出人物，如贝多芬和凯撒大帝，通过提供特定的人物信息来捕捉他们的语言风格和思维特征。Character-LLM是角色扮演爱好者和自然语言处理领域的研究者的强大工具。

LLM

今日大家都在搜的词：

热文

3 天
7天

田渊栋团队论文解决大模型部署难题推理系统吞吐量提高近30倍！

活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

Ballmer：微软不会给苹果留任何余地

菲洛嘉医学科学升级，菲欧曼FILLMED让你逆转时光，定格青春

Richard Stallman发布GNU C语言参考手册

安生乔恩整形医师余斌为FILLMED交流会带来三节大师课

LLM Guard：增强LLM安全性的开源工具包安全使用各种等模型

AutoLLM：在几秒钟内创建基于 RAG 的 LLM Web 应用程序！

Mistral、AI2 发布新的开源 LLMs：更小，更便宜

Character-LLM: 一款可训练的角色扮演智能代理可通过LLM模拟贝多芬

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

俞敏洪发文确认孙东旭离职：保持着良好的沟通

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机

田渊栋团队论文解决大模型部署难题 推理系统吞吐量提高近30倍！

今日大家都在搜的词：

热文

站长商机

田渊栋团队论文解决大模型部署难题推理系统吞吐量提高近30倍！