首页 > 业界 > 关键词  > LLM最新资讯  > 正文

田渊栋团队论文解决大模型部署难题 推理系统吞吐量提高近30倍!

2023-12-07 09:50 · 稿源:站长之家

站长之家(ChinaZ.com)12月7日 消息:田渊栋团队最新发表的论文解决了大型语言模型在实际部署中遇到的内存和输入长度限制的问题,将推理系统的吞吐量提高了近30倍。论文提出了一种实现KV缓存的新方法,通过识别和保留重要的tokens,显著减少了内存占用,并在长输入序列的任务中表现良好。

这篇论文的研究对象是大型语言模型(LLM),该模型在实际部署中面临着KV缓存成本昂贵和对长序列的泛化能力差的问题。为了解决这些问题,田渊栋团队提出了一种基于重要tokens的KV缓存逐出策略,通过识别并保留对生成结果有重要贡献的tokens,显著减少了内存占用,并提高了模型在处理长输入序列时的表现。

image.png

论文地址:https://arxiv.org/pdf/2306.14048.pdf

代码地址:https://github.com/FMInference/H2O

在实验中,作者使用了OPT、LLaMA和GPT-NeoX等模型验证了他们提出的方法的准确性和有效性。实验结果显示,通过使用该方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen这三个推理系统的吞吐量分别提高了29倍、29倍和3倍,且在相同的批量大小下,延迟最多可以减少1.9倍。

通过研究发现,大部分注意力键和值嵌入在生成过程中贡献较少的价值,只有一小部分tokens贡献了大部分的价值。基于这个发现,作者提出了一种基于重要tokens的KV缓存逐出策略,动态保持最近的tokens和重要tokens的平衡。通过使用这种策略,可以显著减少KV缓存的大小,从而降低了内存占用,并提高了模型的推理效率。

综上所述,田渊栋团队的最新论文成功解决了大型语言模型在实际部署中的难题,通过优化KV缓存的实现方法,将推理系统的吞吐量提高了近30倍。这一成果在NeurIPS'23上将进行展示,对于大型语言模型的部署和应用具有重要的意义。

举报

  • 相关推荐
  • 小红书正式上线RED Skill功能,发力AI Skill创新生态

    6月8日,小红书正式上线RED Skill功能,创作者可在笔记中直接嵌入AI Skill组件,用户点击即可一键复制口令并安装至个人Agent使用,无需跳转第三方。平台推出“RED Skill大赏”扶持活动,并计划完善Skill站内使用功能。目前已有近千个原创Skill发布,相关创作者达30万,话题曝光超6亿。此举旨在降低AI Skill分发门槛,构建从创造、种草到转化的创新社区生态。

  • 2026 高品质冰箱选购攻略,容声 WILL 生态舱冰箱满足精细化储鲜需求

    过去两年冰箱市场最火的概念是“平嵌”和“美学”,但消费者冷静后发现,冰箱核心价值应是“全食材养鲜”而非外观。调研超300名高端用户发现,购买时最关注“好不好看”,使用后最后悔的却是“菜没放两天就蔫了”“肉冻过就柴”“海鲜串味”。因此,判断冰箱是否具备真正养鲜能力至关重要。以容声WILL生态舱552为例,它通过主动补水、光养保鲜和除菌防霉技术,实现果蔬7日不蔫、肉类即取即切、海鲜长期锁鲜,并采用双系统独立风道和7:3黄金分储格局杜绝串味,同时60cm超薄平嵌设计兼顾美学,真正实现“饮食健康自由”。

  • 肯德基Skill正式接入千问:疯狂星期四一句话下单 直接到店取

    肯德基Skill接入千问App,全国1.3万门店可直接语音点单,如“帮我点附近肯德基的疯狂星期四”,系统自动匹配门店、套餐并显示距离和取餐时间。作为首个接入的餐饮品牌,肯德基与千问会员权益打通,下单自动使用大神卡和优惠券。千问近期宣布全面开放第三方Agent和Skill,瑞幸咖啡、蜜雪冰城、东方航空等首批企业已测试,将陆续上线。Agent具备记忆和主动规划能力,可提供行程提醒、权益到期提醒等服务。

  • 暴喵修复匠修复电脑DLL、DirectX靠谱吗?实测暴喵修复匠的修复原理与用法

    文章指出电脑游戏运行时频繁出现DLL缺失、DirectX报错等问题,主要因系统断电、软件残留、驱动不匹配或DX版本冲突引起。暴喵修复工具通过智能扫描,一键检测并修复缺失或损坏的DLL与DirectX组件,支持区分32/64位及新旧DX版本,避免手动下载风险。相比传统方案,它更精准、纯净、全面,适合PC游戏玩家、系统重装用户及电脑小白,能有效解决游戏启动故障。

  • 千问宣布全面开放第三方Agent、Skill:肯德基、瑞幸、蜜雪冰城首批接入

    今日,千问App宣布,将向第三方Agent、Skill全面开放,所有企业均可在千问运营自己的品牌Agent。 据悉,瑞幸咖啡、肯德基、蜜雪冰城、东方航空等首批企业已在千问进行Agent服务测试,并将陆续上线。 未来,企业可在千问App内打造专属Agent,自定义人设、服务范围与交互方式,通过对话为用户提供产品咨询、下单推荐、行程服务、权益提醒等能力。 与传统客服不同,Agent具�

  • ROG Xbox Ally X20 搭载谷粒GuliKit TMR 摇杆,双方合作进一步深化

    谷粒科技GuliKit宣布其TMR电磁摇杆技术已应用于ROG最新发布的Xbox Ally X20掌机,双方合作进一步深化。该技术采用非接触式电磁感应方案,解决了传统碳膜电位器摇杆的漂移问题,提升了稳定性和寿命。此前谷粒已为ROG提供官方授权维修替换模块,此次直接应用于整机核心部件,展现了其行业领先地位。谷粒持续研发电磁摇杆技术,并已为Steam Deck、Switch等多类掌机及游戏控制器提供元件供应和定制化解决方案,未来将继续推动游戏操控体验升级。

  • HOLLYLAND猛玛发布行业首款无线直播声卡系统MELO P1,重塑唱歌直播新体验

    HOLLYLAND猛玛发布MELO+++P1无线直播声卡系统,将手持麦克风、声卡、无线监听耳机和遥控器整合于一体充电盒中,开箱即播。该产品通过QQ音乐臻品音质认证和全民K歌臻品录音认证,旨在解决音乐直播设备体验滞后于内容发展的问题。猛玛利用12年无线音视频技术积累,将专业录音棚级硬件(双DSP芯片、AI降噪等)以易用形态下沉至直播场景,降低搭建门槛,提升户外稳定性,为行业提供了从参数竞争转向产品形态创新的新方向。

  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • 弃购率超70%,Upsello携手飞诺门阵押注电商AI导购

    Upsello与飞诺门阵科技成立合资公司,将独立站聊天框从“客服入口”转型为“销售入口”。其AI智能导购能识别用户购买意图,结合商品、订单、优惠等数据,主动完成推荐、挽单、跟进等动作,而非仅回答问题。实测显示,该方案可使AOV提升10%-15%,弃单挽回率5%-15%,响应时间低于5秒,并支持50多种语言。Upsello旨在让客服中心成为第二增长引擎,把对话窗口变成新的交易入口。

  • 率先支持 AMD EXPO™ ULL | Origin Code部分Vortex DDR5内存套装正式兼容新一代超频规范

    Origin Code宣布旗下部分Vortex DDR5内存套装已正式支持AMD最新EXPO™ ULL规范,成为业内首批支持该技术的品牌之一。该规范优化了DDR5内存超频配置,在兼容性、训练机制及高频扩展能力上全面提升。目前已有48GB(6000CL26/6200CL28)及96GB(6000CL26)等多款配置完成优化适配。此外,Origin Code将在COMPUTEX 2026现场展示基于新规范的高频DDR5配置,并首次公开与Futuremach联合打造的全新开放式机箱。

今日大家都在搜的词: