FastGen：在不降低LLM质量的情况下降低GPU内存成本

2024-05-13 10:46 · 稿源：站长之家

划重点:
- ⭐FastGen 一种高效的技术，可以提高 LLM 的推理效率，而不会降低可见质量。
- ⭐FastGen 轻量级模型分析和自适应键值缓存来实现。
- ⭐FastGen 通过自适应的键值缓存构造来少生成推理过程中的 GPU 内存使用量。

站长之家（ChinaZ.com）5月13日消息:研究人员来自伊利诺伊大学厄巴纳 - 香槟分校和微软提出了一种名为 FastGen 的高效技术，通过使用轻量级模型分析和自适应键值缓来提高 LLM 的推理效率，而不会降低可见质量。FastGen 通过自适应的键值缓存构造来减少生成推理过程中的 GPU 内存使用量。

FastGen 的自适应键值缓存压缩方法减小了 LLM 生成推理内存占用。该方法涉及两个步骤:

1. 提示编码:注意模块需要从前面的 i-1标记中收集上下文信息，以生成 LLM 的第 i 个标记。

2. 令牌生成:当完成提示编码后，M 逐个标记生成输出，对于每个步骤，使用 LLM 对上一步生成的新标记进行编码。

对于 B 模型，FastGen 在所有非自适应键值缓存压缩方法中表现最佳，并随着模型规模的增加而得更高的键值缓存压缩比例，同时保持模型的质量不受影响。例如，与 Llama17B 上的16.9% 压缩比例相比，FastGen 在 Llama1-65B 上获得了44.9% 的缩比例，达到了45% 的胜率。此外，对 FastGen 进行了敏感性分析，选择了不同的超。由于模型保持45% 的胜率，研究表明在更改超参数后对生成质量没有明显影响。

伊利诺伊大学厄巴纳 - 香槟分校和微软的研究人员提出了 FastGen，一种新的技，通过使用轻量级模型分析和自适应键值缓存来提高 LLM 的推理效率，而不会降低见质量。研究人员引入的自适应键值缓存压缩通过 FastGen 构建，以减少 LLM 生成推的内存占用。未来的工作包括将 FastGen 与其他模型压缩方法（如量化和蒸馏、分组查询注意等）进行整合。

论文地址:https://arxiv.org/abs/2310.01801

（举报）

相关推荐

关键词：

荐AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

本文介绍了AI日报栏目，聚焦人工智能领域最新动态。主要内容包括：腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能，以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

AI 3D重建腾讯开源
全球首款骁龙8 Elite Gen5旗舰！卢伟冰喜提小米16

今天下午，小米集团总裁卢伟冰使用小米新机发了一条微博，引发关注。不出意外，这款新机就是即将登场的小米16，新品已经获得入网许可，就等官宣了。据悉，小米16系列共有3款，型号分别是25098PN5AC、2509FPN0BC、25113PN0EC，预计分别命名为小米16、小米16 Pro和小米16 Pro Max。该机全球首发骁龙8 Elite Gen5平台，这颗芯片由2*4.61GHz超大核 6*3.63GHz大核组成，并集成Adreno 840 GPU，GPU�

小米16 骁龙8 Elite
首批骁龙8 Elite Gen5/天玑9500旗舰已备案：10月机圈大战

首批骁龙8 Elite Gen5、天玑9500旗舰已经备案，包括小米16系列、荣耀Magic8系列、vivo X300系列和OPPO Find X9系列。据悉，前两款旗舰搭载高通骁龙8 Elite Gen5平台，后两款旗舰搭载联发科天玑9500平台，除了小米16系列会在9月亮相之外，其它迭代旗舰都会集中到10月发布，10月份将迎来机圈大混战。

骁龙8 Elite Gen5
荐AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源 Mobile-Agent 3

AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE，通过自然语言交互简化工作流程；阿里开源Mobile-Agent-v3跨平台代理框架；微信测试AI播客功能，实现双人对话式新闻播报；钉钉推出首款AI硬件录音笔DingTalk A1；苹果拟为Siri引入谷歌Gemini大模型；苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能；Meta获得Midjourney技术授权加强AI图像生成竞争力；谷歌Drive新增Vids视频编辑功能降低制作门槛；夸克发布健康大模型通过12学科主治医师测评；AI小游戏Draw A Fish凭借极简设计引发全球热潮。

AI办公钉钉8.0 自然语言交互
瓴羊发布企业级分析Agent，让人人都可拥有超级数据分析师

阿里巴巴旗下瓴羊发布首个数据分析Agent“智能小Q”，升级为“超级数据分析师”，由问数、解读和报告三大核心Agent组成。该工具能快速获取数据、解读数据并输出洞察报告，将原本需数小时的数据处理时间缩短至最快10秒，专业报告生成仅需20分钟。通过三重技术体系提升企业级数据分析可靠性，覆盖近20个细分行业，支持用户自定义需求。目前已有瑞幸咖啡、牧原食品等百余家企业客户使用，9月9日起全面开放给所有企业用户。

数据分析Agent 瓴羊 Quick
荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

本期AI日报聚焦多项技术突破：字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频；爱诗科技PixVerse V5全球上线支持多场景创作；腾讯开源Youtu-agent框架提升AI开发效率；百度智能云发布百舸AI计算平台5.0；OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现，展现人工智能领域快速发展的技术迭代与生态建设。

AI视频生成 OmniHuman-1.5 字节跳动
不叫骁龙8 Elite 2！曝高通新一代Soc命名为骁龙8 Elite Gen5

高通下一代旗舰Soc不叫骁龙8 Elite 2，暂定命名为骁龙8 Elite Gen5，型号为SM8850。如果命名属实的话，这颗Soc的中文名字可能会叫第五代骁龙8至尊版”，高通这次从第一代直接跳到了第五代。

高通骁龙8 Elite
智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

智谱今天，终于发了AutoGLM2.0。想一想，AutoGLM1.0的版本，距离我第一次首发写他们，已经过去快10个月了。那个时候，他们掀起了一波Agent热潮，甚至连A股都出现了智谱概念股，他们也开启了Agent的另一条支线，用视觉的方式来操控原有设备。当时，我对着我的手机说:我29号要去一趟深圳，你帮我定个罗湖地铁站附近的酒店，预算600元以内，大床房。然后，我的手机，就像

文章搜索核心标签 AutoGLM2.0
荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

本期AI日报聚焦多项技术突破：阿里通义万相发布Wan 2.2-S2V模型，实现视频音频同步生成；字节跳动研发3D模型生成工具，降低建模门槛；面壁智能推出MiniCPM-V4.5端侧多模态模型；苹果提出RLCF训练法提升模型性能；微软开源VibeVoice-1.5B支持超长语音合成；谷歌Imagen 4正式上线；英伟达发布Jetson Thor机器人计算平台；Genspark推出AI Designer一键生成品牌方案；豆包上线未成年人保护模式。

AI视频生成多模态AI 阿里通义万相
格创东智再获权威认可，AI Agent解决方案入选甲子光年报告

格创东智凭借工业AI+Agent创新实践入选甲子光年智库《企业级AI+Agent（智能体）价值及应用报告》，继获评"星跃100"2025中国AI产业逐浪者奖项后再获头部科技媒体认可。报告指出，该公司在复杂工作流编排、工具集成和领域知识沉淀三大维度表现突出，成为工业智能化转型标杆案例。其自主研发的章鱼智脑Agentic+AI平台支持多Agent协同和复杂工作流编排，通过"模型即服务、知识可视化、流程任编排"重构工业AI开发范式。典型案例"设备知识库Agent小鲁班"为半导体企业实现故障处理效率提升62%，年增收数千万元。公司持续深化"工业智能体"等研发投入，累计投入超10亿元，沉淀工业机理模型35000+个，构建了AI、工业软件、智能装备三合一的全栈服务生态。预测到2026年认知型Agent将覆盖70%企业复杂决策场景，格创东智将持续引领工业AI解决方案创新，助力中国制造业数字化升级。

工业AI Agent 企业级AI

今日大家都在搜的词：

热文

3 天
7天

FastGen：在不降低LLM质量的情况下降低GPU内存成本

荐AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

全球首款骁龙8 Elite Gen5旗舰！卢伟冰喜提小米16

首批骁龙8 Elite Gen5/天玑9500旗舰已备案：10月机圈大战

荐AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源 Mobile-Agent 3

瓴羊发布企业级分析Agent，让人人都可拥有超级数据分析师

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

不叫骁龙8 Elite 2！曝高通新一代Soc命名为骁龙8 Elite Gen5

智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

格创东智再获权威认可，AI Agent解决方案入选甲子光年报告

今日大家都在搜的词：

热文

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

《亮剑》开播20周年：今日全弹幕重返B站

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

蜜雪冰城上半年净赚27亿：全球门店破5.3万家加速全球化布局

小米澎湃OS 3超级岛适配应用公布加速推进多场景适配

三大运营商回应是否支持eSIM版iPhone：需等待通知

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

抖音升级AI内容标识功能上线两项核心功能

小米汽车8月交付量超3万台全年交付量有望冲击42万

站长商机