首页 > 业界 > 关键词  > FastGen最新资讯  > 正文

FastGen:在不降低LLM质量的情况下降低GPU内存成本

2024-05-13 10:46 · 稿源:站长之家

划重点:

- ⭐FastGen 一种高效的技术,可以提高 LLM 的推理效率,而不会降低可见质量。

- ⭐FastGen 轻量级模型分析和自适应键值缓存来实现。

- ⭐FastGen 通过自适应的键值缓存构造来少生成推理过程中的 GPU 内存使用量。

站长之家(ChinaZ.com)5月13日 消息:研究人员来自伊利诺伊大学厄巴纳 - 香槟分校和微软提出了一种名为 FastGen 的高效技术,通过使用轻量级模型分析和自适应键值缓来提高 LLM 的推理效率,而不会降低可见质量。FastGen 通过自适应的键值缓存构造来减少生成推理过程中的 GPU 内存使用量。

image.png

FastGen 的自适应键值缓存压缩方法减小了 LLM 生成推理内存占用。该方法涉及两个步骤:

1. 提示编码:注意模块需要从前面的 i-1标记中收集上下文信息,以生成 LLM 的第 i 个标记。

2. 令牌生成:当完成提示编码后,M 逐个标记生成输出,对于每个步骤,使用 LLM 对上一步生成的新标记进行编码。

对于 B 模型,FastGen 在所有非自适应键值缓存压缩方法中表现最佳,并随着模型规模的增加而得更高的键值缓存压缩比例,同时保持模型的质量不受影响。例如,与 Llama17B 上的16.9% 压缩比例相比,FastGen 在 Llama1-65B 上获得了44.9% 的缩比例,达到了45% 的胜率。此外,对 FastGen 进行了敏感性分析,选择了不同的超。由于模型保持45% 的胜率,研究表明在更改超参数后对生成质量没有明显影响。

伊利诺伊大学厄巴纳 - 香槟分校和微软的研究人员提出了 FastGen,一种新的技,通过使用轻量级模型分析和自适应键值缓存来提高 LLM 的推理效率,而不会降低见质量。研究人员引入的自适应键值缓存压缩通过 FastGen 构建,以减少 LLM 生成推的内存占用。未来的工作包括将 FastGen 与其他模型压缩方法(如量化和蒸馏、分组查询注意等)进行整合。

论文地址:https://arxiv.org/abs/2310.01801

举报

  • 相关推荐
  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • 全球首款骁龙8 Elite Gen5旗舰!卢伟冰喜提小米16

    今天下午,小米集团总裁卢伟冰使用小米新机发了一条微博,引发关注。不出意外,这款新机就是即将登场的小米16,新品已经获得入网许可,就等官宣了。 据悉,小米16系列共有3款,型号分别是25098PN5AC、2509FPN0BC、25113PN0EC,预计分别命名为小米16、小米16 Pro和小米16 Pro Max。 该机全球首发骁龙8 Elite Gen5平台,这颗芯片由2*4.61GHz超大核 6*3.63GHz大核组成,并集成Adreno 840 GPU,GPU�

  • 首批骁龙8 Elite Gen5/天玑9500旗舰已备案:10月机圈大战

    首批骁龙8 Elite Gen5、天玑9500旗舰已经备案,包括小米16系列、荣耀Magic8系列、vivo X300系列和OPPO Find X9系列。 据悉,前两款旗舰搭载高通骁龙8 Elite Gen5平台,后两款旗舰搭载联发科天玑9500平台,除了小米16系列会在9月亮相之外,其它迭代旗舰都会集中到10月发布,10月份将迎来机圈大混战。

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

  • 瓴羊发布企业级分析Agent,让人人都可拥有超级数据分析师

    阿里巴巴旗下瓴羊发布首个数据分析Agent“智能小Q”,升级为“超级数据分析师”,由问数、解读和报告三大核心Agent组成。该工具能快速获取数据、解读数据并输出洞察报告,将原本需数小时的数据处理时间缩短至最快10秒,专业报告生成仅需20分钟。通过三重技术体系提升企业级数据分析可靠性,覆盖近20个细分行业,支持用户自定义需求。目前已有瑞幸咖啡、牧原食品等百余家企业客户使用,9月9日起全面开放给所有企业用户。

  • AI日报:字节OmniHuman-1.5发布;PixVerse V5模型上线;​腾讯开源智能体框架Youtu-agent

    本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。

  • 不叫骁龙8 Elite 2!曝高通新一代Soc命名为骁龙8 Elite Gen5

    高通下一代旗舰Soc不叫骁龙8 Elite 2,暂定命名为骁龙8 Elite Gen5,型号为SM8850。 如果命名属实的话,这颗Soc的中文名字可能会叫第五代骁龙8至尊版”,高通这次从第一代直接跳到了第五代。

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • 格创东智再获权威认可,AI Agent解决方案入选甲子光年报告

    格创东智凭借工业AI+Agent创新实践入选甲子光年智库《企业级AI+Agent(智能体)价值及应用报告》,继获评"星跃100"2025中国AI产业逐浪者奖项后再获头部科技媒体认可。报告指出,该公司在复杂工作流编排、工具集成和领域知识沉淀三大维度表现突出,成为工业智能化转型标杆案例。其自主研发的章鱼智脑Agentic+AI平台支持多Agent协同和复杂工作流编排,通过"模型即服务、知识可视化、流程任编排"重构工业AI开发范式。典型案例"设备知识库Agent小鲁班"为半导体企业实现故障处理效率提升62%,年增收数千万元。公司持续深化"工业智能体"等研发投入,累计投入超10亿元,沉淀工业机理模型35000+个,构建了AI、工业软件、智能装备三合一的全栈服务生态。预测到2026年认知型Agent将覆盖70%企业复杂决策场景,格创东智将持续引领工业AI解决方案创新,助力中国制造业数字化升级。

今日大家都在搜的词: