20倍的压缩比例！微软发布LLMLingua:压缩长提示并加快模型推理速度

2023-12-14 10:17 · 稿源：站长之家

划重点:
🔍微软团队推出 LLMLingua，一种独特的粗细压缩技术，用于压缩长提示并加快模型推理速度。
🔍LLMLingua 采用动态预算控制、逐标记迭代压缩算法和指令调整方法，确保在大比例压缩下保持提示的语义完整性。
🔍实验结果表明，LLMLingua 在不同情境中都达到了最先进的性能，并能实现高达20倍的压缩比例。

微软的研究团队开发了一种名为 LLMLingua 的独特粗细压缩技术，旨在解决大型语言模型（LLMs）中长提示带来的问题。LLMs 以其强大的泛化和推理能力显著推动了人工智能(AI)领域的发展，展示了自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面的能力。然而，最新的发展，如上下文学习(ICL)和思维链(CoT)提示，导致了部署更长提示的需求，有时甚至超过数万个标记。这在模型推理方面带来了成本效益和计算效率的问题。

为了克服这些挑战，微软团队引入了 LLMLingua，一种独特的粗细压缩技术。LLMLingua 的主要目标是减少处理长提示的费用，并加快模型推理速度。为此，LLMLingua 采用了以下几种关键策略:

1. 预算控制器:设计了一个动态预算控制器，用于在原始提示的各个部分之间分配压缩比例。这确保了即使在大比例压缩下，提示的语义完整性也得到保留。

2. 标记级迭代压缩算法:LLMLingua 集成了一种标记级迭代压缩算法，通过捕捉压缩元素之间的相互依赖关系，实现更复杂的压缩，并保持关键提示信息。

3. 指令调整方法:团队提出了一种基于指令调整的方法，用于解决语言模型之间的分布不一致问题。调整语言模型的分布可以提高用于快速压缩的小型语言模型与预期 LLM 之间的兼容性。

团队使用来自不同情境的四个数据集进行了分析和实验，以验证 LLMLingua 的实用性。这些数据集包括推理的 GSM8K 和 BBH，对话的 ShareGPT 以及摘要的 Arxiv-March23。结果显示，该方法在每种情境下都实现了最先进的性能。结果甚至表明，LLMLingua 在牺牲很少性能的情况下允许高达20倍的压缩。

实验中使用的小型语言模型是 LLaMA-7B，闭合的 LLM 是 GPT-3.5-Turbo-0301。LLMLingua 在最大压缩比例为20倍时优于先前的压缩技术，保留了推理、摘要和话语技能，展现了弹性、经济性、高效性和可恢复性。

LLMLingua 的有效性已经在一系列闭合 LLMs 和小型语言模型中得到观察。在使用 GPT-2-small 时，LLMLingua 显示出与较大模型相当的性能结果。它还在强大的 LLMs 上表现出色，超出了预期的快速结果。

LLMLingua 的可恢复性是一个值得注意的方面，当用于恢复压缩提示时，GPT-4可以有效地从完整的九步 CoT 提示中检索重要的推理信息，保持原始提示的意义和相似性。这个功能确保了可恢复性，即使在翻译后也能保留关键信息，增加了 LLMLingua 的整体亮点。

，LLMLingua 为 LLM 应用程序中长提示所带来的困难提供了全面的解决方案。该方法表现出色，并提供了一种改善 LLM 应用程序的效果和可负担性的有用方式。

项目网址:https://github.com/microsoft/LLMLingua

论文网址:https://arxiv.org/pdf/2310.05736.pdf

博客网址:https://www.microsoft.com/en-us/research/blog/llmlingua-innovating-llm-efficiency-with-prompt-compression/

（举报）

相关推荐

关键词：

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

2025年11月11日，舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计，提供一站式高品质音频服务，集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证，无缝接入MTR生态系统，支持端到端加密通信，确保会议安全。用户可远程管理系统，降低运维成本。舒尔与微软合作，共同提升企业协作效率，首批体验用户反馈语音清晰流畅，显著优化沟通质量。

Shure IntelliMix Room
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
突破大模型对齐瓶颈，北大团队携手昇腾打通产业应用通路

北大杨耀东团队研发Align-Anything多模态对齐框架，以RLHF为核心解决传统反馈信息有限问题，覆盖文本、图像、音频等全模态数据。该框架集成专用评估工具Eval-Anything，已在昇腾平台实现智慧医疗、网络安全等领域规模化落地。通过构建安全治理体系，显著提升大模型安全水位，同时保持通用能力。团队联合推出课程培养人才，深化产学研协同，为多模态大模型发展提供关键技术支撑。

多模态大模型产业智能化升级模型训练与推理
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案，标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑，该模型围绕用户兴趣成长周期设计，提供个性化学习支持：可为未明确兴趣方向的用户智能推荐内容，为入门用户规划学习路径，为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖，并通过社群互动增强学习动力。公司未来将持续优化模型能力，联合行业伙伴构建完整培养体系，推动兴趣教育向个性化、高质量方向发展。

简智AI大模型生成式人工智能兴趣教育
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
寒武纪：构建大模型开发到部署的全流程开放服务能力

华鑫证券研报显示，寒武纪2025年上半年业绩亮眼，营收28.81亿元，同比增长4347.82%；归母净利润10.38亿元，增长295.82%。公司募资39.85亿元，重点投向大模型芯片及软件平台建设，以增强AI算力芯片综合实力。凭借云边端一体、软硬协同等技术优势，其产品已获多领域客户认可，覆盖金融、互联网等行业。未来随着技术迭代与生态完善，业绩有望持续提升。

寒武纪 AI算力芯片大模型芯片

今日大家都在搜的词：

热文

3 天
7天

20倍的压缩比例！微软发布LLMLingua:压缩长提示并加快模型推理速度

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

突破大模型对齐瓶颈，北大团队携手昇腾打通产业应用通路

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

寒武纪：构建大模型开发到部署的全流程开放服务能力

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

荣耀500系列开启预约：Pro版外观首次亮相

站长商机

20倍的压缩比例！​微软发布LLMLingua:压缩长提示并加快模型推理速度

今日大家都在搜的词：

热文

站长商机

20倍的压缩比例！微软发布LLMLingua:压缩长提示并加快模型推理速度