首页 > 业界 > 关键词  > LLMLingua最新资讯  > 正文

20倍的压缩比例!​微软发布LLMLingua:压缩长提示并加快模型推理速度

2023-12-14 10:17 · 稿源:站长之家

划重点:

🔍微软团队推出 LLMLingua,一种独特的粗细压缩技术,用于压缩长提示并加快模型推理速度。

🔍LLMLingua 采用动态预算控制、逐标记迭代压缩算法和指令调整方法,确保在大比例压缩下保持提示的语义完整性。

🔍实验结果表明,LLMLingua 在不同情境中都达到了最先进的性能,并能实现高达20倍的压缩比例。

微软的研究团队开发了一种名为 LLMLingua 的独特粗细压缩技术,旨在解决大型语言模型(LLMs)中长提示带来的问题。LLMs 以其强大的泛化和推理能力显著推动了人工智能(AI)领域的发展,展示了自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面的能力。然而,最新的发展,如上下文学习(ICL)和思维链(CoT)提示,导致了部署更长提示的需求,有时甚至超过数万个标记。这在模型推理方面带来了成本效益和计算效率的问题。

image.png

为了克服这些挑战,微软团队引入了 LLMLingua,一种独特的粗细压缩技术。LLMLingua 的主要目标是减少处理长提示的费用,并加快模型推理速度。为此,LLMLingua 采用了以下几种关键策略:

1. 预算控制器:设计了一个动态预算控制器,用于在原始提示的各个部分之间分配压缩比例。这确保了即使在大比例压缩下,提示的语义完整性也得到保留。

2. 标记级迭代压缩算法:LLMLingua 集成了一种标记级迭代压缩算法,通过捕捉压缩元素之间的相互依赖关系,实现更复杂的压缩,并保持关键提示信息。

3. 指令调整方法:团队提出了一种基于指令调整的方法,用于解决语言模型之间的分布不一致问题。调整语言模型的分布可以提高用于快速压缩的小型语言模型与预期 LLM 之间的兼容性。

团队使用来自不同情境的四个数据集进行了分析和实验,以验证 LLMLingua 的实用性。这些数据集包括推理的 GSM8K 和 BBH,对话的 ShareGPT 以及摘要的 Arxiv-March23。结果显示,该方法在每种情境下都实现了最先进的性能。结果甚至表明,LLMLingua 在牺牲很少性能的情况下允许高达20倍的压缩。

实验中使用的小型语言模型是 LLaMA-7B,闭合的 LLM 是 GPT-3.5-Turbo-0301。LLMLingua 在最大压缩比例为20倍时优于先前的压缩技术,保留了推理、摘要和话语技能,展现了弹性、经济性、高效性和可恢复性。

LLMLingua 的有效性已经在一系列闭合 LLMs 和小型语言模型中得到观察。在使用 GPT-2-small 时,LLMLingua 显示出与较大模型相当的性能结果。它还在强大的 LLMs 上表现出色,超出了预期的快速结果。

LLMLingua 的可恢复性是一个值得注意的方面,当用于恢复压缩提示时,GPT-4可以有效地从完整的九步 CoT 提示中检索重要的推理信息,保持原始提示的意义和相似性。这个功能确保了可恢复性,即使在翻译后也能保留关键信息,增加了 LLMLingua 的整体亮点。

,LLMLingua 为 LLM 应用程序中长提示所带来的困难提供了全面的解决方案。该方法表现出色,并提供了一种改善 LLM 应用程序的效果和可负担性的有用方式。

项目网址:https://github.com/microsoft/LLMLingua

论文网址:https://arxiv.org/pdf/2310.05736.pdf

博客网址:https://www.microsoft.com/en-us/research/blog/llmlingua-innovating-llm-efficiency-with-prompt-compression/

举报

  • 相关推荐
  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

    2025年11月11日,舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计,提供一站式高品质音频服务,集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证,无缝接入MTR生态系统,支持端到端加密通信,确保会议安全。用户可远程管理系统,降低运维成本。舒尔与微软合作,共同提升企业协作效率,首批体验用户反馈语音清晰流畅,显著优化沟通质量。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

  • 突破大模型对齐瓶颈,北大团队携手昇腾打通产业应用通路

    北大杨耀东团队研发Align-Anything多模态对齐框架,以RLHF为核心解决传统反馈信息有限问题,覆盖文本、图像、音频等全模态数据。该框架集成专用评估工具Eval-Anything,已在昇腾平台实现智慧医疗、网络安全等领域规模化落地。通过构建安全治理体系,显著提升大模型安全水位,同时保持通用能力。团队联合推出课程培养人才,深化产学研协同,为多模态大模型发展提供关键技术支撑。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 简知科技“简智AI大模型”通过国家生成式人工智能服务备案,助力兴趣教育迈向智能化新阶段

    广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案,标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑,该模型围绕用户兴趣成长周期设计,提供个性化学习支持:可为未明确兴趣方向的用户智能推荐内容,为入门用户规划学习路径,为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖,并通过社群互动增强学习动力。公司未来将持续优化模型能力,联合行业伙伴构建完整培养体系,推动兴趣教育向个性化、高质量方向发展。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 寒武纪:构建大模型开发到部署的全流程开放服务能力

    华鑫证券研报显示,寒武纪2025年上半年业绩亮眼,营收28.81亿元,同比增长4347.82%;归母净利润10.38亿元,增长295.82%。公司募资39.85亿元,重点投向大模型芯片及软件平台建设,以增强AI算力芯片综合实力。凭借云边端一体、软硬协同等技术优势,其产品已获多领域客户认可,覆盖金融、互联网等行业。未来随着技术迭代与生态完善,业绩有望持续提升。

今日大家都在搜的词: