生成式LLM PowerInfer:单个GPU就能运行，机器学习模型推理速度提高11倍

2023-12-25 10:44 · 稿源：站长之家

站长之家（ChinaZ.com）12月25日消息:生成式大语言模型（LLM）因其在各种任务中的出色表现而闻名，包括复杂的自然语言处理 (NLP)、创意写作、问答和代码生成。近年来，LLM 已在易于使用的本地系统上运行，包括带有消费级 GPU 的家用 PC，以改善数据隐私、可定制模型并降低推理成本。本地安装优先考虑低延迟而不是高吞吐量;然而，由于内存要求较高，LLM 很难在消费级 GPU 上实现。

这些模型通常是自回归转换器，逐个生成文本标记，并且对于每个推理，都需要访问具有数千亿个参数的完整模型。这种限制在本地部署中很明显，因为处理单个请求时用于并行处理的空间较小。当前处理这些内存问题的两种策略是卸载和模型压缩。

在最近的一项研究中，一组研究人员提出了 PowerInfer，这是一种有效的 LLM 推理系统，专为使用单个消费级 GPU 进行本地部署而设计。PowerInfer 通过预选热激活神经元并将其预加载到离线 GPU 上，并使用在线预测器在运行时识别活动神经元，减少了对昂贵的 PCIe（外围组件互连 Express）数据传输的需求。

PowerInfer 设计背后的核心思想是利用 LLM 推理所带来的高局部性，其典型特征是神经元激活中的幂律分布。这种分布表明，大多数冷神经元根据某些输入而变化，而一小部分热神经元在不同的输入下持续激活。

该团队表示，PowerInfer 是一款利用了这种理解的 GPU-CPU 混合推理引擎。它将冷激活神经元预加载到 CPU 上进行计算，将热激活神经元预加载到 GPU 上进行即时访问。通过策略性地分配工作负载，GPU 的内存需求大大降低，CPU 和 GPU 之间的数据传输也更少。

PowerInfer 集成了神经元感知稀疏算子和自适应预测器，以进一步优化性能。神经元感知稀疏算子直接与单个神经元交互，无需对整个矩阵进行操作，而自适应预测器则有助于在运行时识别和预测活动神经元。这些优化增强了计算稀疏性和有效的神经元激活。

该团队评估了 PowerInfer 的性能，显示平均每秒13.20个代币创建速率，每秒29.08个代币的峰值性能。这些成果是使用单个 NVIDIA RTX4090GPU 和各种 LLM（包括 OPT-175B 模型）实现的。该性能仅比同类最佳服务器级 A100GPU 低18%，证明了 PowerInfer 在主流硬件上的有效性。

经过评估，PowerInfer 还表明，它的运行速度比当前的 llama.cpp 系统快11.69倍，同时保持模型保真度。总之，PowerInfer 显着提高了 LLM 推理速度，表明其作为在 GPU 功能有限的台式电脑上执行高级语言模型的解决方案的潜力。

项目体验网址：https://top.aibase.com/tool/powerinfer

论文：https://arxiv.org/abs/2312.12456

（举报）

相关推荐

关键词：

微算法科技（MLGO）利用逻辑回归和 LSTM 机器学习模型的准确比特币价格预测算法技术

微算科技（NASDAQ:MLGO）开发的LR-LSTM比特币价格预测技术，结合逻辑回归和长短期记忆网络优势，能更准确预测比特币价格波动。该技术通过多层次特征学习和时间序列建模，处理市场供需、交易量等基本特征，同时捕捉价格序列中的长期依赖关系。相比传统统计模型，LR-LSTM能更好适应数字货币市场的高波动性，为投资者提供可靠决策支持。实时更新和反馈机制确保模型随市场变化保持准确性，帮助投资者降低交易风险，把握市场机会。

数字货币比特币预测机器学习
荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
荐生成很强，推理很弱：GPT-4o的视觉短板

研究显示，GPT-4o在图像理解和推理上表现出色，能生成精美图片，但在基础逻辑测试中表现欠佳，暴露出理解、推断及多步骤逻辑处理的不足。例如，被要求画一只猫时，它先画了狗然后改为猫，但仍存在错误判断。这表明当前AI更像“精确指令机器”，需进一步优化以实现更精细的图像理解和复杂任务处理。

AI画图 GPT-4o 图像理解
投入1个亿！荣耀Power重构电池架构：机身厚度突破8mm

快科技4月15日消息，荣耀Power今晚正式发布，搭载8000mAh超大电池。据介绍，荣耀Power搭载第三代青海湖电池，具有行业领先的10%电池硅含量。同时，荣耀Power具有821Wh/L能量密度，相当于把10粒5号电池的能量压缩到一个乒乓球内，机身厚度突破8mm，仅有7.98mm，实现轻薄长续航。荣耀Power能够取得这样的成果离不开巨大投入，荣耀额外投入1个亿重构电池架构，先进电池封装工艺192mAh电池容量提升，立体架构堆叠实现37%电池体积占比，可靠性强化验证实现100万次循环测试。此外，荣耀Power联合了中国质量认证中心，24小时的长视频亮屏挑战也顺

荣耀Power 8000mAh电池第三代青海湖电池
行业首款轻户外手机！荣耀Power三大标准：续航、通信、品质超能

快科技4月15日消息，今晚，荣耀新机荣耀Power正式发布，官方宣称这是行业首款轻户外手机”。荣耀Power具备三大标准：超能续航、超能通信、超能品质，分别是超大电量，超薄机身、弱网强信号，无网不失联、硬核可靠，精致外观。据了解，荣耀Power让手机电池首次进入8时代，内置8000mAh超大荣耀青海湖电池。根据发布会PPT对比，荣耀Power比两部iPhone16的电池还大，甚至力压iPad Air的电池。此外，通过先进电池封装工艺及立体架构堆叠，荣耀Power还做到超长续航之下机身厚度仅为7.98mm，兼顾大电池和轻薄机身，减轻出行负担。

荣耀Power 轻户外手机超能续航
荣耀 Power 之后，国产旗舰手机将步入8000mAh时代

今年以来，OPPO、vivo、小米、真我等国产手机厂商纷纷加入 7000mAh+ 电池战局。与此同时，荣耀Power 率先将战场推向 Next Level —— 即 8000mAh 层级电池……

国产旗舰手机将步入8000mAh时代荣耀power REDMITurbo4Pro
荐不要思考过程，推理模型能力能够更强

UC伯克利和艾伦实验室的最新研究表明，推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案，跳过了传统推理模型中的显性思考步骤。实验证明，在低资源(低token数量、少模型参数)或低延迟情况下，NoThinking方法的表现优于传统思考方式，能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异，尤其在资源受限时优势更明显。研究还发现，结合并行计算扩展后，NoThinking能进一步提升性能，在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

推理模型无思考方法解决方案
“摸鱼神器”比Manus快4倍全球首个“行动浏览器”Fellou来了！

Fellou AI推出全球首款行动型浏览器Fellou，主打智能代理技术，能自动分解用户任务并跨网站执行。其搜索性能号称比OpenAI快4倍，单次任务成本仅0.03-3元。产品特点包括：1）支持登录式网站访问；2）通过沙箱环境实现多网页并行操作；3）内置智能模块自动规划任务流程；4）集成数据分析报告功能。目前提供Mac/PC版，Windows和移动版计划下半年推出。测试显示其综合评分优于Deep Research等竞品，开发者还可使用其开源框架Eko Framework进行扩展开发。

Fellou AI 行动型浏览器
8000mAh续航怪兽！荣耀Power外观首秀：搭载圆角矩形相机

快科技4月14日消息，今日荣耀手机官方放出了荣耀Power的预热视频，揭露了新机的外观。根据视频来看，荣耀Power新机的后摄采用了十分独特的圆角矩形模组，内含三个摄像头和一个闪光灯，不过很可能有一个是红外遥控或者是装饰物。背面的材质看起来光滑且有光泽，可能是玻璃或高光塑料，整体设计简洁大方，符合当前的智能手机设计趋势。据悉，荣耀Power定位户外手机品�

荣耀手机荣耀Power 新机预热视频
OPPO Pad SE定档5月15日：11英寸柔光屏主打全能学习辅导

OPPO Pad SE拥有星光银、夜幕黑、星光银柔光版和夜幕黑柔光版四种配色可供选择，满足不同用户的审美需求。购买平板的用户还可享受国家补贴，并获赠平板保护套和价值99元的手写笔，性价比极高。

OPPO Pad SE

热文

3 天
7天

生成式LLM PowerInfer:单个GPU就能运行，机器学习模型推理速度提高11倍

微算法科技（MLGO）利用逻辑回归和 LSTM 机器学习模型的准确比特币价格预测算法技术

荐国产六大推理模型激战OpenAI？

荐生成很强，推理很弱：GPT-4o的视觉短板

投入1个亿！荣耀Power重构电池架构：机身厚度突破8mm

行业首款轻户外手机！荣耀Power三大标准：续航、通信、品质超能

荣耀 Power 之后，国产旗舰手机将步入8000mAh时代

荐不要思考过程，推理模型能力能够更强

“摸鱼神器”比Manus快4倍全球首个“行动浏览器”Fellou来了！

8000mAh续航怪兽！荣耀Power外观首秀：搭载圆角矩形相机

OPPO Pad SE定档5月15日：11英寸柔光屏主打全能学习辅导

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

2025 年，SpaceX 发射了多少枚火箭？

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

苹果高管称：10 年后，可能 iPhone 将不复存在！

iPhone 17 air 配置参数图片一览，你还有补充的吗？

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头