首页 > 业界 > 关键词  > PowerInfer最新资讯  > 正文

生成式LLM PowerInfer:单个GPU就能运行,机器学习模型推理速度提高11倍

2023-12-25 10:44 · 稿源:站长之家

站长之家(ChinaZ.com)12月25日 消息:生成式大语言模型 (LLM) 因其在各种任务中的出色表现而闻名,包括复杂的自然语言处理 (NLP)、创意写作、问答和代码生成。近年来,LLM 已在易于使用的本地系统上运行,包括带有消费级 GPU 的家用 PC,以改善数据隐私、可定制模型并降低推理成本。本地安装优先考虑低延迟而不是高吞吐量;然而,由于内存要求较高,LLM 很难在消费级 GPU 上实现。

这些模型通常是自回归转换器,逐个生成文本标记,并且对于每个推理,都需要访问具有数千亿个参数的完整模型。这种限制在本地部署中很明显,因为处理单个请求时用于并行处理的空间较小。当前处理这些内存问题的两种策略是卸载和模型压缩。

在最近的一项研究中,一组研究人员提出了 PowerInfer,这是一种有效的 LLM 推理系统,专为使用单个消费级 GPU 进行本地部署而设计。PowerInfer 通过预选热激活神经元并将其预加载到离线 GPU 上,并使用在线预测器在运行时识别活动神经元,减少了对昂贵的 PCIe(外围组件互连 Express)数据传输的需求。

image.png

PowerInfer 设计背后的核心思想是利用 LLM 推理所带来的高局部性,其典型特征是神经元激活中的幂律分布。这种分布表明,大多数冷神经元根据某些输入而变化,而一小部分热神经元在不同的输入下持续激活。

该团队表示,PowerInfer 是一款利用了这种理解的 GPU-CPU 混合推理引擎。它将冷激活神经元预加载到 CPU 上进行计算,将热激活神经元预加载到 GPU 上进行即时访问。通过策略性地分配工作负载,GPU 的内存需求大大降低,CPU 和 GPU 之间的数据传输也更少。

PowerInfer 集成了神经元感知稀疏算子和自适应预测器,以进一步优化性能。神经元感知稀疏算子直接与单个神经元交互,无需对整个矩阵进行操作,而自适应预测器则有助于在运行时识别和预测活动神经元。这些优化增强了计算稀疏性和有效的神经元激活。

该团队评估了 PowerInfer 的性能,显示平均每秒13.20个代币创建速率,每秒29.08个代币的峰值性能。这些成果是使用单个 NVIDIA RTX4090GPU 和各种 LLM(包括 OPT-175B 模型)实现的。该性能仅比同类最佳服务器级 A100GPU 低18%,证明了 PowerInfer 在主流硬件上的有效性。

经过评估,PowerInfer 还表明,它的运行速度比当前的 llama.cpp 系统快11.69倍,同时保持模型保真度。总之,PowerInfer 显着提高了 LLM 推理速度,表明其作为在 GPU 功能有限的台式电脑上执行高级语言模型的解决方案的潜力。

项目体验网址:https://top.aibase.com/tool/powerinfer

论文:https://arxiv.org/abs/2312.12456

举报

  • 相关推荐
  • 微算法科技(MLGO)利用逻辑回归和 LSTM 机器学习模型的准确比特币价格预测算法技术

    微算科技(NASDAQ:MLGO)开发的LR-LSTM比特币价格预测技术,结合逻辑回归和长短期记忆网络优势,能更准确预测比特币价格波动。该技术通过多层次特征学习和时间序列建模,处理市场供需、交易量等基本特征,同时捕捉价格序列中的长期依赖关系。相比传统统计模型,LR-LSTM能更好适应数字货币市场的高波动性,为投资者提供可靠决策支持。实时更新和反馈机制确保模型随市场变化保持准确性,帮助投资者降低交易风险,把握市场机会。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 投入1个亿!荣耀Power重构电池架构:机身厚度突破8mm

    快科技4月15日消息,荣耀Power今晚正式发布,搭载8000mAh超大电池。据介绍,荣耀Power搭载第三代青海湖电池,具有行业领先的10%电池硅含量。同时,荣耀Power具有821Wh/L能量密度,相当于把10粒5号电池的能量压缩到一个乒乓球内,机身厚度突破8mm,仅有7.98mm,实现轻薄长续航。荣耀Power能够取得这样的成果离不开巨大投入,荣耀额外投入1个亿重构电池架构,先进电池封装工艺192mAh电池容量提升,立体架构堆叠实现37%电池体积占比,可靠性强化验证实现100万次循环测试。此外,荣耀Power联合了中国质量认证中心,24小时的长视频亮屏挑战也顺

  • 行业首款轻户外手机!荣耀Power三大标准:续航、通信、品质超能

    快科技4月15日消息,今晚,荣耀新机荣耀Power正式发布,官方宣称这是行业首款轻户外手机”。荣耀Power具备三大标准:超能续航、超能通信、超能品质,分别是超大电量,超薄机身、弱网强信号,无网不失联、硬核可靠,精致外观。据了解,荣耀Power让手机电池首次进入8时代,内置8000mAh超大荣耀青海湖电池。根据发布会PPT对比,荣耀Power比两部iPhone16的电池还大,甚至力压iPad Air的电池。此外,通过先进电池封装工艺及立体架构堆叠,荣耀Power还做到超长续航之下机身厚度仅为7.98mm,兼顾大电池和轻薄机身,减轻出行负担。

  • 荣耀 Power 之后,国产旗舰手机将步入8000mAh时代

    今年以来,OPPO、vivo、小米、真我等国产手机厂商纷纷加入 7000mAh+ 电池战局。与此同时,荣耀Power 率先将战场推向 Next Level —— 即 8000mAh 层级电池……

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • “摸鱼神器”比Manus快4 全球首个“行动浏览器”Fellou来了!

    Fellou AI推出全球首款行动型浏览器Fellou,主打智能代理技术,能自动分解用户任务并跨网站执行。其搜索性能号称比OpenAI快4倍,单次任务成本仅0.03-3元。产品特点包括:1)支持登录式网站访问;2)通过沙箱环境实现多网页并行操作;3)内置智能模块自动规划任务流程;4)集成数据分析报告功能。目前提供Mac/PC版,Windows和移动版计划下半年推出。测试显示其综合评分优于Deep Research等竞品,开发者还可使用其开源框架Eko Framework进行扩展开发。

  • 8000mAh续航怪兽!荣耀Power外观首秀:搭载圆角矩形相机

    快科技4月14日消息,今日荣耀手机官方放出了荣耀Power的预热视频,揭露了新机的外观。根据视频来看,荣耀Power新机的后摄采用了十分独特的圆角矩形模组,内含三个摄像头和一个闪光灯,不过很可能有一个是红外遥控或者是装饰物。背面的材质看起来光滑且有光泽,可能是玻璃或高光塑料,整体设计简洁大方,符合当前的智能手机设计趋势。据悉,荣耀Power定位户外手机品�

  • OPPO Pad SE定档5月15日:11英寸柔光屏 主打全能学习辅导

    OPPO Pad SE拥有星光银、夜幕黑、星光银柔光版和夜幕黑柔光版四种配色可供选择,满足不同用户的审美需求。购买平板的用户还可享受国家补贴,并获赠平板保护套和价值99元的手写笔,性价比极高。