生成式LLM PowerInfer:单个GPU就能运行，机器学习模型推理速度提高11倍

2023-12-25 10:44 · 稿源：站长之家

站长之家（ChinaZ.com）12月25日消息:生成式大语言模型（LLM）因其在各种任务中的出色表现而闻名，包括复杂的自然语言处理 (NLP)、创意写作、问答和代码生成。近年来，LLM 已在易于使用的本地系统上运行，包括带有消费级 GPU 的家用 PC，以改善数据隐私、可定制模型并降低推理成本。本地安装优先考虑低延迟而不是高吞吐量;然而，由于内存要求较高，LLM 很难在消费级 GPU 上实现。

这些模型通常是自回归转换器，逐个生成文本标记，并且对于每个推理，都需要访问具有数千亿个参数的完整模型。这种限制在本地部署中很明显，因为处理单个请求时用于并行处理的空间较小。当前处理这些内存问题的两种策略是卸载和模型压缩。

在最近的一项研究中，一组研究人员提出了 PowerInfer，这是一种有效的 LLM 推理系统，专为使用单个消费级 GPU 进行本地部署而设计。PowerInfer 通过预选热激活神经元并将其预加载到离线 GPU 上，并使用在线预测器在运行时识别活动神经元，减少了对昂贵的 PCIe（外围组件互连 Express）数据传输的需求。

PowerInfer 设计背后的核心思想是利用 LLM 推理所带来的高局部性，其典型特征是神经元激活中的幂律分布。这种分布表明，大多数冷神经元根据某些输入而变化，而一小部分热神经元在不同的输入下持续激活。

该团队表示，PowerInfer 是一款利用了这种理解的 GPU-CPU 混合推理引擎。它将冷激活神经元预加载到 CPU 上进行计算，将热激活神经元预加载到 GPU 上进行即时访问。通过策略性地分配工作负载，GPU 的内存需求大大降低，CPU 和 GPU 之间的数据传输也更少。

PowerInfer 集成了神经元感知稀疏算子和自适应预测器，以进一步优化性能。神经元感知稀疏算子直接与单个神经元交互，无需对整个矩阵进行操作，而自适应预测器则有助于在运行时识别和预测活动神经元。这些优化增强了计算稀疏性和有效的神经元激活。

该团队评估了 PowerInfer 的性能，显示平均每秒13.20个代币创建速率，每秒29.08个代币的峰值性能。这些成果是使用单个 NVIDIA RTX4090GPU 和各种 LLM（包括 OPT-175B 模型）实现的。该性能仅比同类最佳服务器级 A100GPU 低18%，证明了 PowerInfer 在主流硬件上的有效性。

经过评估，PowerInfer 还表明，它的运行速度比当前的 llama.cpp 系统快11.69倍，同时保持模型保真度。总之，PowerInfer 显着提高了 LLM 推理速度，表明其作为在 GPU 功能有限的台式电脑上执行高级语言模型的解决方案的潜力。

项目体验网址：https://top.aibase.com/tool/powerinfer

论文：https://arxiv.org/abs/2312.12456

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
北大发布新图像生成框架VAR 推理速度提高20倍

北京大学最近发布了一种新的图像生成框架，名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer，同时展现出了与大语言模型观察到的类似Scalinglaws的规律。VAR算法为计算机视觉中的自回归算法设计提供了新的见解，有望推动这一领域的进一步发展。

图像生成 AI头条
fal官网体验入口生成式媒体模型AI推理工具使用地址

fal是一个生成式媒体平台，旨在为开发者提供最先进的生成式媒体模型，并通过fal的推理专家优化，实现闪电般快速的推理。该平台支持实时WebSocket推理基础设施，并提供私有部署选项，以最经济的方式根据使用量付费。开发者可通过fal灵活的计费方式，实现经济高效的生成式媒体应用。

fal
字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD，是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能，同时保持了模型大小的精简。随着进一步的研究和开发，Hyper-SD及其衍生技术有望在多个领域内推动AI技术的发展和应用。

Hyper AI头条
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
戴尔存储解决方案Dell PowerScale：全球率先通过NVIDIA SuperPOD验证

DellPowerScale文件存储在功能强大的NVIDIADGXSuperPOD基础架构中提升AI工作负载性能。欢迎来到生成式人工智能时代，创新与效率相得益彰，并且充满无限可能。[1]基于戴尔科技集团的内部分析，2024年3月。

Dell PowerScale NVIDIA
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱

在Meta的首季度财报电话会议上，CEO马克・扎克伯格向投资者表示，生成式AI的热潮已经到来，但不要指望它能很快带来利润。Meta公司净利润在上个季度已经达到120亿美元，营收为365亿美元，但未来其营收增长有望放缓，同时在AI和元宇宙方面的支出也创下历史新高。但现在似乎很明显，时尚AI眼镜也有一个有意义的市场无需显示屏。

Meta 生成式AI AI头条
戴尔推出最新一代PowerScale，加速AI创新

戴尔科技推出全新全闪存PowerScaleF210和PowerScaleF710，AI就绪数据平台加速AI创新为实现AI愿景，去年12月，戴尔科技宣布正在研发先进的存储技术，为客户提供AI优化的基础架构。戴尔科技宣布推出适用于全闪存产品的两个新节点——DellPowerScaleF210和F710。关于戴尔科技集团戴尔科技集团致力于帮助企业和个人构建数字化未来，改进他们的工作、生活和娱乐方式，为客户提供面向数据时代全面和创新的产品、技术、解决方案及服务组合。

戴尔科技全新全闪存PowerScale AI就绪数据平台

今日大家都在搜的词：

热文

3 天
7天

生成式LLM PowerInfer:单个GPU就能运行，机器学习模型推理速度提高11倍

今日大家都在搜的词：

热文

站长商机