首页 > AI头条  > 正文

生成式LLM PowerInfer:单个GPU就能运行,机器学习模型推理速度提高11倍

2023-12-25 10:46 · 来源: AIbase基地
生成式大语言模型因其在各种任务中的出色表现而闻名,包括复杂的自然语言处理、创意写作、问答和代码生成。LLM已在易于使用的本地系统上运行,包括带有消费级GPU的家用PC。据了解,PowerInfer 是一款利用了这种理解的 GPU-CPU 混合推理引擎,它将冷激活神经元预加载到 CPU 上进行计算,将热激活神经元预加载到 GPU 上进行即时访问。经过评估,PowerInfer 还表明,它的运行速度比当前的 llama.cpp 系统快11.69倍,同时保持模型保真度。总之,PowerInfer 显着提高了 LLM 推理速度,表明其作为在 GPU 功能有限的台式电脑上执行。
  • 相关推荐

今日大家都在搜的词: