首页 > 业界 > 关键词  > Meta最新资讯  > 正文

延迟降低2倍!英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

2024-04-20 12:50 · 稿源: TechWeb.com.cn

模型性能升级,Meta Llama 3发布

2024年4月20日,Meta宣布推出其最新的开源大模型Meta Llama 3,该模型拥有80亿和700亿参数。该模型进行了功能升级,采用了改进的推理技术和新的标记器,以提高编码效率和模型性能。

Meta Llama 3发布后,英特尔立即对该模型在英特尔至强处理器等AI硬件产品上的兼容性进行了测试,并公布了英特尔即将推出的至强6性能核处理器(代号Granite Rapids)运行该模型时的推理性能。

英特尔至强处理器:大模型推理的优化平台

英特尔至强处理器专为处理各种复杂的AI工作负载而设计。例如,第五代至强处理器配备了AMX加速引擎,显著提高了AI推理和训练的性能。这种处理器已广泛应用于主流云服务提供商。

此外,至强处理器在执行通用计算任务时具有较低的延迟,并且能够同时处理多个工作负载。

英特尔一直在优化其至强平台的大模型推理性能。与Llama 2模型的软件相比,英特尔PyTorch扩展包将延迟降低了5倍。这种优化是通过Paged Attention算法和张量并行实现的,从而最大化了算力和内存带宽的利用率。

基于AWS实例的Llama 3推理性能

基于AWS实例的Llama 3推理性能

Granite Rapids处理器提升推理延迟

除了上述结果,英特尔还公布了Granite Rapids处理器针对Meta Llama 3的性能测试结果。数据显示,与第四代至强处理器相比,Granite Rapids在80亿参数的Llama 3模型上的推理延迟降低了一半,并且能够在单个双路服务器上以低于100毫秒的token延迟运行更大参数的推理模型。

基于英特尔至强6性能核处理器(代号Granite Rapids)的Llama 3推理性能

基于英特尔至强6性能核处理器(代号Granite Rapids)的Llama 3推理性能

高效的编码语言标记器

Meta Llama 3采用了更有效的编码语言标记器。与Llama 2进行快速比较时,在相同的提示下,Llama 3标记的token数量减少了18%。

因此,尽管Llama 3模型的参数比Llama 2更高,但在AWS m7i.metal-48xl实例上使用BF16进行推理时,整体提示的推理延迟几乎保持一致,而Llama 3相对于Llama 2的速度提升了1.04倍。

举报

  • 相关推荐