延迟降低2倍！英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

2024-04-20 12:50 · 稿源： TechWeb.com.cn

大模型性能升级，Meta Llama 3发布

2024年4月20日，Meta宣布推出其最新的开源大模型Meta Llama 3，该模型拥有80亿和700亿参数。该模型进行了功能升级，采用了改进的推理技术和新的标记器，以提高编码效率和模型性能。

Meta Llama 3发布后，英特尔立即对该模型在英特尔至强处理器等AI硬件产品上的兼容性进行了测试，并公布了英特尔即将推出的至强6性能核处理器（代号Granite Rapids）运行该模型时的推理性能。

英特尔至强处理器：大模型推理的优化平台

英特尔至强处理器专为处理各种复杂的AI工作负载而设计。例如，第五代至强处理器配备了AMX加速引擎，显著提高了AI推理和训练的性能。这种处理器已广泛应用于主流云服务提供商。

此外，至强处理器在执行通用计算任务时具有较低的延迟，并且能够同时处理多个工作负载。

英特尔一直在优化其至强平台的大模型推理性能。与Llama 2模型的软件相比，英特尔PyTorch扩展包将延迟降低了5倍。这种优化是通过Paged Attention算法和张量并行实现的，从而最大化了算力和内存带宽的利用率。

基于AWS实例的Llama 3推理性能

Granite Rapids处理器提升推理延迟

除了上述结果，英特尔还公布了Granite Rapids处理器针对Meta Llama 3的性能测试结果。数据显示，与第四代至强处理器相比，Granite Rapids在80亿参数的Llama 3模型上的推理延迟降低了一半，并且能够在单个双路服务器上以低于100毫秒的token延迟运行更大参数的推理模型。

基于英特尔至强6性能核处理器（代号Granite Rapids）的Llama 3推理性能

高效的编码语言标记器

Meta Llama 3采用了更有效的编码语言标记器。与Llama 2进行快速比较时，在相同的提示下，Llama 3标记的token数量减少了18%。

因此，尽管Llama 3模型的参数比Llama 2更高，但在AWS m7i.metal-48xl实例上使用BF16进行推理时，整体提示的推理延迟几乎保持一致，而Llama 3相对于Llama 2的速度提升了1.04倍。

（举报）

延迟降低2倍！英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

大模型性能升级，Meta Llama 3发布

英特尔至强处理器：大模型推理的优化平台

Granite Rapids处理器提升推理延迟

高效的编码语言标记器

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

Meta V-JEPA 2模型来袭，OpenAI/微美全息AI创新跃升赋能千行百业变革

BYDFi 亮相首尔Meta Week 2025，聚焦Web3愿景与全球合规战略

Meta想要用AI搞定广告制作流程的“每一步自动化”

Meta AI新增生成式AI视频编辑功能：秒换服装、场景

Meta整合AI团队实力跃升，OpenAI/微美全息多维技术发展锚定前沿未来

山姆·奥特曼称Meta用上亿美元“挖角”失败：OpenAI顶尖人才没人跳槽

Meta拟重金加码AI赛道，传将斥资超百亿美元投资Scale AI

英特尔集显超频至 4.25 GHz，打破 RTX 4090 的世界纪录

19岁曾从麻省理工辍学创业！Meta用150亿美元收购华裔“天才少年”公司

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

小米股票上热搜：盘中股价突破60港元创历史新高

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小米YU7 3分钟大定突破200000台雷军：YU7订单要高于SU7

京东回应外卖员帮扔垃圾每单0.5元：小范围测试未正式上线

雷军说特斯拉确实了不起：引领了行业趋势尤其是FSD

小鹏G7官宣7月3日发布全球首款L3级算力车型

荣耀正式启动A股IPO 获上市辅导备案

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

站长商机