首页 > 业界 > 关键词  > Meta最新资讯  > 正文

延迟降低2倍!英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

2024-04-20 12:50 · 稿源: TechWeb.com.cn

模型性能升级,Meta Llama 3发布

2024年4月20日,Meta宣布推出其最新的开源大模型Meta Llama 3,该模型拥有80亿和700亿参数。该模型进行了功能升级,采用了改进的推理技术和新的标记器,以提高编码效率和模型性能。

Meta Llama 3发布后,英特尔立即对该模型在英特尔至强处理器等AI硬件产品上的兼容性进行了测试,并公布了英特尔即将推出的至强6性能核处理器(代号Granite Rapids)运行该模型时的推理性能。

英特尔至强处理器:大模型推理的优化平台

英特尔至强处理器专为处理各种复杂的AI工作负载而设计。例如,第五代至强处理器配备了AMX加速引擎,显著提高了AI推理和训练的性能。这种处理器已广泛应用于主流云服务提供商。

此外,至强处理器在执行通用计算任务时具有较低的延迟,并且能够同时处理多个工作负载。

英特尔一直在优化其至强平台的大模型推理性能。与Llama 2模型的软件相比,英特尔PyTorch扩展包将延迟降低了5倍。这种优化是通过Paged Attention算法和张量并行实现的,从而最大化了算力和内存带宽的利用率。

基于AWS实例的Llama 3推理性能

基于AWS实例的Llama 3推理性能

Granite Rapids处理器提升推理延迟

除了上述结果,英特尔还公布了Granite Rapids处理器针对Meta Llama 3的性能测试结果。数据显示,与第四代至强处理器相比,Granite Rapids在80亿参数的Llama 3模型上的推理延迟降低了一半,并且能够在单个双路服务器上以低于100毫秒的token延迟运行更大参数的推理模型。

基于英特尔至强6性能核处理器(代号Granite Rapids)的Llama 3推理性能

基于英特尔至强6性能核处理器(代号Granite Rapids)的Llama 3推理性能

高效的编码语言标记器

Meta Llama 3采用了更有效的编码语言标记器。与Llama 2进行快速比较时,在相同的提示下,Llama 3标记的token数量减少了18%。

因此,尽管Llama 3模型的参数比Llama 2更高,但在AWS m7i.metal-48xl实例上使用BF16进行推理时,整体提示的推理延迟几乎保持一致,而Llama 3相对于Llama 2的速度提升了1.04倍。

举报

  • 相关推荐
  • 技嘉发布X3D系列主板:专为AMD X3D处理器打造,游戏性能提升高达25%

    技嘉推出专为AMD Ryzen X3D处理器优化的X870E AORUS X3D系列主板,首发型号包括MASTER与PRO两款。该系列搭载X3D鸡血模式2.0技术,通过AI智能场景识别可自动优化处理器性能,游戏性能最高提升25%。主板采用全快易拆设计,配备免螺丝M.2插槽、磁吸散热装甲及一键拆卸显卡插槽。集成AI黑科技2.0支持DDR5内存超频至9000MT/s+,预装网卡驱动实现开机即联网。两款主板均提供4年质保(含1年免费换新),现已在各大电商平台上市。

  • 华为FreeClip 2耳夹耳机正式开售:售价1299元 搭载NPU AI处理器

    华为FreeClip 2耳夹耳机10月20日开售,售价1299元。预售1小时销量破8万台,市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器,算力提升10倍;配备超澎湃双引擎单元,响度与低频动力均翻倍。支持L2HC高清音频编码,音质清晰。新增鸿蒙AI耳边助手,支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构,单耳重5.1克,佩戴舒适且具备IP57防护。续航方面单次使用9小时,配合充电仓总续航达38小时,充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

    本月苹果推出了全新MacBook Pro、iPad Pro及Vision Pro,这些设备均搭载新一代M5芯片。除了上述新品,苹果还有一款MacBook已在路上,许多人期待能在节前看到。 行业分析师郭明錤透露,苹果正研发一款更具性价比的13英寸笔记本电脑,这款产品旨在对标Chromebook,提升MacBook的整体销量,新MacBook将搭载A18 Pro芯片,这颗芯片去年在iPhone 16 Pro上首发搭载。 在Mac产品中使用iPhone芯片,从�

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

  • 最强Mate旗舰!华为Mate 80本月下旬亮相

    华为Mate 80系列会在11月25日前后发布,这将是史上最强Mate旗舰。 据悉,本次发布会将会推出Mate 80、Mate 80 Pro、Mate 80 Pro 和Mate 80 RS四款旗舰,其中标准版代号Voyager,支持66W有线快充;Pro、Pro 及RS版统一采用Sagittarius代号,支持100W有线充电。

  • 连续三年折桂!瓴羊Dataphin荣膺2025年度DAMA数据治理优秀产品奖!

    2025全球数据管理峰会以“数据×人工智能”为主题,聚焦行业最佳实践,构建从理念探讨到技术落地的完整交流链。会上,瓴羊与DAMA联合发布数据治理实践证书体系,覆盖数据分析等认证,旨在提升全民数据素养。瓴羊副总裁王赛提出Data与AI双向赋能重构企业数字化生产力,强调未来系统需支持自主决策与自动化执行。以快消品牌为例,通过Quick BI智能分析工具实现业务效率提升。瓴羊Dataphin平台助力企业构建AI友好型数据模型,连续三年获“数据治理优秀产品”大奖,提供全链路数据服务,加速释放数据价值。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

今日大家都在搜的词: