首页 > 业界 > 关键词  > PonteVecchio最新资讯  > 正文

英特尔详细介绍Ponte Vecchio 性能可达英伟达A100平台的2.5倍

2022-08-23 09:15 · 稿源: cnbeta

在 Hot Chips 34 大会期间,英特尔再次详细介绍了 Sapphire Rapids HBM 处理器 + Ponte Vecchio(2-Stack)GPU 平台的潜力,称该服务器平台的性能可达英伟达 A100 竞品的 2.5 倍。英特尔首席 GPU 计算架构师 Hong Jiang 在演讲中指出,Ponte Vecchio 具有三种配置。

从单一 OAM、到配备 Xe Links 的 x4 子系统,Ponte Vecchio GPU 不仅能够单独运行、也可部署于 Sapphire Rapids 双路服务器平台之上。

1.png

其中 OAM 支持 4 GPU 和 8 GPU 平台的 all-to-all 拓扑,辅以英特尔 oneAPI 软件堆栈。

2.png

作为一个零级(Level Zero)API,其为跨架构编程支持提供了低层级的硬件接口。

3.png

oneAPI 主要特性如下:

● 提供面向其它工具和加速器设备的接口;

● 支持精细的增益控制、以及低延迟的加速器特性;

● 具有多线程设计;

● 将 GPU 作为驱动程序的一部分而提供。

4.png

性能指标方面,2-Stack Ponte Vecchio GPU 配置(如单一 OAM 上的配置),可提供高达 52 TFLOP 的 FP64 / FP32 算力。

5.png

另有 419 TFLOP 的 TF32(XMX Float 32)、839 TFLOP 的 BF16 / FP16,以及 1678 TFLOPs 的 INT8 算力。

6.png

英特尔还详细说明了 Ponte Vecchio 的缓存大小 / 峰值带宽 —— 比如 GPU 上的寄存器为 64 MB,提供 419 TB/s 的带宽。

7.png

L1 缓存也为 64 MB,带宽 105 TB/s(4:1)。L2 缓存为 408 MB,带宽 13 TB/s(8:1)。HBM 内存池高达 128 GB,辅以 4.2 TB/s(4:1)的带宽。

8.png

以下是英特尔为 Ponte Vecchio 配备的系列计算效率(compute efficiency)技术。

11.png

Register File(寄存器文件):

● Register Caching(寄存器缓存)

● Accumulators(累加器)

12.png

L1 / L2 Cache:

● Write Through(直写)

● Write Back(回写)

● Write Streaming(流式写入)

● Uncached(不缓存)

13.png

Prefetch(预取):

● 支持 L1 和(或)L2 缓存的软件(指令)预取;

● 支持到 L2 获取指令和数据的 Command Streamer 预取。

14.png

英特尔解释称,更大的 L2 缓存,可为 2D-FFT 和 DNN 等工作负载带来巨大的效益,并且分享了完整 Ponte Vecchio GPU 和 80 / 32 MB 模块之间的一些性能比较。

13.png

此外英特尔搬出了运行 CUDA 和 SYCL 的英伟达 Ampere A100,与使用 SYCL 的 Ponte Vecchio GPU 平台展开了性能横比。

14.png

在 miniBUDE(一种可预测配体与目标结合能的计算工作负载)中,Ponte Vecchio GPU 模拟测试结果的速度,更是 Ampere A100 的 2 倍。

15.png

另外在 ExaSMR 核反应堆设计仿真设计中,英特尔 Ponte Vecchio GPU 也以 1.5 倍领先于英伟达竞品方案。

16.png

不过需要指出的是,英伟达早已向市场投放了性能更加强悍的 Hopper H100,所以英特尔这里拿 Ampere A100 进行比较还是相当投机取巧的。

17.png

言归正传,英特尔概述了 Ponte Vecchio 旗舰数据中心 GPU 的一些关键特性,例如 128 个 Xe 内核、128 个光追(RT)单元、HBM2e 显存、以及连接到一起的 8 个 Xe-HPC GPU 。

21.png

该芯片在两个独立的堆栈中提供了高达 408 MB 的 L2 缓存、之间通过 EMIB 互连,且各部分芯片混用了 Intel 7 和台积电 N7 / N5 等多个工艺节点。

22.png

由两块(2 Tiles)组成的每个堆栈有 16 裸片,最大的 active die 尺寸为 41 m㎡、Compute Tile 则是 650 m㎡ 。

23.png

以下是 Ponte Vecchio GPU 的完整小芯片 / 工艺节点描述:

● 英特尔 7nm

● 台积电 7nm

● Foveros 3D 封装

● EMIB 互连

● 10nm 增强型 Super Fin

● Rambo Cache

● HBM2 高带宽显存

24.png

以下是英特尔 Ponte Vecchio 芯片的 47 块(Tiles)组成:

● 16 个 Xe HPC(内/外部)

● 8 个 Rambo Cache(内部)

● 2 个 Xe Base(内部)

● 11 个 EMIB(内部)

● 2 个 Xe Link(外部)

● 8 个 HBM(外部)

25.png

Ponte Vecchio GPU 使用了 8 个 HBM 8-Hi 堆栈,总共包含 11 个 EMIB 互连,完整封装尺寸为 4843.75 m㎡ 。

26.png

设计中还提到了高密度 3D Forveos 封装的 Meteor Lake CPU,可知其 bump pitch 的间距为 36u 。

27.png

【总结】Ponte Vecchio GPU 不是一个单独的芯片,而是由 47 个不同工艺制程的小芯片“组合”得来。

30.jpg

遗憾的是,受英特尔多次跳票的影响,使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超级计算机项目也被迫推迟。

即便如此,英特尔还是透露了下一代 Rialto Bridge GPU 。可知作为 Ponte Vecchio GPU 的继任者,其有望于 2023 年开始提供样品。

举报

  • 相关推荐
  • 超越DeepSeek-R1,英伟达开源新王登顶,14万H100小时训练细节全曝光

    英伟达发布开源Llama-Nemotron系列模型,性能超越DeepSeek-R1。该系列包含三个版本:8B、49B和253B参数模型,其中253B的Ultra版本在推理吞吐量和内存效率上表现突出。关键技术包括:1)采用神经架构搜索优化模型结构;2)通过知识蒸馏和持续预训练提升性能;3)结合合成数据监督微调;4)在STEM领域进行大规模强化学习训练。Ultra版本在GPQA基准测试中达到开源模型最高水平,单节点8xH100即可高效运行。模型创新性支持"推理开关"功能,通过指令动态切换推理模式。训练流程包含五阶段优化,最终模型在数学推理和通用任务上均表现优异,部分基准超越专有模型。

  • Check Point: 2025年,勒索软件将愈演愈烈

    勒索软件威胁持续升级,已从简单的文件加密演变为复杂的多阶段攻击。2024年勒索软件攻击创纪录,数据泄露网站公布2289名受害者,同比增长126%。新型勒索软件即服务(RaaS)模式降低犯罪门槛,46个新勒索集团涌现,活跃组织增加48%。AI技术被用于生成恶意软件和钓鱼诱饵,使攻击更智能快速。美国仍是主要目标,占全球案例50.2%。企业需采取零信任架构、供应链加固、AI防御等措施应对。数据盗窃成为勒索新手段,心理操控日益重要。勒索软件已不仅是技术问题,更是业务连续性挑战,领导者需像重视财务健康一样重视网络安全准备。

  • 明日发布!OPPO Reno14系列详细参数汇总:全系1.5K直屏+3.5倍潜望

    快科技5月14日消息,OPPO Reno14系列将于5月15日16:00发布,共有Reno14和Reno14 Pro两款新机。博主数码闲聊站提前公布了新机的详细参数,供大家提前参考。Reno 14采用6.59英寸1.5K LTPS屏幕,核心搭载天玑8350,后置5000万像素 800万像素 5000万像素的三摄组合,内置6000mAh电池,支持80W快充。Reno 14 Pro采用6.83英寸1.5K LTPS屏幕,核心首发天玑8450,后置5000万像素 5000万像素 5000万像素的三摄组合,内置6200mAh电池,支持80W有线快充 50W无线快充。值得注意的是,这次Reno14系列的配置规划极具诚意,有不少关键的核心配置都是标配?

  • 英特尔考虑出售网络和边缘业务,去年营收 58 亿美金

    目前,英特尔尚未就NEX部门的未来做出最终决定,仍在评估包括部分出售或战略合作在内的多种可能性……

  • 2499元起!英伟达RTX 5060显卡开启预约:520日0点开售

    英伟达RTX 5060显卡5月14日开启预约,5月20日正式发售,基础款统一售价2499元。该显卡采用GB206-250 GPU芯片,配备3840个CUDA核心,加速频率2497MHz,搭载8GB GDDR7显存(等效频率28GHz),功耗145W。相比RTX 4060,核心数增加25%,显存带宽提升65%,功耗增加30W。支持DLSS 4技术,可助力游戏实现100FPS流畅体验。华硕、七彩虹、技嘉、微星等品牌双风扇版本已上架电商平台。

  • PICO携英特尔开启VR大空间革命!《太空奥德赛》5月31日登陆北京超级合生汇,解锁太空冒险新范式

    VR大空间体验正成为线下娱乐新风口,PICO与英特尔合作推出《太空奥德赛》项目,开创"技术+内容+AI"三位一体新标杆。该项目耗资千万研发,打造320㎡超大场景,实现自由探索模式,突破传统VR站立交互局限。通过8K渲染技术、毫米级动作捕捉和AI助手,带来电影级沉浸体验,支持4-6人组队协作。5月31日北京超级合生汇全国首店开业,36分钟剧情串联10大太空场景,结合硬核科普与趣味探索,满足全年龄段需求。PICO以硬件+内容+运营完整生态,持续推动VR大空间体验标准化与精品化发展。

  • 英伟达纵深扩展量子计算版图,微软/微美全息共发力奔赴技术革命新征程!

    英伟达CEO黄仁勋在COMPUTEX2025发表主题演讲,宣布推出企业AI计算平台NVIDIA RTX PRO服务器,搭载RTX PRO6000 Blackwell GPU,专为驱动AI工厂和加速企业AI工作负载设计。同时英伟达布局量子计算,设立全球量子AI技术研发中心G-QuAT,并投资量子计算初创公司PsiQuantum。微软宣布将后量子密码学技术整合到Windows系统,谷歌高管预测量子计算应用或将在五年内实现。微美全息作为量子产业先锋,通过量子计算与AI超算融合实现技术突破。全球科技巨头正加速布局量子计算领域,英伟达引领AI产业向纵深发展,在新竞争格局下进军量子计算,押注下一代技术浪潮。

  • 英伟达最新高算力芯片上车 雷军:小米YU7全系标配激光雷达

    5月22日,小米正式发布YU7智能汽车,全系标配激光雷达和4D毫米波雷达。新车搭载第三代骁龙8移动平台,采用4nm工艺,显著提升运行速度,OTA升级最快仅需15分钟。配备英伟达Thor计算平台,算力达700TOPS,支持大模型上车。激光雷达探测距离200米,暗光环境下性能更强,能精准识别异形障碍物。同时应用ALD镀膜技术摄像头,有效减少眩光干扰,提升雨雾天气行车安全,实现更智能的辅助驾驶体验。

  • AI机器人赛道竞速,英伟达/微美全息GPU+AI全栈布局双轮驱动产业化浪潮!

    英伟达CEO黄仁勋在Computex2025电脑展发表主题演讲,宣布公司转型为AI基础设施提供商。重点展示了四大方向:消费级RTX显卡、B300服务器芯片、Omniverse软件平台及自动驾驶/机器人技术。推出全新GB300 Blackwell Ultra AI平台,提升训练和推理能力。黄仁勋强调机器人技术将引领下一场工业革命,推出Isaac GR00T机器人开发平台和Jetson Thor处理器。摩根士丹利预测人形机器人市场规模将达60万亿美元,中国到2050年市场规模或达6万亿元。微美全息等企业正加速布局该领域,通过AI视觉、自然语言处理等技术提升机器人环境感知与决策能力。黄仁勋指出智能体(Agent)、模型(Model)和机器人(Robot)将成为未来十年技术话语权争夺的关键。

  • Check Point:移动威胁持续升级,弥合终端安全防护短板成关键

    随着移动设备成为主要办公终端,其安全风险日益突出。文章指出移动设备面临物理丢失、公共Wi-Fi连接风险、应用生态漏洞、操作系统碎片化等独特挑战。数据显示2024年上半年我国移动恶意程序样本同比增长30%,28%企业数据泄露与移动终端漏洞相关。Check Point提出应采用零信任网络访问(ZTNA)框架,结合持续行为监测和AI威胁情报,构建移动优先的安全防护体系。其Harmony Mobile解决方案能实时检测恶意软件、钓鱼攻击,并通过设备健康状态评估动态调整访问权限,有效降低数据泄露风险。专家强调企业需将移动设备视为核心资产,采用主动防御策略应对AI驱动的新型攻击。