AMD RDNA 2 GPU与NVIDIA的安培GPU对决内存延迟性

2021-04-19 21:30 · 稿源： cnbeta

Chips and Cheese测试了AMD的RDNA 2和NVIDIA的Ampere GPU架构的内存延迟性能，并发现了一些有趣的结果。

AMD的RDNA 2 GPU与NVIDIA的Ampere GPU架构相比，具有卓越的内存延迟性能。在CPU方面，随着多芯片die和同一die上的多个IO芯片的不断使用，测量缓存和延迟性能已经成为一个关键的指针。GPU也是由多个缓存层次组成，填补了计算和内存性能之间的空白。

这次测试使用基于OpenCL的指针跟踪基准测试来测量当前一代GPU（如NVIDIA Ampere和AMD RDNA 2体系结构）上的缓存和内存延迟性能。在基准测试中，AMD Radeon RX 6800 XT（RDNA 2 GPU）与NVIDIA GeForce RTX 3090（Ampere GPU）进行了对决。缓存和内存基准测试显示，AMD的RDNA 2架构表现远好于NVIDIA的Ampere GPU，尽管在去往内存的路上要多检查两级缓存，但延迟时间更低。使用Infinity缓存只比L2命中增加了20ns，仍然比NVIDIA的Ampere快。

NVIDIA Ampere GA102 GPU体积大了很多，使用了比较传统的GPU内存子系统，只有两级缓存，但却要耗费大量的周期，导致延迟（L1到L2）超过100ns。而RDNA 2的延迟则只有66ns。需要注意的是，AMD Navi 21 GPU的体积更小，只有4 MB的二级缓存，而NVIDIA GA102 GPU的整个芯片有6 MB的二级缓存。NVIDIA A100 Ampere GPU for HPC则拥有庞大的40 MB二级缓存。

RDNA 2的缓存速度很快，而且数量很多。与Ampere相比，各级别的延迟都很低。Infinity Cache只比L2命中增加了20ns左右，延迟比Ampere的L2还低。令人惊奇的是，RDNA 2的VRAM延迟与Ampere差不多，尽管RDNA 2在通往内存的路上多检查了两级缓存。相比之下，Nvidia坚持使用更传统的GPU内存子系统，只有两级缓存，L2延迟很高。从Ampere的SM-private L1到L2缓存需要超过100 ns。RDNA的L2与L0的距离约为66ns，即使它们之间有L1缓存。绕过GA102庞大的die似乎需要很多周期。

这可以解释AMD在较低分辨率下的优异性能。RDNA 2的低延迟L2和L3缓存可能会在较小的工作负载下给它带来优势，相比之下，Nvidia的Ampere芯片需要更多的并行任务才能大放异彩。与旧的Pascal和Maxwell芯片相比，Ampere架构在更大的GPU上带来了高度改善的延迟速度。另一方面，AMD在与旧的基于GCN和VLIW架构的芯片相比，也有一些令人印象深刻的进步。一旦新一轮基于芯片的GPU在未来几年登陆游戏领域，这些数据的比较肯定会很有趣。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
英特尔Battlemage显卡即将亮相力争在假日季与Nvidia和AMD竞争

英特尔正在积极推进其下一代Battlemage系列专用显卡的开发，希望能够在今年年底前推出新品。英特尔计划在2023年黑色星期五前发布Battlemage显卡，以在假日购物季与Nvidia和AMD的新一代显卡产品展开竞争。消费者有望在假日购物季获得更多优质的显卡选择。

英特尔 Battlemage显卡 2023年
OpenAI的Sora在NVIDIA H100上生成1分钟视频约需12分钟

据Factorial基金估计，OpenAI的Sora每小时在NVIDIAH100上生成5分钟的视频，相当于每天能生成120分钟的视频。报告进一步指出，为支持TikTok和YouTube的创作者社区，大约需要89，000个NVIDIAH100GPU。ChatGPT的创造者将于下周在洛杉矶与好莱坞制片厂、媒体高管和人才代理商会面，以在娱乐行业建立伙伴关系，并鼓励电影制作人将其新的AI视频生成器整合到他们的工作中。

Sora AI头条
戴尔存储解决方案Dell PowerScale：全球率先通过NVIDIA SuperPOD验证

DellPowerScale文件存储在功能强大的NVIDIADGXSuperPOD基础架构中提升AI工作负载性能。欢迎来到生成式人工智能时代，创新与效率相得益彰，并且充满无限可能。[1]基于戴尔科技集团的内部分析，2024年3月。

Dell PowerScale NVIDIA
Check Point 与 NVIDIA 携手树立 AI 云基础设施大规模安全防护新标准

CheckPoint的全新AICloudProtect解决方案集成了NVIDIABlueField数据处理单元，可更好地保护AI云数据中心。在刚刚过去的三月，领先的云端AI网络安全平台提供商CheckPoint软件技术有限公司宣布与NVIDIA协作增强AI云基础设施安全防护。该综合型平台集多项云端技术于一身，包括确保工作空间安全的CheckPointHarmony、确保云安全的CheckPointCloudGuard、确保网络安全的CheckPointQuantum，以及支持协同式�

Check Point AI
AMD发布Zen3 架构锐龙7035H系列新品：第一次失去GPU核显

AMD的锐龙7035H系列处理器近日低调增加了几款新品，最大特点是首次屏蔽了GPU核显，不再是APU。锐龙7035H系列代号RembrandtRefresh，其实就是锐龙6000H系列的升级版，架构还是上一代的Zen3，此前已有锐龙77735H/HS、锐龙57535H/HS四款型号新增加的也是四款，分别是锐龙77435H/HS、锐龙57235H/HS，相比已有型号直白地说就是降级阉割版。失去核显之后，这些处理器就只能用在高性能的笔记本中，必须搭配独立显卡。

AMD 锐龙7035H系列处理器 Rembrandt
荐台积电董事长预测：未来15年每瓦GPU性能提升1000倍，GPU晶体管数破万亿！

GTC2024大会上，老黄祭出世界最强GPU——BlackwellB200，整整封装了超2080亿个晶体管。比起上一代H100，B200晶体管数是其2倍多训AI性能直接飙升5倍，运行速度提升30倍。我们将不再被过去的限制所束缚。

台积电
荐AI行业买英伟达GPU，花的钱比赚的多17倍

搞AI大模型，实在太烧钱了。如今的生成式AI有很大一部分是资本游戏，科技巨头利用自身强大的算力和数据占据领先位置，并正在使用先进GPU的并行算力将其推广落地。无论花掉多少钱，成为第一可能就会带来潜在的收益……但是什么样的收益，我们还无法作出预测。

AI 大模型资本游戏
荐攻陷短视频后，Sora将需要72万块H100 GPU

在被大规模采用后，Sora的推理成本将很快超过训练成本。OpenAI推出的Sora模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。视频内容的创意驱动了对OpenAI的Sora等模型最直接的需求。

Sora 短视频
据称Stability AI资金告急，无法支付租用的云GPU账单

生成式AI明星StabilityAI的热门文本到图像生成模型StableDiffusion所需的大规模GPU集群似乎也部分导致了前首席执行官EmadMostaque的失败-因为他找不到支付这些GPU的方法。根据引用公司文件和数十位知情人士的详尽报道，据称这家英国模型构建公司的极高基础设施成本耗尽了公司的现金储备，导致截至去年十月时，公司只剩下400万美元。计划将其在CoreWeave的GPU容量转售给风险投资公司

StabilityAI AI头条
曝iPhone 16 Pro性能怪兽来了 AI GPU图形方面的升级可能相对有限

苹果计划在iPhone16Pro机型中使用更大尺寸的A18Pro芯片，以提升其人工智能性能。该芯片将配备6核图形处理器，与iPhone15Pro机型的A17Pro芯片相当。值得一提的是，苹果公司预计将于今年九月份发布iPhone16系列智能手机。

苹果 iPhone 16

小侃星球:基于AI的虚拟人聊天应用，提供24小时聊天陪伴和生活服务。

小侃星球是由百度发布的一款基于AI开放域对话模型的虚拟人聊天应用。结合AI技术和社交元素，用户可以与虚拟人物进行对话聊天，享受陪伴，同时获得实用的生活服务，如哄睡和叫早服务。

AI技术社交生活服务

Vidwud:免费在线人脸交换照片和视频的 AI 工具。

Vidwud 是一个免费的 AI 人脸交换工具，可帮助用户轻松在视频、照片和 GIF 中更换面孔。其主要优点包括免费使用、易于操作，适合用于娱乐和创意内容制作。

免费图像视频

Vidnoz AI 换脸:是一款在线免费的照片和视频换脸 AI 工具。

Vidnoz AI 换脸是一款强大的在线工具，能够快速将一个人的脸替换到另一张图片或视频中，为用户带来有趣的换脸体验。该工具背后采用先进的人工智能技术，能够实现高精度的面部替换。

照片视频面部替换

未伴:完美AI伴侣,只为你而存在

未伴是一款专为用户设计的AI伴侣APP,它通过创建专属的AI角色,提供海量角色选择,实现24小时的智能陪伴.这款产品结合了先进的人工智能技术,旨在为用户提供一个随时可用的虚拟伴侣,满足用户在情感交流、信息查询、娱乐互动等方面的需求.它不仅技术先进,而且用户友好,适合各种年龄段的用户.目前,未伴APP提供免费下载,但可能包含内购项目.

人工智能情感陪伴个性化定制

MyEdit:AI换装网站，在线帮照片换衣服，自选风格模拟穿搭。

MyEdit拥有强大的AI换装技术，可为照片中的人物换衣服，让用户体验模拟穿搭的乐趣。这个产品的主要优点是快速变换多种穿搭风格，帮助用户省时省钱。

AI换装照片换衣服模拟穿搭

印象图记:在线思维导图工具与流程图工具，简洁易用 / 实用主题 / 丰富图标 / 自由布局 / 分享导出 / 云端存储

印象图记是一个在线思维导图工具与流程图工具，由印象笔记出品。它提供简洁易用的界面、实用主题和丰富图标，支持自由布局、分享导出和云端存储。这个工具旨在帮助用户提高工作和生活效率。

思维导图流程图在线工具

图可丽:智能一键抠图、高清、修复、转卡通

图可丽利用人工智能和计算机视觉的力量，提供各种产品，使生活更容易，工作更富有成效。提供一键抠图、视频抠图、照片动漫化等功能，满足不同用户需求。

人工智能图像处理视频编辑

AI 图像擦除器:，轻松删除照片中不需要的人、物体、文字和水印。

AI 图像擦除器是一款基于人工智能技术的工具，能够快速、简单地从照片中删除不需要的内容，提高照片的整体质量。该工具操作简便，免费使用，适用于个人和专业用户。

图像处理人工智能照片编辑

Mug Life:将您的照片变为生动的3D角色，并使用Mug Me，Emojimation和Pose Controls创建有趣的生动表情。

Mug Life通过将计算机图形学专业知识与最新的计算机视觉技术相结合，创造出令人惊叹的3D角色。其技术分为三个阶段：拆解、动画和重构，结合社交平台，让用户能够连接和分享创作。

社交媒体创意艺术设计

IOPaint:基于先进 AI 模型的图像修复工具。

IOPaint 是一个免费、开源且完全可自托管的修复 / 填充工具，使用最先进的 AI 模型。它可以帮助用户删除图像中的不需要的对象、修复瑕疵、添加新对象、扩大图像等。

图像处理 AI 模型图像修复

鹿班:是一款智能设计工具,可快速生成商品主图等。

鹿班是一款基于人工智能技术的智能设计工具,可根据商品图片和设计模板自动生成商品主图、钻展图、旺铺海报等营销图片。它利用计算机视觉和深度学习技术,能快速理解图像内容并生成设计作品。鹿班大大提高了设计效率,满足电商营销设计图制作的高强度需求,同时生成的设计作品质量也有保证。鹿班同时支持在线协作,企业客户可以上传自有设计模板,供分布式团队远程协作使用。这款工具主要面向电商、品牌营销等领域,提供便捷高效的设计即服务能力。

智能设计图像生成电商营销

水印云:图片去水印工具集

水印云是一款集图片去水印等多功能去水印软件，采用先进的 AI 技术，能快速识别并删除照片中的文字、logo 等不需要的内容，保持高清画质。

图片去水印 AI 技术照片编辑

AI改图:AI 算法一键去除照片水印，智能修复图片去瑕疵。

AI 改图神器利用 AI 技术，提供一键去除照片水印和涂抹多余物体的功能，简单易用，无需下载软件。产品定位于简化图片处理流程，提高效率。

图片处理智能修复去水印

jpgRM:利用 2024 年最先进人工智能 AI 帮你将图片中任何不需要的部分智能擦除、填补背景内容、消除水印

jpgRM 是一款利用 2024 年最先进人工智能技术的图片处理工具，可智能擦除图片中不需要的部分，填补背景内容，消除水印等。其主要优点在于高效快速地处理图片，并提供高质量的结果。定位于为用户提供便捷的图片编辑解决方案。

图片处理人工智能 AI

Phi-3-mini-128k-instruct-onnx:Phi-3 Mini-128K-Instruct ONNX优化模型促进推理加速

Phi-3 Mini是一个轻量级的顶尖开源模型,建立在Phi-2使用的合成数据和过滤网站之上,专注于高质量的推理密集型数据。这个模型属于Phi-3系列,mini版本有两个变体支持4K和128K上下文长度。该模型经过了严格的增强过程,包括监督式微调和直接偏好优化,以确保精准遵循指令和强大的安全措施。这些经过ONNX优化的Phi-3 Mini模型可在CPU、GPU和移动设备上高效运行。微软还推出了ONNX Runtime Generate() API,简化了Phi-3的使用。

自然语言处理大型语言模型 ONNX

图片去水印:使用 AI 去水印工具，轻松去除图像水印。

图片去水印工具利用强大的 AI 技术，帮助用户快速去除图像上的水印，提高创作自由和社交媒体效果。产品定位于提供便捷的水印去除服务，以增强用户体验为目标。

水印去除图片处理 AI 技术

水印一键去去去:一键免费在线去水印精灵，智能 AI 图像处理网站

水印一键去去去是一款智能 AI 图像处理网站，提供在线去水印、自动抠图、模糊照片变清晰等功能。采用人工智能技术，支持批量去除图片中的文字、标志，无痕、不糊图！

智能 AI 去水印抠图

SpaceByte:是一种新的字节级解码架构,避免了Tokenization的缺陷。

SpaceByte是一种全新的字节级解码架构,旨在解决大型语言模型中广泛使用的Tokenization技术所带来的一些弊端。Tokenization虽能显著提升模型性能,但也存在诸多缺陷,如引入性能偏差、增加对抗攻击脆弱性、降低字符级建模效果及增加建模复杂度等。SpaceByte在保留Tokenizer的优势基础上,有效解决了上述缺陷。它使用字节级Transformer作为基础,并在模型层次中间插入更大的Transformer块,尤其是在遇到空格等通常表示单词边界的字节时。该架构在相同的训练和推理计算资源预算下,不但超越了其他字节级模型,甚至可以与Tokenization的Transformer模型取得相当的性能。

字节级模型大型语言模型 Tokenization

boardmix:一个点燃团队协作和激发创意的空间，集多种创意表达能力于一体。

boardmix 博思白板是一个集思维表达、灵感梳理、流程整理、任务管理等多种创意表达能力于一体的工具，旨在提升团队效率和创造力。其主要优点包括一体化绘图软件、AIGC 创作、实时协作工作台等功能。

团队协作创意激发项目管理

Phi-3-mini-4k-instruct-onnx:Phi-3 Mini 量化ONNX模型,支持多硬件平台加速推理

Phi-3 Mini是一款轻量级的最先进的开源大模型,构建于用于Phi-2的合成数据和过滤网站数据之上,致力于提供极高质量、推理密集型的数据。该模型经过了严格的增强过程,结合了监督式微调和直接偏好优化,以确保精确遵循指令和强大的安全措施。该仓库提供了Phi-3 Mini的优化ONNX版本,可通过ONNX Runtime在CPU和GPU上进行加速推理,支持服务器、Windows、Linux、Mac等多种平台,并针对每个平台提供最佳精度配置。ONNX Runtime的DirectML支持还可让开发人员在AMD、英特尔和NVIDIA GPU驱动的Windows设备上实现大规模硬件加速。

AMD RDNA 2 GPU与NVIDIA的安培GPU对决内存延迟性

今日大家都在搜的词：

热文

站长商机