首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

Arm Neoverse 赋能 AWS Graviton4 处理器,加速云计算创新

2024-12-16 15:10 · 稿源: 站长之家用户

随着人工智能 (AI) 技术的迅猛发展,云计算领域正在经历显著变革。愈发复杂的 AI 应用对计算解决方案的性能、效率和成本效益提出了更高要求。在云端部署工作负载的客户正在重新评估其所需的基础设施,以满足现代工作负载需求,其中不仅包括提高性能和降低成本,还涵盖了需符合监管要求或可持续发展目标的新能效基准。

Arm 与亚马逊云科技 (AWS) 长期合作,为实现性能更强劲、更有效和可持续的云计算提供专用芯片和计算技术。在近期举行的 AWS re:Invent 2024 大会上,AWS 进一步展示了 AWS Graviton4 所取得的显著进展,使开发者和企业能够充分发挥其云工作负载的性能潜力。

卓越的性能表现

相较于上一代 Graviton3 处理器,基于 Arm Neoverse V2 平台的 AWS Graviton4 处理器在计算性能上提升了 30%,核心数增加了 50%,内存带宽提高了 75%。凭借这些技术优势,AWS Graviton 处理器在生态系统和客户群体中得到了广泛应用。

Arm Neoverse V2 平台涵盖 Armv9 架构的新特性,包括高性能浮点和向量指令支持,以及 SVE/SVE2、Bfloat16 和 INT8 MatMul 等特性。这些特性为 AI/机器学习 (ML) 以及高性能计算 (HPC) 工作负载提供了卓越性能。

AI/ML 工作负载

今年早些时候,Arm 与主流的 AI 框架和软件生态系统合作,推出了 Arm Kleidi 软件,以确保Arm 平台上开机即用的推理性能优化能惠及整个 ML 栈,开发者无需掌握额外的 Arm 专业知识即可构建其工作负载,从而进一步推动 AI 工作负载的广泛应用。此前,Arm 已展示了 PyTorch 中的这些优化如何赋能 AWS Graviton4 上运行大语言模型(LLM),如 Llama 3 70B 和 Llama 3.1 8B,并显著改善了每秒生成词元 (token) 数和词元首 次响应时间的表现指标。

HPC 和 EDA 工作负载

对于 HPC 工作负载,Graviton4 相较于 Graviton3E 在功能上实现了显著提升。每个核心的主内存带宽增加了 16%,每个 vCPU 的 L2 缓存容量翻倍。这些改进对于 HPC 应用的性能至关重要,因为 HPC应用通常受限于内存带宽。AWS 已经在这些领域取得了显著优势,如下所示。

根据 Arm 工程团队实际运行 EDA 工作负载所得出的结果,Graviton4 提供的 RTL 仿真工作负载性能比 Graviton3 高出 37%。

图:AWS Graviton4 上的 HPC 和 EDA 工作负载优势

生态系统广泛采用

近年来,随着云计算用户将各种云工作负载部署在 AWS Graviton 处理器上,其软件生态系统持续扩展。如此一来,客户不仅节省了费用,收获了性能的提升,还能优化其碳足迹和可持续发展足迹。以下是部分示例:

图:采用基于 Arm Neoverse 的 AWS Graviton3 所取得的生态优势

着手利用 Graviton 的强大性能

Arm 将在云计算的未来中发挥关键作用,并将继续支持 AWS Graviton 立于技术创新的前沿。Arm 将继续投入并进一步强化软件生态系统,从而使开发者能够更加轻松地在 Arm 平台上构建其应用,并充分利用 Arm 计算平台所提供的卓越性能和效率优势。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Arm祝贺小米玄戒O1芯片问世:由小米自主研发

    玄戒O1(XRING O1)由小米芯片部门XRING打造,其运用了最新的Arm v9.2Cortex CPU集群IP、Arm Immortalis GPU IP以及CoreLink Interconnect系统IP。这些标准IP针对尖端3nm工艺进行了优化处理。得益于XRING团队卓越的后端和系统级设计能力,XRING O1芯片在性能和效率方面表现出色。

  • 腾讯TencentOS Server AI,助力荣耀打造高性能AI底座

    随着生成式AI技术爆发式增长,AI大模型开始渗透至手机领域。荣耀基于腾讯云TencentOS Server AI的TACO-LLM加速模块部署DeepSeek-R1等开源大模型,在内部场景应用中实现稳定性、可靠性和推理性能的大幅提升。测试显示,使用TACO-LLM后,首Token延迟最高降低6.25倍,吞吐提升2倍,端到端延迟降低100%。TACO-LLM通过投机采样技术实现大模型"并行"解码,从根本上解决计算密度问题,大幅提升解码效率。荣耀表示该方案打造了高性能AI底座,提供高吞吐低延迟的优化方案,能无缝整合现有大模型部署方案。腾讯云TACO-LLM针对企业级AI模型私有化部署挑战,专门优化了大语言模型内核运行效率。

  • 腾讯与宝德计算深化战略合作,打造融合创新生态标杆

    5月13日,国产算力领军企业宝德计算机系统与腾讯云签署战略合作协议。双方将基于腾讯自研操作系统TencentOS与宝德自强®系列国产服务器,推出软硬一体化解决方案,共同推动国产计算能力向"好用"和"易用"发展。此次合作将加速创新产品在各行业核心业务场景的规模化落地,为中国数字经济发展注入新动能。宝德在服务器硬件领域积淀深厚,其ARM架构服务器连续多年蝉联中国市场占有率第一;腾讯云TencentOS已通过千万级设备部署验证。双方计划每年向全行业客户交付超万台软硬件一体机,构建覆盖全行业核心场景的"国产数字基座",助力形成良性的技术演进循环。

  • 小米负责人回应:玄戒O1并非基于Arm CSS软核或硬核方案!

    小米自研手机芯片"玄戒O1"采用第二代3nm工艺制程,搭载十核四丛集CPU架构,包含2颗Cortex-X925超大核、4颗Cortex-A725性能大核、2颗低频A725能效大核和2颗Cortex-A520超能效核心。该芯片并非基于Arm CSS平台方案,而是采用Arm IP授权,CPU/GPU多核及系统级设计均由小米自主研发。其超大核主频突破3.9GHz,搭配16核Immortalis-G925 GPU,能效表现优异,可兼顾高性能与日常续航。该芯片将由小米15S Pro首发搭载。

  • 荣耀400系列处理器敲定:全系骁龙平台 国行特供

    数码博主曝光荣耀400系列核心参数:标准版搭载骁龙7+Gen4处理器,采用6.55英寸1.5K直屏,内置7200mAh超大电池;Pro版配备满血版骁龙8 Gen3处理器,同样采用6.55英寸直屏和7200mAh电池。相比海外版,国行版配置全面增强,主打2亿像素超清影像和多项AI创新功能。工业设计上首创流光织锦工艺,融合真丝纤维与贝母珠粉等材质,打造独特背板设计。该系列将于本月发布,由肖战代言。

  • 小米 15S Pro 发布:搭载玄戒 O1 处理器 售价 5499 元起

    在今晚举行的小米15周年战略新品发布会上,小米15S Pro 手机正式亮相。这款手机是在小米15Pro 手机的基础上研发而成,搭载了小米在此次发布会上刚刚发布的玄戒 O1旗舰移动处理器,售价5499元起,现已开启销售通道。 小米15S Pro 搭载的玄戒 O1旗舰处理器采用了先进的3nm 制程技术,拥有190亿晶体管,其十核四丛集 CPU 架构确保了强大的计算能力,而16核 Immortalis-G925架构 GPU 则为

  • 创新打造“自服务体系” 招联科技能普惠金融“温度答卷”

    文章探讨了数字经济和普惠金融背景下消费金融行业的发展。招联金融作为头部企业,坚持科技驱动普惠理念,通过智能化利率定价机制实现差异化服务,满足消费者个性化需求。其创新推出的"自愈"服务采用AI技术优化贷后管理,已累计帮助36万人次纾困。同时,招联运用近2万个智能AI机器人提升客户交互体验,催收识别准确率达97%。未来,招联将持续优化业务模式,为消费者提供更优质的金融服务,推动行业高质量发展。

  • 全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!

    恭喜国内视频创作者!从此,大家又多了一个好用的 AI 视频生成工具。 「你们的产品到底什么时候在国内上线?」 最近,爱诗科技也体验了一把小说作者的待遇 —— 打开后台,发现私信全是「催上线」的信息。

  • 一加Ace 5至尊版开启预约:搭载天玑9400+处理器

    一加Ace5至尊版5月15日开启预约,搭载联发科天玑9400+处理器,采用台积电3nm工艺和全大核架构设计,配备1个3.73GHz Cortex-X925超大核、3个Cortex-X4超大核和4个Cortex-A720大核,安兔兔跑分突破300万。GPU方面集成12核Immortalis-G925,支持天玑OMM追光引擎和倍帧技术,实现"无限满帧"游戏体验。该机首次将PC游戏的1%Low帧指标引入手游流畅度评估体系,并达到行业领先水平。凭借强劲性能和创新技术,一加Ace5至尊版有望在游戏手机市场掀起新热潮。

  • Intel至强6处理器又上新了:与NVIDIA AI GPU珠联璧合

    英特尔推出三款至强6系列AI专用处理器,采用P-Core性能核设计,支持PCT和SST-TF睿频技术,最高128核。新品专为AI系统优化,能动态分配CPU资源,显著提升GPU在高强度AI运算中的性能。其中6776P处理器已用于NVIDIA最新DGX B300 AI加速系统。新品还支持MRDIMM内存、CXL技术,PCIe通道数增加20%,并具备AMX高级矩阵指令集和FP16精度运算能力,专为最大化系统稳定性和AI工作负载设计。