首页 > 业界 > 关键词  > AI大模型最新资讯  > 正文

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

2024-03-25 22:47 · 稿源: 快科技

AI漫长的历史中,ChatGPT绝对是浓墨重彩的一笔。正是它引爆了AI大模型概念,也让以往高高在上的AI飞入了寻常百姓家,开始融入每个人的日常工作、生活,AI PC、AI手机、AI边缘也都在大踏步前进,变革千行百业。

有调研数据显示,预计到2026年,AIGC相关投入将超过3000亿美元,到2028年,80%以上的PC都会转换成AI PC,而在边缘应用中AI的普及率也将超过50%。

AI大模型等应用最需要的当然是高算力,GPU加速器随之变得炙手可热,但是AI的发展与变革同样是多元化的,CPU通用处理器、NPU神经网络引擎也都在各司其职,贡献自己的力量。

尤其是传统的CPU,也在紧跟时代的脚步,全方位拥抱AI,Inte第五代至强(Emerald Rapids)就是一个典型代表。

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

Intel 2023年初发布的第四代至强(Sapphire Rapids),年底就升级为第五代,速度之快前所未有,主要就是为了跟上形势,尤其是AI的需求,很多指标都是为此而优化的。

这包括更多的核心数量、更高的频率、更丰富的AI加速器,都带来了性能和能效的提升,对于AIGC非常有利。

还有多达3倍的三级缓存,可以减少对系统内存的依赖,内存带宽也同时进一步提升。

软件生态方面,Intel提供了全方位的开发支持与优化,尤其加大了对主流大模型、AI框架的支持,特别是PyTorch、TensorFlow等等,在AI训练、实时推理、批量推理等方面,基于不同算法,性能提升最多可达40%,甚至可以处理340亿参数的大模型。

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

根据Intel提供的数据,五代至强SPECInt整数计算性能提升21%,AI负载性能提升最多达42%,综合能效也提升了多达36%。

具体到细分领域,图像分割、图像分类AI推理性能提升最多分别42%、24%,建模和模拟HPC性能提升最多42%,网络安全应用性能提升最多69%。

网络与云原生负载能效提升最多33%,基础设施与存储负载能效提升最多24%。

有趣的是,Intel指出五代至强也有很高的性价比,其中一个评估标准就是同时支持的用户数,五代至强可以在BF16、INT8精度下同时满足8个用户的实时访问需求,延迟不超过100ms。

五代至强的优秀,也得到了合作伙伴的验证,比如阿里云、百度云都验证了五代至强运行Llama 2 700亿参数大模型的推理,其中百度云在四节点服务器上的结果仅为87.5毫秒。

再比如京东云,Llama 2 130亿参数模型在五代至强上的性能比上代提升了多达50%。

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

接下来,Intel至强路线图推进的速度同样飞快,今年内会陆续交付Granite Rapids、Sierra Forest两套平台,均升级为全新的Intel 3制程工艺。

其中,Sierra Forest首次采用E核架构,单芯片最多144核心,双芯整合封装能做到288核心,今年上半年就能问世。

Sierra Forest主要面向新兴的云原生设计,可提供极致的每瓦性能,符合国家对设备淘汰换新的要求,而且因为内核比较精简,可以大大提高同等空间内的核心数量。

紧随其后的Granite Rapids,则依然是传统P核设计,具备更高频率、更高性能。

Granite Rapids针对主流和复杂的数据中心应用进行优化,尤其是大型程序,可以减少对虚拟机的依赖。

到了2025年,Intel还会带来再下一代的至强产品,代号Clearwater Forest,无论制程工艺还是技术特性抑或性能能效,都会再次飞跃。

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

那么问题就来了,Intel至强的更新换代如此频繁,尤其是五代至强似乎生命周期很短,它究竟值不值得采纳部署呢?适合哪些应用市场和场景呢?

五代至强发布之初,Intel从工作负载优化性能、高能效计算、CPU AI应用场景、运营效率、可扩展安全功能和质量解决方案五个方面进行了介绍。

现在,我们再换一个维度,从另外五个方面了解一下五代至强的深层次价值。

一是制程工艺改进。

五代、四代至强都是Intel 7工艺,都采用了Dual-poly-pitch SuperFin晶体管,但也改进了关键的技术指标,特别是在系统漏电流控制、动态电容方面,它们都对晶体管性能有很大影响。

通过这些调整,五代至强在同等功耗下的整体频率提升了3%,其中2.5%来自漏电流的减少,0.5%来自动态电容的下降。

二是芯片布局。

受到芯片集成复杂度、制造技术的限制,现在主流芯片都不再是单一大芯片,而是改为多个小芯片整合封装。

四代至强分成了对称的四个部分,做到最多60核心,五代至强则变成了镜像对称的两部分,核心数反而提升到最多64个。

之所以如此改变,是因为切割的小芯片越多,彼此互相通信所需要的控制器、接口和所占用的面积也更多,还会额外增加功耗,并降低良品率。

通过芯片质量控制,五代至强可以更好地控制芯片面积,并且在相对较大的面积下获得很好的良率,镜像对称的布线也更灵活。

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

这是五代至强单个芯片的布局图,可以看到中间是33个CPU核心和二三级缓存,其中一个核心作为冗余保留。

左右两侧是DDR5内存控制器,上方是PCIe、UIPI控制器,以及DLB、DSA、IAA、QAT等各种加速器,底部则是EMIB封装和通信模块,用于双芯片内部高效互连。

说到连接,五代至强使用了高速内部互连Fabric MDF,包括七个SCF(可扩展一致性带宽互连),每一个都有500Gbps的高带宽,让两颗芯片在逻辑上实现无缝连接。

三是性能与能效。

看一下五代至强的关键性能指标:

- CPU架构升级到Raptor Cove,13/14代酷睿同款。

- 核心数量增加,最多60核心来到最多64核心。

- 三级缓存扩容,平均每核心从1.875MB增加到5MB,这是历代提升最大的一次。

- DDR5内存频率从4800MHz提升到5600MHz。

- UPI总线速度从16GT/s提供到20GT/s。。

- 芯片拓扑结构更改,四芯片封装改为双芯片。

待机功耗降低,通过全集成供电模块(FIVR)、增强主动空闲模式等技术实现。

四是三级缓存。

至强处理器以前每核心的三级缓存都只有1-2MB,这次直接来到了5MB,总容量最多达320MB。

在数据集不是很大的情况下,三级缓存本身就可以基本承载,无需转移到系统内存,从而带来极大的性能提升。

但是,缓存容量并不是单纯堆起来的,因为大缓存会面临可靠性问题,尤其是在大规模数据中心里存在一个比特反转的软故障,缓存越大,故障几率越高,当错误足够多而无法纠正的时候就会导致系统宕机。

这就需要超强的纠错机制,五代至强就采用了新的编码方式DEC、TED,一个缓存行出现两个位错误的时候也可以纠正,三个位错误的时候也可以检测,比传统单位纠错、两位检错有着更强的容错性,此外还有一些新的数据修复方案。

五是内存IO。

DDR5-4800升级到DDR5-5600,看似幅度不大,但其实很不容易,因为内存速度提升后,从芯片到基板需要全线进行优化匹配,包括供电和噪音控制等。

为了保证高频下的信号完整性,五代至强还加入了4-tap DFE功能,尽可能减少码间干扰(ISI)。

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

最后再单独说说基于至强这样的通用处理器的AI负载应用,以及相应的解决方案。

其实,AI应用并非只是大模型,还有大量的传统非大模型AI应用,都非常适合在CPU上部署。

比如基因测序这样的科学计算,2018年至今,至强每一代都有显著提升,因为科学计算很多时候就是暴力”计算,最考验CPU的处理能力。

除了硬件上的支持,Intel还有强大的软件生态优化,包括基于OpenVINO对整个模型进行优化、量化,在推荐、语音识别、图像识别、基因测序等方面Intel都做了大量的优化。

比如模型非常大的推荐系统、稀疏矩阵等应用,CPU的效率其实优于GPU,因为单个GPU不够用的时候就得跨GPU,或者和CPU频繁交互传输,而在与内存互通方面CPU的效率是更高的。

其他像是网络、数据服务、存储等等,至强无论性能还是能效都在行业处于领先地位,更关键的是系统故障率非常低。

AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思

对于通用的AI工作负载,Intel采用了AMX、AVX-512两个指令集,并基于OpenVINO进行优化。

AMX适合处理BF16、INT8数据类型,比如推荐系统、自然语言处理、图像识别与目标检测等等。

AVX-512适合处理FP32、FP64数据类型,比如数据分析、机器学习等等。

在推理的过程中,指令集还可以进行灵活切分,通过加速器定向加速某一部分,替代基于GPU的AI模型是完全没有问题的。

事实上,AI只是工作负载的一部分,更多的是通用负载,很多深度学习模型也都是混合精度”,四代、五代至强运行它们的时候都可以根据需要在AMX、AVX-512之间灵活无缝切换。

针对大模型的加速,Intel也推出了自己的框架BigDL LLM,有很多框架层针对CPU进行了大量的优化,并针对模型做了量化。

另外,Intel拥有开放的生态,行业伙伴和友商都可以直接纳用,这对Intel自身来说也是一件好事,可以带动整个生态的发展,让Intel的解决方案得到更广泛的普及。

总的来说,在这个AI时代,CPU、GPU、NPU等各种计算引擎都有自己的独特优势,都有自己的适用场景和领域,不存在谁取代谁,更多的是灵活的选择与协同的高效,需要结合具体业务的能效、成本等多方面综合考虑。

CPU作为最传统的通用计算引擎,始终都会占据不可替代的地位,无论是作为整个计算平台的中心枢纽,还是对各种通用负载、AI负载的灵活处理,未来依然可以横刀立马!

举报

  • 相关推荐
  • 大家在看
  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

  • Usermaven:简单而强大的网站和产品分析工具

    Usermaven是一个简单易用且功能强大的网站和产品分析工具,专为市场营销人员和产品专业人士设计。它通过自动捕获所有事件来提供精确的追踪,无需依赖开发人员,从而简化了数据分析过程。Usermaven还提供了隐私友好的解决方案,支持GDPR和CCPA合规性,并且可以无cookie运行,保护用户隐私。

  • StarSearch:git历史查询助手,贡献者分析工具

    StarSearch是一个专注于git历史和贡献者分析的在线工具,它能够帮助用户快速获取有关贡献者活动的信息,识别关键贡献者,以及基于工作内容找到特定领域的专家。该工具对于开源项目维护者、开发者和团队领导者来说极为重要,因为它可以提高项目管理效率,优化团队协作,并促进技术社区的交流与合作。StarSearch是我们基于人工智能的功能,可以深入了解贡献者的历史和活动,带来透明度和对开源项目的全新深度认知。

  • AIGCRank.cn:AI 排行榜

    AIGCRank.cn 是一个提供 AI 产品排行榜的网站,主要收集和整理国内外各类 AI 产品的相关信息,并通过排行榜形式展示给用户。该网站旨在帮助用户了解和选择最优秀的 AI 产品,以满足其需求。

  • ReVideo:视频重制,精确控制内容与运动

    ReVideo是一个创新的视频编辑技术,它允许用户在特定区域进行精确的视频编辑,通过指定内容和运动来实现。这项技术通过修改第一帧来实现内容编辑,而基于轨迹的运动控制提供了直观的用户交互体验。ReVideo解决了内容和运动控制之间耦合和训练不平衡的新任务。通过开发三阶段训练策略,逐步从粗到细解耦这两方面,并提出一种时空自适应融合模块,以在不同的采样步骤和空间位置整合内容和运动控制。

  • TryOnDiffusion:一款基于扩散模型的服装试穿技术

    TryOnDiffusion是一种创新的图像合成技术,它通过两个UNets(Parallel-UNet)的结合,实现了在单一网络中同时保持服装细节和适应显著的身体姿势及形状变化。这项技术在保持服装细节的同时,能够适应不同的身体姿势和形状,解决了以往方法在细节保持和姿势适应上的不足,达到了业界领先的性能。

  • AIGCRank大语言模型API价格对比:汇总和比较全球主要AI模型提供商的价格信息

    AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。

  • Pandora:通用世界模型,支持自然语言动作和视频状态

    Pandora是一个向通用世界模型迈进的模型,它能够通过生成视频来模拟世界状态,并允许使用自然语言在任何时间控制视频内容。Pandora与以往的文本到视频模型不同,它允许在视频生成过程中随时接受自由文本动作输入,从而实现视频的即时控制。这种即时控制能力实现了世界模型支持交互式内容生成和增强的健壮推理和规划的承诺。Pandora能够跨多个领域生成视频,如室内/室外、自然/城市、人类/机器人、2D/3D等场景。此外,Pandora还允许通过高质量的数据进行指令调整,使得模型能够在一个领域学习动作并在另一个未见过的领域中使用。Pandora模型还通过自回归模型生成更长的视频,其生成的视频长度可以超过训练视频的长度。尽管Pandora作为通用世界模型的初步步骤仍有限制,例如在生成一致性视频、模拟复杂场景、理解常识和物理法则以及遵循指令/动作方面可能会失败,但它在视频生成和自然语言控制方面展示了巨大的潜力。

  • Dev Home:Windows开发者的一站式控制中心

    Dev Home是微软为Windows开发者推出的一款桌面客户端,旨在提供一个集中的控制中心,帮助开发者监控项目、设置开发环境、连接开发者账户和工具,并创建专用的存储空间。它通过自定义的仪表板小部件,使开发者能够监控工作流程、跟踪开发项目、编码任务、Azure DevOps查询、GitHub问题、拉取请求、可用SSH连接以及系统的CPU、GPU、内存和网络性能。Dev Home 0.14 预览版更新集成了 PowerToys 模块,以及基于 AI 的 Quickstart Playground 功能。

今日大家都在搜的词: