首页 > 业界 > 关键词  > AMD最新资讯  > 正文

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

2024-04-09 21:12 · 稿源: 快科技

快科技4月9日消息,AMD今天宣布,旗下的Versal自适应片上系统(SoC)产品升级全新第二代,包括面向AI驱动型嵌入式系统的AI Edge 2VE3000系列、面向经典嵌入式系统的Prime系列。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

新一代产品很好地平衡了性能、功耗、面积,以及先进的功能安全与信息安全,可广泛应用于汽车、工业、视觉、医疗、广播、专业音视频等市场领域。

新品在单器件内集成了预处理、AI推理、后处理,可为AI嵌入式系统提供端到端的全程加速。

这也是AMD董事会主席及CEO苏姿丰此前提出的AI无处不在”战略的最新体现。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

对于AI驱动的嵌入式系统,核心当然是AI推理,也就是AI算法执行的阶段,但是预处理、后处理两个阶段同样不容忽视。

一般而言,预处理阶段主要是摄像头、雷达、激光雷达等传感器的处理、融合,以及数据的交集和调节。

这一阶段需要嵌入式系统与环境进行实时交互与处理,决定着整个系统的性能,因此需要可编程逻辑来实现灵活的实时处理,包括连接任意传感器和接口,保证低时延、确定性,以及现场部署后依然可升级,一般还要加上FPGA、SoC进行优化。

AI推理阶段需要实时嵌入式系统解决感知、分析、情境感知问题,一般使用矢量处理器,也就是非自适应性SoC。

后处理阶段需要实现决策、控制、反馈,一般使用高性能嵌入式CPU。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

这三个阶段都必须能够加速,才可以真正实现全系统的实时。

但是,之前没有任何一类处理器可以同时针对三个阶段进行优化加速,都需要多芯片共同组成解决方案。

比如说用AMD第一代Versal AI Edge系列的可编程逻辑做预处理,然后用矢量处理或者AI引擎做推理,后处理阶段再配置外部处理器。

类似方案都存在功耗更高、供电更复杂、占用空间更大、外部内存需求更多、芯片间时延更长等问题,还容易存在更多安全漏洞。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

AMD的第二代 Versal 系列自适应SoC以第一代为基础升级而来。

无论是面向AI驱动型嵌入式系统的AI Edge系列,还是面向经典嵌入式系统的Prime系列,同样具备强大的全新AI引擎,每瓦TOPS算力(即能效)是第一代AI Edge系列的最多3倍。

处理系统部分(PS)集成了全新的高性能Arm CPU核心,包括Cortex-A78AE应用处理器核心、Cortex-R52实时处理器核心,标量计算性能预计可比第一代提升最多10倍,

全新的AMD可编程逻辑(PL),具备领先的自适应计算能力,可实现灵活的实时预处理。

此外还集成了Arm Mali-G78AE GPU图形核心、DDR5/LPDDR5X内存控制器、PCIe 5.0控制器、100G以太网控制器、DPS图像信号处理器、视频编解码器、功能与信息安全模块、处理器接口、视频处理单元等等众多单元,单颗芯片搞定一切。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

正因为如此,AMD第二代Versal才是真正的自适应SoC,才能在单个器件中提供端到端的全程加速。

单芯片设计的高级程度,还可以大大降低系统功耗、占用空间、复杂性。

功能安全性增强之后,也不再需要外部安全微控制器,或者外部存储,不需要在多个处理器之间共享。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

第二代Versal AI Edge系列器件通过采用最优处理器组合,能够为AI驱动型嵌入式系统的全部三个阶段进行加速,满足现实系统的复杂处理需求。

在预处理阶段,AMD FPGA可编程逻辑架构用于实时处理,可以密集、灵活地连接各种传感器,包括各种图像传感器、摄像头、激光雷达、超声波、定位系统、IMU惯性测量单元、内窥镜探头等等,并进行高吞吐量、低时延的数据处理。

可编程逻辑的引入,能够摆脱对外部存储、CPU/GPU处理器的依赖,并针对特定任务进行定制优化,从而直接连接到推理加速卡,大大节省执行时间。

可编程I/O则支持广泛的不同传输速率、电压和工作模式,相比固定I/O更加灵活。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

推理阶段,矢量处理器阵列构成了下一代 AI引擎AIE-ML v2”。

它内置硬化控制处理器,不再需要使用可编程逻辑进行控制,因此可以将可编程逻辑资源释放用于传感器、硬图像和视频等数据的处理。

新的AI引擎还原生支持更多数据类型,包括全新的FP8、FP16、MX6、MX9,并继续支持INT8、INT16、BF16。

Dense性能方面,INT16算力最高46TOPS,FP16、BF16算力最高92TOPS,INT8、FP8、FPMX9算力最高184TOPS,MX6算力最高369TOPS。

最高稀疏度算力更高,比如INT8最高可以达到368TOPS。

MX6、MX9属于共享指数数据类型,可以节省每个元素所占用的字节数,其中MX6对比INT8的能效可提升多达60%,而且精度类似甚至更高。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

为了充分释放AI引擎的算力性能,AMD同时提供了Vitis AI开发环境,提供丰富的量化器、剪枝、模型编译器与工具、运行时、驱动、固件等全套开发资源,以及培训、文档、参考设计等。

它还支持开源生态系统,采用行业标准框架,包括PyTorch、TensorFlow、ONNX、Triton等等,也支持第三方量化器和稀疏工具。

对于各种模型、运算符、数据类型,Vitis AI环境都支持开箱即用,包括卷积神经网络(CNN)、视觉Transformer等等。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

后处理阶段,Arm CPU内核可为安全关键型应用提供复杂决策与控制所需的能力。

针对复杂决策与繁重工作负载的应用处理单元(APU),基于Arm Cortex-A78AE核心,最高频率2.2GHz,算力高达200.3K DMIPS,是上代的最多8倍。

针对控制功能的实时处理单元(RPU),则基于Arm Cortex-R52核心,最高频率1.05GHz,算力高达28.5K DMIPS,是上代的最多10倍。

另外,因为未来需要通过车规级认证、安全认证,尤其是高级别型号会用于ASIL D汽车、SIL 3工业和机器人领域,必须应对随机故障,确保功能安全与信息安全,所以在锁步模式下算力性能会减半,以便留出足够的冗余空间。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

当然,理论指标和性能最终要转化为实际应用,才能真正体现出来。

比如高级自动驾驶辅助系统L2 /L3,由于加入硬图像处理功能,图像处理性能可达上代的4倍,但功耗基本不变。

比如智慧城市,往往需要大量摄像头和视频,可以为边缘AI设备缩小30%的占板面积,比并支持2倍的视频流,也就是每路视频流占板面积缩小多达65%。

再比如视频流,一般用于专业音视频和广播场景,可实现非常高精度的流量,每秒约60帧,相比于之前的Zyng MPSoC可提供2倍的视频处理能力,每路视频流占板面积也缩小35%。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

两代产品性能级别对比,可以看到没有任何交叉重叠,可以互为补充、针对不同应用和场景

上一代产品更多的是边缘传感器后者CPU计算卸载,二代产品则主要是中央计算。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

合作案例方面,斯巴鲁已选择第二代Versal AI Edge系列,用于其下一代高级辅助驾驶(ADAS)的视觉系统EyeSight”。

该系统会集成于斯巴鲁的部分车型,实现先进安全功能,包括自适应巡航控制、车道保持辅助、预碰撞制动等等,致力于实现全年消除致命性道路事故的安全目标。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

第二代Versal Prime系列结合了面向传感器处理的可编程逻辑,以及高性能嵌入式Arm CPU,可以为传统的非AI嵌入式系统提供端到端加速。

它也能提供最多10倍与初代产品的标量算力,高效执行传感器处理、复杂标量工作负载。

同时,得益于针对8K等高吞吐量视频处理的全新硬 IP,第二代Versal Prime系列非常适合超高清视频流与录制、工业PC等应用。

AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速

AMD第二代Versal AI Edge系列、第二代Versal Prime系列将于2025年上半年提供样品,2025年年中提供评估套件和系统模块(SOM),2025年年底量产上市。

目前,客户和开发者已经可以获取早期访问文档、参与早期使用计划,AMD也正在与主要客户进行接洽。

举报

  • 相关推荐
  • 大家在看
  • No-Code Scraper:无需编码即可从任何网站提取数据。

    No-Code Scraper是一个无需编码即可从任何网站提取数据的工具。它利用大型语言模型简化数据提取过程,使每个人都能轻松使用。该平台能够适应任何网站的变化,提供最简单和最快的网络抓取体验。

  • Biofy:一站式社交媒体链接管理平台

    Biofy是一个多功能的社交媒体链接管理平台,它允许用户通过一个链接整合所有社交媒体和在线内容,包括链接到应用商店、YouTube深层链接、URL缩短、QR码生成和分析等。Biofy特别适用于内容创作者、品牌和企业,帮助他们更有效地管理和推广自己的在线存在。

  • AI-Powered Sleep Story Generator:个性化AI助眠故事生成器,助你安然入梦

    AI-Powered Sleep Story Generator是一款创新的AI驱动工具,旨在帮助用户进入深度而宁静的睡眠。用户可以描述自己理想的睡眠场景,AI将利用最新技术制作出舒缓而沉浸式的音频故事,安抚心灵,帮助用户放松进入梦乡。该工具将个性化提升到新水平,根据用户的特定偏好和需求定制每个故事,无论是轻柔的自然声音、舒缓的叙述,还是两者的结合,AI技术都能确保完美适应用户的睡前例程。

  • Tap4 AI:提供免费 AI 工具目录,汇集各类 AI 工具并为用户提供最佳选择。

    Tap4 AI Directory 是一个提供免费 AI 工具目录的工具,旨在收集所有 AI 工具并为用户提供最佳选择。用户可以在 Tap4 AI 目录中找到各类 AI 工具,助力工作效率和创意。

  • Carteisa Sonic:低延迟语音模型,生成逼真语音

    Sonic是由Carteisa团队开发的低延迟语音模型,旨在为各种设备提供逼真的语音生成能力。该模型利用了创新的状态空间模型架构,以实现高分辨率音频和视频的高效、低延迟生成。Sonic模型的延迟仅为135毫秒,是同类模型中最快的。Carteisa团队专注于优化智能的效率,使它更快、更便宜、更易于访问。Sonic模型的发布,标志着实时对话式AI和长期记忆的计算平台的初步进展,预示着未来AI在实时游戏、客户支持等领域的新体验。

  • ViViD:视频虚拟试穿技术

    ViViD是一个利用扩散模型进行视频虚拟试穿的新框架。它通过设计服装编码器提取精细的服装语义特征,并引入轻量级姿态编码器以确保时空一致性,生成逼真的视频试穿效果。ViViD收集了迄今为止规模最大、服装类型最多样化、分辨率最高的视频虚拟试穿数据集。

  • xinsir:深度学习、表示学习、细粒度分类

    xinsir (qi) 是一个关于深度学习、表示学习和细粒度分类的产品。它提供了强大的功能和技术,具有主要优点和背景信息。该产品具有多个模型可供选择。

  • 腾讯元宝:是一个多功能工具,帮助用户轻松工作和享受多彩生活。

    腾讯元宝是一款集成了多种实用工具和服务的生产力工具,旨在提高用户工作效率和生活品质。其背景信息是由腾讯公司推出,定位为全面满足用户工作和生活需求的综合性工具。腾讯元宝提供了丰富的功能和服务,包括日程管理、文件存储、社交聊天、视频会议等,用户可以在一个平台上完成各种任务。

  • GPTResearcher:AI助力的快速洞察和全面研究助手

    GPT Researcher是一个领先的自主研究代理,专为多代理框架设计,提供实时、准确和事实性的结果。它能够简化数据收集,通过一个函数调用提供可信赖、聚合和策划的结果。它支持超过100种不同的大型语言模型(LLMs),并且可以与任何搜索引擎协作,从Google到DuckDuckGo。用户可以轻松搜索本地文档和文件,并生成超过2000字的长篇报告,支持多种格式的导出,如PDF、Word、Markdown、JSON和CSV。

  • DenserRetriever:先进的AI检索器,用于RAG。

    DenserRetriever是一个开源的AI检索模型,专为RAG(Retrieval-Augmented Generation)设计,利用社区协作的力量,采用XGBoost机器学习技术有效结合异构检索器,旨在满足大型企业的需求,并且易于部署,支持docker快速启动。它在MTEB检索基准测试中达到了最先进的准确性,并且Hugging Face排行榜上也有其身影。

  • Groqbook:使用Groq和Llama3快速生成整本书

    Groqbook是一个基于Streamlit的应用程序,它利用Llama3在Groq上从一行提示快速构建书籍。它适用于非小说类书籍的创作,并能在几秒钟内生成每一章节。该应用程序混合使用Llama3-8b和Llama3-70b模型,利用较大的模型生成结构,较小的模型创造内容。目前,模型仅使用章节标题的上下文来生成章节内容。未来,这将扩展到书籍的完整上下文,以允许Groqbook生成高质量的小说书籍。

  • MusePose:虚拟人物生成的图像到视频框架

    MusePose是由腾讯音乐娱乐的Lyra Lab开发的一款图像到视频的生成框架,旨在通过姿势控制信号生成虚拟人物的视频。它是Muse开源系列的最后一个构建块,与MuseV和MuseTalk一起,旨在推动社区向生成具有全身运动和交互能力的虚拟人物的愿景迈进。MusePose基于扩散模型和姿势引导,能够生成参考图像中人物的舞蹈视频,并且结果质量超越了当前几乎所有同一主题的开源模型。

  • Codestral-22B-v0.1:一款支持80+编程语言的AI代码生成模型

    Codestral-22B-v0.1是由Mistral AI Team开发的大型语言模型,它经过了80多种编程语言的训练,包括Python、Java、C、C++、JavaScript和Bash等。该模型能够根据指令生成代码,或对代码片段进行解释、重构等。它还支持Fill in the Middle (FIM)功能,用于预测代码中的中间部分,特别适合软件开发工具的插件使用,如VS Code。该模型目前没有内容审查机制,但开发团队正在寻求社区合作,以实现在需要内容审查的环境中部署。

  • Fryderyk:AI辅助的音乐创作伙伴

    Fryderyk是一个集成了AI助手的音乐制作网页应用程序,它提供了一个浏览器内的音乐创作环境,支持即插即用,连接麦克风或任何MIDI乐器。用户可以访问广泛的虚拟乐器库,应用混响、失真、延迟等效果和混合工具,进行音频编辑、录制和编辑音频。Fryderyk还提供云存储功能,项目自动保存并同步至所有设备。它的内置生成性AI能够扩展用户的想法或在用户遇到创作瓶颈时提供新的想法。

  • Codestral:是为代码生成任务设计的AI模型。

    Codestral是Mistral AI团队推出的首个代码生成AI模型,它能够通过共享指令和完成API端点帮助开发者编写和与代码交互。它在80多种编程语言上进行了训练,包括Python、Java、C、C++、JavaScript和Bash等,能够完成编码功能、编写测试和使用中间填充机制完成部分代码。Codestral在性能上设立了新的标准,它拥有32k的上下文窗口,比竞争对手的4k、8k或16k更大,从而在RepoBench上超越了所有其他模型。此外,它还提供了专用的API端点codestral.mistral.ai,允许用户在IDE中使用Instruct或Fill-In-the-Middle路由,并且提供了8周的免费beta期。Codestral还集成到了LlamaIndex和LangChain等应用框架中,以及VSCode和JetBrains环境中,使得开发者可以在这些环境中生成和与代码进行交互。

  • PCM:一种新的文本条件高分辨率生成模型

    Phased Consistency Model(PCM)是一种新型的生成模型,旨在解决Latent Consistency Model(LCM)在文本条件高分辨率生成中的局限性。PCM通过创新的策略在训练和推理阶段提高了生成质量,并通过广泛的实验验证了其在不同步骤(1步、2步、4步、8步、16步)下与Stable Diffusion和Stable Diffusion XL基础模型的结合效果。

  • Qaiz:创建和参与多玩家知识问答游戏

    Qaiz是一个在线平台,利用AI技术快速生成各种主题的互动式问答游戏,让用户可以与朋友和家人实时竞争,同时跟踪分数并享受实时评论。它提供了一个有趣的方式来测试和分享知识,同时具有社交和娱乐的双重属性。

  • Trip Tunes:自动生成适合旅行的个性化音乐播放列表

    Trip Tunes是一款为旅行者设计的应用程序,能够自动创建与旅行氛围相匹配的音乐播放列表。用户只需输入旅行的基本信息和音乐偏好,应用程序就会利用算法精心挑选出符合当地音乐场景和旅行风格的曲目。该应用特别适合那些希望在旅途中享受个性化音乐体验的用户。

  • Backseat AI:与Tyler1一起在《英雄联盟》中获得专业级实时指导

    Backseat AI是由Tyler1联合创立的应用程序,它通过先进的AI技术为《英雄联盟》玩家提供实时的指导、洞察和评论。它旨在通过专业级的游戏分析帮助玩家提高游戏表现,同时保持电脑性能不受影响。Backseat AI是免费的,玩家可以选择升级到高级订阅以获得无广告体验和额外功能。

  • Tonic Textual:安全数据湖,为生成式AI开发提供数据

    Tonic Textual 是全球首个为大型语言模型(LLMs)设计的Secure Data Lakehouse。它通过自动化流程,帮助企业从云存储中提取、治理、丰富和部署非结构化数据,以支持生成式AI的发展。该产品强调数据隐私保护,利用其专有的命名实体识别(NER)模型自动检测和去标识化敏感信息,同时通过数据合成保持数据的语义真实性。它支持多种数据格式,并通过AWS Marketplace、Google Cloud Marketplace和Snowflake Marketplace提供服务。

今日大家都在搜的词: