首页 > 业界 > 关键词  > AI最新资讯  > 正文

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

2023-06-05 23:36 · 稿源: 快科技

AI人工智能,这个东西其实一旦都不新鲜。

从早些年的科幻作品,到后来的逐步落地,从1997年IBM超级电脑深蓝”击败国际象棋大师卡斯帕罗夫,到2016年Google AlphaGo战胜围棋冠军李世石,AI一直都在进步,也一直在演化。

但因为算力算法、技术能力、应用场景等方面的种种限制,AI一直有些空中楼阁的感觉。

直到出现了ChatGPT,AI才真正引燃了普通人的热情,让我们发现,AI竟然如此强大,又如此唾手可得,让众多个体、企业为之兴奋,为之癫狂。

众所周知,足够强大与合理的硬件、算法,是实现高效、实用AI的两大基石,而在这一番AI热潮中,NVIDIA之所以春风得意,就得益于其在高性能计算领域多年来的布局和深耕,非常适合超大规模的云端AI开发。

当然,AI无论实现方式还是应用场景都是多种多样的,既有云侧的,也有端侧的。

NVIDIA的重点在云侧和生成式AI,Intel在云侧生成式、端侧判定式同时出击,而随着越来越多的AI跑在端侧,更贴近普通用户日常体验,所带来的提升越来越明显,Intel更是大有可为。

端侧AI有几个突出的特点:

一是用户规模庞大,应用场景也越来越广泛;

二是延迟很低,毕竟不需要依赖网络将指令、数据传到云侧处理再返回;

三是隐私安全,不用担心个人信息、商业机密等上传后泄露;

四是成本更低,不需要大规模服务器和计算,只需本地设备即可完成。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

端侧AI,说起来大家可能会感觉很陌生,但其实,人们习以为常的背景模糊、视觉美颜、声音美化(音频降噪)、视频降噪、图像分割等等,都是端侧AI的典型应用场景,背后都是AI在努力。

这些应用要想获得更好的效果,就需要更完善、复杂的网络模型,对于算力的需求自然也在快速增长。

比如噪音抑制,算力需求已经是两年前的50倍,背景分割也增长了10倍以上。

更不要说生成式AI模型出现后,对算力的渴求更是飞跃式的,直接就是数量级的提升,无论是Stable Diffusion,还是语言类GTP,模型参数都是非常夸张的。

比如GPT3的参数量达到了1750亿左右,相比GPT2增加了几乎500倍,GPT4估计可达到万亿级别。

这些都对硬件、算法提出了更苛刻的要求。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

Intel自然也早就开始关注并投入AI,无论是服务器级的至强,还是消费级的酷睿,都在以各种方式参与AI,XX代智能酷睿处理器”的说法就在很大程度上源于AI。

在此之前,Intel AI方案主要是在CPU、GPU的架构、指令集层面进行加速。

比如从十代酷睿和二代可扩展至强加入的基于深度学习的DL Boost,包括VNNI向量神经网络指令、BF16/INT8加速等等。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

比如11代酷睿加入的高斯网络加速器GNA 2.0,相当于NPU的角色,只需消耗很低的资源,就能高效进行神经推理计算。

比如代号Sapphire Rapids的四代可扩展至强上的AMX高级矩阵扩展,使得AI实时推理和训练性能提升了多达10倍,大型语言模型处理速度提升了足有20倍,同时配套的软件和工具开发也更加完善丰富。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

在Intel看来,没有单一的硬件架构适用于所有的AI场景,不同硬件各有特点,有的算力强大,有的延迟超低,有的全能,有的专攻。

AI作为基础设施也有各种各样的场景应用和需求,负载、延迟都各不相同,比如实时语音和图像处理不需要太强的算力,但是对延迟很敏感。

这时候,Intel XPU战略就有着相当针对性的特殊优势,其中CPU适合对延迟敏感的轻量级AI处理,GPU适合重负载、高并行的AI应用。

Intel另一个无可比拟的优势就是稳固、庞大的x86生态,无论应用还是开发,都有着广泛的群众基础。

现在,Intel又有了VPU。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

将在今年晚些时候发布的Meteor Lake,会首次集成独立的VPU单元,而且是所有型号标配,可以更高效地执行特定AI运算。

Intel VPU单元的技术源头来自Intel 2017年收购的AI初创企业Movidius,其设计的VPU架构是革命性的,只需要1.5W功耗就能实现4TOPS的强大算力,能效比简直逆天,最早用于无人机避障等,如今又走入了处理器之中,与CPU、GPU协同发力。

VPU本质上是专为AI设计的一套新架构,可以高效地执行一些矩阵运算,尤为擅长稀疏化处理,其超低的功耗、超高的能效非常适合一些需要长期打开并执行的场景,比如视频会议的背景虚化、移除,比如流媒体的手势控制。

之所以在已经有了CPU、GPU的情况下,还要做一个VPU,Intel的出发点是如今很多端侧应用是在笔记本上进行,对于电池续航非常敏感,高能效的VPU用在移动端就恰如其分。

另一个因素是CPU、GPU作为通用计算平台,本身就任务繁重,再给它们增加大量AI负载,执行效率就会大打折扣。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

具体到应用场景,VPU也是非常广泛的,比如说视频会议,现在的CPU AI已经可以实现自动构图(Auto-Framing)、眼球跟踪、虚拟头像/人像、姿势识别等等。

加入低功耗、高算力的VPU之后,还可以强化背景模糊、动态降噪等处理,让效果更加精准,比如说背景中的物体该模糊的一律模糊、人手/头发等不该模糊的不再模糊。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

有了高效的硬件、合适的场景,还需要同样高效的软件,才能释放全部实力、实现最佳效果,这对于拥有上万名软件研发人员的Intel来说,真不是事儿。

Meteor Lake还没有正式发布,Intel已经与众多生态伙伴在VPU方面展开了合作适配,独立软件开发商们也非常积极。

比如Adobe,很多滤镜、自动化处理、智能化抠图等,都可以用VPU来跑。

比如Unreal Engine虚幻引擎的数字人,比如虚拟主播,VPU都能很好地实时捕捉、渲染处理。

Blender、Audacity、OBS、GIMP这个名单可以拉出很长一串,而且还在不断增加。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

更重要的是,CPU、GPU、VPU并非各行其是,而是可以联合起来,充分发挥各自的优势,达到最好的AI体验效果。

比如说基于GIMP里就有一个基于Stable Diffusion的插件,可以大大降低普通用户使用生成式AI的门槛,它就能充分调动CPU、GPU、VPU各自的加速能力,把整个模型分散到不同IP之上,彼此配合,获得最好性能。

其中,VPU可以承载VNET模块运行,GPU用来负责编码器模块执行,通过这样的合作,生成一张复杂的图片也只需20秒左右。

在这其中,VPU的功耗是最低的,CPU次之,GPU则是最高的。

让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

Intel已经充分意识到AI对于PC体验增强的重要性,而为了迎接这一挑战,Intel正在硬件、软件两个层面全力推进,对AI在的端侧的发展、普及打下坚实的基础。

硬件层面,CPU、GPU、VPU将组成无处不在的底层平台;软件层面,OpenVINO等各种标准化开发软件将大大推动应用场景的挖掘。

未来,搭载Meteor Lake平台的轻薄笔记本就可以轻松运行Stable Diffusion这种大模型来实现文生图,大大降低AI的应用门槛,无论判定式AI还是生成式AI都能高效执行,最终实现真正的AI无处不在。

举报

  • 相关推荐
  • 华为发布F5.5G六大技术升级:面提升网络能力 让10Gbps无处不在

    据华为官微,在UBBF2023期间华为发布了迈向F5.5G的六大技术升级,推动体验、架构、效率的全面提升,并呼吁全产业共同推进F5.5G的成熟与落地,逐步实现10GbpsEverywhere。这六大技术升级分别为:FTTR升级到FTTR-B,从家庭延伸到企业全球已有近1000万家庭部署了FTTR。华为光产品线副总裁金志国表示:未来,华为还将继续围绕F5.5G打造最优解决方案,希望携手全球运营商客户和产业伙伴共同推进F5.5G产业的成熟发展,推动实现光联万物、10GbpsEverywhere的美好愿景。

  • AMD发布EPYC 8004系列处理器:96个Zen 4c核心、不可思议高能效

    经过连续四代的演进迭代,AMDEPYC处理器越发强大枝繁叶茂,Zen4家族就分成了四个不同的子系列。首发的是EPYC9004系列标准版,适合通用计算,Zen4架构,最多96核心192线程。AMDEPYC已经占尽了先机,布局也更加全面深入基于Zen5架构的下一代Turin”也正在准备之中,继续有着丰富的细分产品线,完全不给对手任何机会的感觉。

  • 力推F5.5G!华为发布三阶段光目标网架构:让万兆网无处不在

    据华为中国”官方公众号介绍,华为光产品线总裁靳玉志近日发表了题为将F5.5G带入现实,迈向智能世界的关键里程碑”主题演讲,首次提出三阶段建网理念。他认为视频驱动百兆建网、体验驱动千兆建网和智能驱动万兆建网是网络发展的三大驱动力。FTTR全面升级,支持全光家庭总线,整合联接、感知、计算和存储能力,提供全屋10Gbps,并带来末端IoT设备的即联即用。

  • NVIDIA下一代GPU架构巨变!首次上马多芯片 学习AMD/Intel

    NVIDIARTX40系列、AMDRX7000系列这一代显卡都已经布局完毕下一代还要等差不多两年,至少NVIDIABlackwell在路线图上看要到2025年才会推出明年来一波Super系列?2021年就第一个曝出Blackwell这个代号的曝料高手kopite7kimi给出的最新说法称,Blackwell不会明显增加GPC、TPC等计算单元的数量,CUDA核心数自然也不会大幅提升,但是会在基础架构上做出巨大的革新。GB20x系列游戏卡核心,应该还是单芯片,这倒是和AMDNavi31/32不一样。

  • OpenAI 正在寻找更便宜的 AI 芯片方案:解决 GPU 短缺和昂运行成本

    OpenAI正考虑制造自己的人工智能加速器芯片,以解决专用AIGPU芯片短缺和高昂的运行成本问题。OpenAI正在评估各种选项,包括潜在的收购芯片制造公司和更密切地与英伟达等芯片制造商合作。微软计划在下个月公开该芯片。

  • 微软 OneDrive 将迎来全新升级:Copilot 将为用户提供更多 AI 功能

    微软日前宣布将对OneDrive进行更新,旨在使人们更容易访问、查看、分享和管理他们的文件。在本周的在线活动中,被称为「微软OneDrive:文件管理的未来已经来临」,微软公司公布了其在线文件存储服务的计划,其中一些已经对特定用户生效其他一些将在今年晚些时候或明年初开始推出。该功能预计将在2024年初进入更广泛的公共预览阶段。

  • 刘德华代言Mate 60 RS非凡大师!华为发布全新超高端品牌ULTIMATE DESIGN

    今天下午的秋季全场景新品发布会上,华为正式发布全新超高端品牌ULTIMATEDESIGN非凡大师。历经多年沉淀,推出极致美学、极致工艺、极致创新的集大成者,从PORSCHEDESIGN到ULTIMATEDESIGN,品牌实现全面升级。华为也将持续探索,以极致的产品来致敬这个时代的非凡大师。

  • Docker发布全新AI堆栈,开创无缝集成时代

    Docker公司在洛杉矶举办的Dockercon23大会上推出了全新的DockerGenAI堆栈,引领着AI应用程序的开发革命。这一堆栈旨在使Docker容器技术与Neo4j图形数据库、LangChain模型链接技术以及大型语言模型Ollama实现无缝集成,极大地简化了生成式AI应用程序的开发过程。此举将进一步推动AI技术的普及和发展。

  • 微软推出全新预训练模型phi-1.5 仅13亿参数常识推理碾压Llama2

    微软研究人员最近在一篇论文中提出了一个新的语言模型Phi-1.5,该模型的参数量仅有13亿。研究人员主要关注Phi-1.5在常识推理方面的表现,因为这是对语言模型能力的重要考验。本研究表明,相比单纯追求模型规模,如何获取高质量训练数据可能更为重要,这为未来语言模型研究提供了新的思路。

  • 全新Google Pixel 8系列配置曝光 Tensor G3 处理器加持

    据博主“Kmila”爆料,全新的GooglePixel8系列手机配置已经曝光,系列将采用全新的GoogleTensorG3处理器,并且有望在性能和功耗上有所提升。Pixel8Pro将配备12GB内存和1-120Hz动态刷新率屏幕Pixel8将采用8GB内存和60-120Hz动态刷新率屏幕。今年中高端机型的竞争激烈,阿谷的Pixel系列别有一番风味。

今日大家都在搜的词: