性能8.6倍于竞品！高通AI大揭秘：NPU引领四兄弟

2024-03-07 21:05 · 稿源：快科技

生成式AI的变革，对于基础硬件设计、软件生态开发都提出了新的、更高的要求，尤其是底层硬件和算力必须跟上新的形势，并面向未来发展做好准备。

近日，高通特别发布了《通过NPU和异构计算开启终端侧生成式AI》白皮书，对于终端侧生成式AI的发展趋势，以及高通骁龙处理器的多模块异构计算引擎，尤其是NPU的设计及优势，都进行了详细解读。

生成式AI虽然这两年才火热起来，但是AI的发展历史悠久，高通也早在2007年就打造了Hexagon DSP，其控制和标量架构正是后续NPU的基础。

2015年发布的骁龙820处理器集成了首个高通AI引擎，支持成像、音频和传感器运算。

之后，2018年的骁龙855又增加了Hexagon张量加速器。

2020年骁龙888里的全新架构Hexagon NPU堪称里程碑转折，并在之后的三代骁龙8中持续迭代演进，AI性能、效能和范围不断拓展。

比如第三代骁龙8的张量运算核心的峰值性能就大幅提升了98％，同时依然保持高超的能效。

高通在AI方面采用的是异构计算引擎思路，由Kryo CPU、Adreno GPU、Hexagon NPU、传感器中枢四大核心模块共同组成，彼此协作。

根据终端类型、终端层级、关键性能指标、时延等因素的不同，这种架构可以使用不同的组件进行AI处理，以达到最佳效率。

比如说，CPU计算量一般，但擅长顺序控制和即时性，非常合对延迟要求非常高的场景，比如时序敏感性小模型，比如卷积神经网络模型(CNN)或者特定大语言模型(LLM)。

GPU擅长高精度格式的并行处理，比如对画质要求非常高的图像、视频处理，同时算力非常强，可运行大规模的模型。

NPU擅长标量、向量和张量数学运算，而且能效非常高，能够以极低功耗实现持续稳定的高峰值性能，在基于LLM和LVM(大视觉模型)的不同用例中，比如说Stable Diffusion或其他扩散模型，每瓦特性能十分出色。

高通传感器中枢则能以极低功耗运行始终开启的用例，可获取大量端侧情境信息，让生成式AI体验更加个性化，这也是终端侧AI的独特优势之一，并且信息保留在终端上，不会联网上传到云端，隐私更安全。

如此设计的异构计算，能够实现最佳的应用性能、能效和电池续航，以最大化提升生成式AI终端的用户体验。

这里重点说说NPU。

NPU全程为神经网络处理器，是专为低功耗加速AI推理而打造的硬件模块，架构上随着新AI算法、模型和用例的发展而不断演进。

Al工作负载主要包括由标量、向量和张量数学组成的神经网络层计算以及非线性激活函数。

优秀的NPU设计，能正确选择如何处理AI工作负载，同时与CPU、GPU等其他模块协同执行，并与AI行业发展方向保持高度一致。

高通Hexagon NPU就是为了以低功耗实现持续稳定的高性能AI推理而设计，其差异化优势在于系统级解决方案、定制设计和快速创新。

通过定制设计NPU并控制指令集架构(ISA)，高通可以让NPU快速演进和扩展，以解决遇到的任何瓶颈问题，并优化性能。

高通透露，最初开始研究NPU的时候，关注的是一些简单用例，比如用于音频和语音处理的卷积神经网络模型(CNN)和长短期记忆网络模型(LSTM)，2015年第一代高通AI引擎的Hexagon NPU就集成了标量和向量运算扩展。

2016-2022年间，高通将研究方向拓展至AI影像和视频处理，比如暗光拍照、降噪、多帧处理等，同时引入了Transforme层处理，因此增加了张量运算核心(Tensor Core)。

2023年，Hexagon NPU开始支持LLM和LVM，并支持Transformer，可以更好地处理基于Transformer的模型。

如今第三代骁龙8集成的Hexagon NPU已经能够在终端侧运行高达100亿参数的模型，无论是首个token的生成速度，还是每秒生成token的速率，都处在业界领先水平。

值得一提的是，Hexagon NPU还引入了用于图像处理的微切片推理技术，增加了能够支持所有引擎组件的大共享内存，最高支持到4.8GHz频率的LPDDR5X，LLM处理能力更上一层楼，可快速处理百川、Llama2等等。

性能8.6倍于竞品！高通AI大揭秘：NPU引领四兄弟无敌

说了半天原理，看看实际性能表现，首先是第三代骁龙8和三款安卓、iOS平台竞品的对比。

鲁大师AIMark V4.3测试中，第三代骁龙8的总分达到了竞品B的5.7倍、竞品C的7.9倍。

安兔兔测试中，第三代骁龙8的总分是竞品B的6.3倍。

MLCommon MLPerf推理的不同子项中，比如图像分类、语言理解、超级分辨率等，第三代骁龙8也都保持领先。

性能8.6倍于竞品！高通AI大揭秘：NPU引领四兄弟无敌

PC端对比骁龙X Elite和其他x86架构竞品。

Windows系统下的UL Procyon AI推理测试中，骁龙X Elite在ResNet-50、DeeplabV3等测试项目中都大幅领先，总分是竞品A的3.4倍、竞品B的8.6倍。

近日在巴塞罗那举办的MWC 2024大会上，高通还展示了在终端上运行的多模态生成式AI模型。

在第三代骁龙8上运行的首个大语言和视觉助理大模型(LLaVA)，能基于图像输入，回答用户提出的问题。

比如为视障人士在城市内进行导航，就可以将图像信息转换成语音，帮助他们了解周围的事物。

顺带一提，高通还展示了基于骁龙X Elite笔记本，首个在终端侧运行的超过70亿参数的大型多模态语言模型(LMM)，可接受文本和音频输入(如音乐、交通环境音频等)，再生成多轮对话。

硬件AI能力之上，高通还打造了AI软件栈(AI Stack)。

它可以支持目前所有的主流AI框架，包括TensorFlow、PyTorch、ONNX、Keras；支持所有主流的AI运行时，包括DirectML、TFLite、ONNX Runtime、ExecuTorch；还支持不同的编译器、数学库等AI工具。

此外，高通还有AI Studio，可为开发者提供开发过程中需要用到的各种相关工具，包括支持模型量化和压缩的高通AI模型增效工具包(AIMET)，能够大幅提高模型运行的效率。

高通认为，AI终端市场的发展还在初期阶段，但已经为高通的不同产品和解决方案带来了显著的改进，对消费者的重要性也在不断增加，无论教育、医学还是养老等各个领域，AI的作用将愈发凸显。

互联网出现的时候，只有少数人能够利用PC上网，而智能手机的出现让数十亿人都能够连接网络。

相信终端侧生成式AI的发展也是如此，它将让所有人都能充分利用生成式AI，改变工作、娱乐和生活中的切身体验，变革各行各业。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
高通骁龙X系列AI PC处理器将于4月24日发布

在社交平台上，高通已经提前宣布了一个令人激动的消息——全新的高通骁龙X系列AIPC处理器将于4月24日正式亮相。此次发布会的焦点无疑是两款新的芯片:骁龙XElite和骁龙XPlus。我们期待这次发布会能够给PC市场带来全新的活力和变革。
小米SU7翼子板上的孔是干吗的雷军揭秘：为了高性能

快科技4月16日消息，雷军日前发布视频，介绍了小米SU7翼子板上的一个孔”。雷军称，好多网友不知道翼子板处的孔”是干吗的，还有网友问是被撞坏了吗？雷军向网友科普道，这个孔是小米汽车特意设计的通风口，为了提升小米SU7的空气动力学表现。小米SU7全车设计了17个真风口，8组通风道，能够有效的降低风阻，因此，小米SU7具备极强的性能表现。事实上，小米SU7交付之�

小米SU7 雷军翼子板
科技巨头工程师薪酬大揭秘：OpenAI工程师年薪达90万美元

人工智能是一个蓬勃发展的领域，具有相关经验的人才正因其知识被慷慨报酬。OpenAI是ChatGPT背后的公司，正为合适的人才支付高薪。如果他们达到69级，平均总薪酬为1.12百万美元，其中包括平均基本工资292，000美元，675，000美元的股票奖励和153，000美元的奖金。

OpenAI AI头条
iQOO Z9系列销量创新高：预售量为Z系列历史最高纪录的6倍

iQOO宣布，iQOOZ9系列销量再创历史纪录，全系列预售量为Z系列历史最高纪录的6倍。iQOOZ9系列包含Z9、Z9Turbo和Z9x三款机型，其中定位最高的是Z9Turbo，起售价1999元。核心参数上，iQOOZ9Turbo采用6.78英寸144Hz护眼屏，前置1600万像素，后置5000万像素索尼定制主摄以及800万超广角，主摄支持OIS光学防抖，电池是6000毫安时，支持80W有线闪充。

iQOO Z9系列销量创纪录
安卓进入3nm时代！高通骁龙8 Gen4首次采用3nm工艺

高通骁龙8Gen4将首次采用台积电3nm工艺，这意味着安卓阵营正式迈入3nm时代。苹果率先切入3nm工艺，首颗3nm芯片是A17Pro，由iPhone15Pro和iPhone15ProMax首发搭载。目前高通骁龙8Gen4性能极强，但是因为频率设定过高，功耗表现一般，预计量产时频率会降低。

高通骁龙8 Gen4
奇瑞风云T9背后的世界级品质大揭秘，奇瑞青岛超级工厂有答案

4月18日，奇瑞隆重举办“奇瑞风云品牌之夜暨风云T9全球预售”发布会，风云T9以其超豪华中型电混SUV新标杆的身份惊艳亮相。风云T9凭借世界级的产品实力，征服了场内外的观众、媒体和车友，那么问题来了，如此强大的全球百万级产品，是如何炼成的呢?或许还要从奇瑞青岛超级工厂来寻找答案。是奇瑞汽车对品质和技术不懈追求的结晶，也是对中国新能源汽车市场超豪华中�
司马阅升级，AI文档分析精准度更高，综合性能更强！

司马阅基于自研文档智能模型基座，再次升级，邀您来体验!01-权益升级【1】探索版>>>单文档上传大小，由30M提升至50M【2】专业版>>>单文档上传大小，由40M提升至80M;>>>单文档上传页数，由200页提升至300页;>>>文档库文档，由10个上升至15个。02-体验升级>>>考虑到不同浏览器缩放功能及尺寸，增加了自由开启或者关闭侧边文档栏的功能，可以更好�

文档智能模型权益升级体验升级
Redmi Turbo 3官宣：本月发布搭载高通骁龙8s Gen3

Redmi品牌总经理王腾正式揭晓，备受瞩目的RedmiTurbo3即将在本月闪亮登场。这款新品将搭载全新的骁龙8系旗舰芯片，以卓越的性能表现，引领中端市场的性能跃升。在GPU方面，骁龙8sGen3搭载了与骁龙8Gen2相同的高性能AdrenoGPU，为用户带来无与伦比的游戏体验和能效表现。

Redmi Turbo3 骁龙8系旗舰芯片
马斯克突然发布Grok 1.5！上下文长度飙升16倍和GPT-4齐平

就在刚刚，埃隆马斯克旗下的人工智能初创公司xAI宣布正式推出Grok-1.5，官方推送啥也没说，直接甩链接，主打一个字少事大”。Grok-1.5有哪些升级呢，主要是两个方面：1、长上下文理解对于上下文窗口，Grok-1.5直接提升到了之前的16倍，从8192增长到128k，和GPT-4齐平。Grok-1.5在HumanEval基准测试上得分74.1%，超越中杯Claude3Sonnet、GeminiPro1.5、GPT-4，仅次于大杯Claude3Opus。

人工智能 Grok-1.5 上下文理解
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

性能8.6倍于竞品！高通AI大揭秘：NPU引领四兄弟

今日大家都在搜的词：

热文

站长商机