首页 > 业界 > 关键词  > 正文

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型

2023-11-16 19:45 · 稿源: 快科技

正在举行的微软Iginte全球技术大会上,微软发布一系列AI相关的全新优化模型、开发工具资源,帮助开发者更深入地释放硬件性能,拓展AI场景。

尤是对于当下在AI领域占据绝对主导地位的NVIDIA来说,微软这次送上了一份大礼包,无论是面向OpenAI Chat API的TensorRT-LLM封装接口,还是RTX驱动的性能改进DirectML for Llama 2,以及其他热门大语言模型(LLM),都可以在NVIDIA硬件上获得更好的加速和应用。

其中,TensorRT-LLM是一款用于加速LLM推理的库,可大大提升AI推理性能,还在不断更以支持越来越多的语言模型,而且它还是开源的。

就在10月份,NVIDIA也发布了面向Windows平台的TensorRT-LLM,在配备RTX 30/40系列GPU显卡的台式机、笔记本上,只要显存不少于8GB,就可以更轻松地完成要求严苛的AI工作负载。

现在,Tensor RT-LLM for Windows可以通过全新的封装接口,与 OpenAI 广受欢迎的聊天 API 兼容,因此可以在本地直接运行各种相关应用,而不需要连接云端,有利于在 PC 上保留私人和专有数据,防范隐私泄露。

只要是针对TensorRT-LLM优化过的大语言模型,都可以与这一封装接口配合使用,包括Llama 2、Mistral、NV LLM,等等。

对于开发者来说,无需繁琐的代码重写和移植,只需修改一两行代码,就可以让AI应用在本地快速执行。

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型 基于TensorRT-LLM的微软Visual Studio代码插件Continue.dev编码助手

本月底还会有TensorRT-LLM v0.6.0版本更新,将会在RTX GPU上带来最多达5倍的推理性能提升,并支持更多热门的 LLM,包括全新的70亿参数Mistral、80亿参数Nemotron-3,让台式机和笔记本也能随时、快速、准确地本地运行LLM。

根据实测数据,RTX 4060显卡搭配TenroRT-LLM,推理性能可以跑到每秒319 tokens,相比其他后端的每秒61 tokens提速足足4.2倍。

RTX 4090则可以从每秒tokens加速到每秒829 tokens,提升幅度达2.8倍。

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型

基于强大的硬件性能、丰富的开发生态、广阔的应用场景,NVIDIA RTX正成为本地端侧AI不可或缺的得力助手,而越来越丰富的优化、模型和资源,也在加速AI功能、应用在上亿台RTX PC上的普及。

目前已经有400多个合作伙伴发布了支持RTX GPU加速的AI应用、游戏,而随着模型易用性的不断提高,相信会有越来越多的AIGC功能出现在Windows PC平台上。

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型

举报

  • 相关推荐
  • 联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

    联发科近日宣布与NVIDIA合作设计NVIDIAGB10GraceBlackwell超级芯片,将应用于NVIDIA的个人AI超级计算机NVIDIA®ProjectDIGITS。联发科在智能手机、智能电视、Android平板电脑、语音助理设备,以及基于Arm架构Chromebook的芯片出货量皆居行业翘楚,并大力投资多项技术,为各类采用Arm架构SoC的设备提供卓越的AI、通信、多媒体与高能效用户体验。联发科秉持着将AI带到世界各个角落的愿景,在多元产品组合中提供先进的AI功能,包含面向智能手机和平板电脑的天玑系列、智能物联网设备的Genio系列、智能电视的Pentonic系列、基于Arm架构Chromebook的Kompanio系列,以及车用平台天玑汽车座舱系列。

  • NVIDIA移动版RTX 5080跑分首曝!比RTX 4080提升18%

    在CES2025展会上,英伟达的全新RTX5080移动版显卡的Geekbench跑分数据首次曝光。RTX5080移动版在OpenCL测试中的得分为190326分,相较于现有的RTX4090移动版高出约6%与RTX4080移动版相比则提升了18%,与桌面版显卡相比和RTX4070SUPER相当。预计搭载RTX5080显卡的笔记本电脑将在2025年3月推出,这款外星人Area-51笔记本电脑的售价2199美元。

  • NvidiaAI 帝国:看看它投资的顶级初创企业

    没有哪家公司比Nvidia更能充分利用人工智能革命。自两年多前推出ChatGPT以来,该公司的收入、盈利能力和现金储备一路飙升,此后又推出了许多具有竞争力的生成式人工智能服务。尽管这家初创公司在11月又筹集了1.15亿美元,但Nvidia并未参与此轮融资。

  • 还能再涨23%!AI宠儿NVIDIA成大摩明年首选

    据报道,摩根士丹利最新报告指出,NVIDIA仍是其明年的首选股”。大摩重申了对英伟达股票的增持”评级,并给出了每股166美元的目标价,按照当前水平计算还能再涨约23%。但他们相信到2025年,ASIC的最大用户实际上会转购买GPU,预计GPU明年的表现将明显优于ASIC。

  • NVIDIA、苹果多年恩怨纠葛大起底:从乔布斯在任就开始

    如今随着AI的不断发展,各大公司都纷纷投入巨资抢购NVIDIA的GPU,但苹果却非NVIDIA的主要客户双方恩怨可追溯到约20年前。根据TheInformation的报道,10位熟悉内情的前苹果员工透露,苹果高层对NVIDIA的不满由来已久,可追溯至乔布斯担任CEO时期。NVIDIA与苹果的恩怨也就延续至今,有报道指出,苹果有意减少对NVIDIA昂贵且供应短缺的AI芯片依赖,正博通合作开发针对AI运算设计的服�

  • NVIDIA RTX 5080原生游戏性能提升仅15%!RTX 5090提升最大为30%

    NVIDIA进一步公开了更多RTX50系列显卡的规格和性能指标。RTX5090作为系列中的顶级型号,其着色/光线追踪/Tensor性能分别较前代RTX4090提升了26.5%、66.5%和154%。值得注意的是,当开启DLSS4后,得益于多帧生成技术的加持,RTX50系列的性能表现大致可达前代同级的2倍,这也是黄仁勋在发布会上宣称RTX5070表现可达RTX4090的主要原因。

  • 技嘉于 CES 2025 首度亮相升级散热设计与精实体积的 NVIDIA GeForce RTX 50 系列显卡

    以EvolutionofTen设计概念增强10%性能且缩小10%体积技嘉科技于CES2025发布采用NVIDIABlackwell架构及AI技术的GeForceRTX™50系列显卡,包含RTX™5090D,RTX™5080,RTX™5070Ti,andRTX™5070等机种。技嘉新一代系列显卡搭载专为NVIDIAGeForceRTX™50系列显示芯片设计的散热系统,可大幅提升高负载需求的游戏表现。技嘉GeForceRTX™50系列显卡包括AORUSXTREME和MASTER、GIGABYTEAERO、GAMING、EAGLE和WINDFORCE等,另有白色及符合SFF-ReadyEnthusiastGeForce显卡的型号,可满足广泛的玩家需求。

  • NVIDIA公版RTX 5080大年初一解禁!RTX 5090/D定在1月24日

    NVIDIA的最新显卡GeForceRTX5090/D和RTX5080的性能测试解禁日期已经确定。RTX5090和RTX5090D的性能测试将于1月24日解禁,不过在RTX5080的解禁日期上却略有分歧。RTX5090作为NVIDIA的旗舰显卡,拥有21760个CUDA核心和32GBGDDR7显存RTX5080则配备了10752个CUDA核心和16GBGDDR7显存,两款显卡都将在1月30日开售。

  • AMD看完无可奈何!NVIDIA新核弹RTX 5090、5080售价泄露:玩家要破产了

    NVIDIA新一代旗舰显卡RTX5090、5080即将于1月份的CES2025大展期间官宣。大家最期待的,莫过于新卡的定价了。RTX5080则是改用GB203芯片,10752个CUDA核心,功耗400W。

  • NVIDIA App被指致游戏帧率下降15%!关闭这个功能马上恢复

    英伟达前不久推出了显卡配套程序NVIDIAApp正式版,用以替代使用多年的NVIDIAGeForceExperience和NVIDIA控制面板等。但是却有部分用户反映安装该应用后游戏帧率出现了下降,有用户发布了一系列测试数据,显示安装NVIDIAApp后,游戏性能最高下降了15%卸载应用后性能恢复正常。对于已经安装NVIDIAApp的用户,解决问题的方法非常简单:打开NVIDIAApp,点击设置”,然后取消勾选NVIDIAOverlay”选项,操作后游戏帧率应该就能恢复正常,甚至可能比之前更高。

热文