首页 > 业界 > 关键词  > 正文

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型

2023-11-16 19:45 · 稿源: 快科技

正在举行的微软Iginte全球技术大会上,微软发布一系列AI相关的全新优化模型、开发工具资源,帮助开发者更深入地释放硬件性能,拓展AI场景。

尤是对于当下在AI领域占据绝对主导地位的NVIDIA来说,微软这次送上了一份大礼包,无论是面向OpenAI Chat API的TensorRT-LLM封装接口,还是RTX驱动的性能改进DirectML for Llama 2,以及其他热门大语言模型(LLM),都可以在NVIDIA硬件上获得更好的加速和应用。

其中,TensorRT-LLM是一款用于加速LLM推理的库,可大大提升AI推理性能,还在不断更以支持越来越多的语言模型,而且它还是开源的。

就在10月份,NVIDIA也发布了面向Windows平台的TensorRT-LLM,在配备RTX 30/40系列GPU显卡的台式机、笔记本上,只要显存不少于8GB,就可以更轻松地完成要求严苛的AI工作负载。

现在,Tensor RT-LLM for Windows可以通过全新的封装接口,与 OpenAI 广受欢迎的聊天 API 兼容,因此可以在本地直接运行各种相关应用,而不需要连接云端,有利于在 PC 上保留私人和专有数据,防范隐私泄露。

只要是针对TensorRT-LLM优化过的大语言模型,都可以与这一封装接口配合使用,包括Llama 2、Mistral、NV LLM,等等。

对于开发者来说,无需繁琐的代码重写和移植,只需修改一两行代码,就可以让AI应用在本地快速执行。

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型 基于TensorRT-LLM的微软Visual Studio代码插件Continue.dev编码助手

本月底还会有TensorRT-LLM v0.6.0版本更新,将会在RTX GPU上带来最多达5倍的推理性能提升,并支持更多热门的 LLM,包括全新的70亿参数Mistral、80亿参数Nemotron-3,让台式机和笔记本也能随时、快速、准确地本地运行LLM。

根据实测数据,RTX 4060显卡搭配TenroRT-LLM,推理性能可以跑到每秒319 tokens,相比其他后端的每秒61 tokens提速足足4.2倍。

RTX 4090则可以从每秒tokens加速到每秒829 tokens,提升幅度达2.8倍。

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型

基于强大的硬件性能、丰富的开发生态、广阔的应用场景,NVIDIA RTX正成为本地端侧AI不可或缺的得力助手,而越来越丰富的优化、模型和资源,也在加速AI功能、应用在上亿台RTX PC上的普及。

目前已经有400多个合作伙伴发布了支持RTX GPU加速的AI应用、游戏,而随着模型易用性的不断提高,相信会有越来越多的AIGC功能出现在Windows PC平台上。

NVIDIA RTX显卡AI推理提速5倍!RTX PC轻松在本地搞定大模型

举报

  • 相关推荐
  • 技嘉科技发布GeForce RTX 5050系列显卡

    技嘉科技于2025年7月2日推出搭载NVIDIA Blackwell架构的GeForce RTX5050系列显卡,包含GAMING、WINDFORCE和Low Profile半高卡等型号。GAMING系列采用多层装甲设计,配备滑动侧板提升互动体验;WINDFORCE系列升级散热系统,风压提升53.6%;Low Profile半高卡仅182mm长度,适合小型机箱。全系列采用服务器级导热凝胶和复合铜热导管,支持四屏输出。产品已于7月1日正式发售。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 云天励飞AI推理芯片亮相联合国舞台,为全球AI普惠贡献中国智慧

    7月10日,云天励飞董事长陈宁博士在联合国"AI for Good"峰会上发表演讲,分享AI推理芯片推动AI普惠的探索成果。他介绍了中国无人机外卖、自动驾驶等AI应用案例,同时指出全球仍面临数字鸿沟问题。陈宁提出AI推理芯片是关键,将其比作"用电"环节,能实现AI能力的大规模落地应用。云天励飞通过创新技术已推出五代NPU产品,并提出"算力积木"架构提升性能。最后,他倡议打造高效AI推理平台、制定统一标准、拓展应用边界,以缩小数字鸿沟,让AI技术惠及全球。

  • 攀升科技携手英伟达亮相BW2025,RTX主机限时福利大放送

    7月11-13日,攀升科技以"乐玩AI+趣享攀升"为主题亮相Bilibili World 2025展会。现场设立GeForce RTX体验区,玩家可试玩《永劫无间》等游戏,感受RTX50系列显卡带来的极致画质和DLSS4技术。重点展示AI技术在游戏中的创新应用,如通过NVIDIA ACE技术实现AI队友语音互动。展会期间推出多款优惠主机:RTX5060主机搭载i5-14600KF处理器,48G DDR5内存,享政府补贴后到手价优;RTX5070主机采用Blackwell架构,AI算力达988TOPS,原价10699元,补贴后仅8699元。攀升科技诚邀玩家亲临4A18展位体验RTX技术魅力。

  • 攀升科技携手英伟达亮相BW2025,RTX主机限时福利大放送

    攀升科技将于7月11-13日亮相Bilibili World 2025展会,以"乐玩AI+趣享攀升"为主题,携手英伟达带来RTX50系列显卡体验。现场可试玩《永劫无间》《漫威争锋》等游戏,体验全景光线追踪和DLSS4技术。重点展示AI在游戏中的创新应用,如通过NVIDIA ACE技术创建智能NPC队友。展会期间推出RTX5060/5070主机优惠,5060主机搭载i5-14600KF处理器和48G DDR5内存,5070主机AI算力达988TOPS,支持DLSS4技术。参与现场活动可获购机福利,抖音旗舰店下单享政府补贴最高立省2000元。展会地点为上海国家会展中心4A18展位。

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 首部菁彩Vivid影片震撼上映,视效革命点亮东方幻境

    7月12日,动画电影《聊斋:兰若寺》以菁彩Vivid/HDR+LED版本登陆暑期档。该片由《长安三万里》原班人马打造,采用尖端视效技术呈现东方志怪美学,突破传统SDR技术局限,实现更高动态范围和广色域表现。特别版在适配影院独家放映,通过显著明暗对比、丰富色彩层次和通透画面质感,极大增强观影真实感和沉浸感。影片改编自蒲松龄经典名著,以视觉技术精准呈现人物微表情和场景细节,深化情感共鸣。该技术突破将推动影视产业生态创新发展,为观众带来颠覆性视听体验。

  • 探索AI时代出海新范式!impact.com荣获TopDigital创新营销奖「年度营销技术公司」

    2025年7月1日,impact.com在第十三届TopDigital创新营销盛典上荣获"年度营销技术公司"大奖。该平台凭借技术能力、商业影响和全球化战略的综合表现获得认可,其AI技术正深刻改变品牌营销工作方式,尤其在效率提升与流程优化方面成效显著。impact.com通过智能推荐、智能审批等功能,将AI能力引入合作伙伴管理核心环节,帮助出海企业构建全球化合作网络。大中华区总裁Jennifer Zhang表示,AI不是替代营销人,而是释放其判断力与创造力。作为全球合作伙伴经济核心引擎,impact.com已服务众多中国出海品牌,未来将继续深化AI在营销管理平台的应用。

  • 鲁大师2025年PC半年报:ultra系列活了?

    2025年上半年PC硬件市场格局:AMD锐龙9 9950X3D以148万分持续领跑桌面处理器性能榜,Intel Ultra7/5系列新品主打笔记本市场但销量仍依赖14代酷睿。移动端处理器方面,Intel酷睿Ultra9285HX以127万分重夺性能榜首,AMD Ryzen9 9955HX3D以微弱差距居次。显卡市场迎来NVIDIA RTX50系列全面更新,笔记本RTX5090/5080性能已超越部分台式机。固态硬盘竞争白热化,致态TiPro9000以42万分艰难守住榜首,西数SN8100等新品紧追不舍。笔记本市场完成旗舰产品迭代,AMD 9955HX3D机型性能突破280万分。整体来看,Q2季度主要是对Q1新品的补充完善,中低端产品线成为市场主力。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。