通过这些代码，PyTorch团队让Llama 7B提速10倍

2023-12-05 16:01 · 稿源：站长之家

要点:
PyTorch团队通过优化技术，在不到1000行的纯原生PyTorch代码中将Llama7B的推理速度提升了10倍，达到了244.7tok/s。
优化方法包括使用PyTorch2.0的torch.compile函数、GPU量化、Speculative Decoding（猜测解码）、张量并行等手段，以及使用不同精度的权重量化，如int8和int4。
通过组合以上技术，包括"compile + int4quant + speculative decoding"的组合，以及引入张量并行性，实现了在Llama-70B上达到近80tok/s的性能。

站长之家（ChinaZ.com）12月5日消息:近期，PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例，展示了如何通过一系列优化技术将推理速度提升10倍，达到了244.7tok/s。

推理性能的初始状态，大模型推理性能为25.5tok/s，效果不佳。然后，通过PyTorch2.0引入的torch.compile函数，以及静态KV缓存等手段，成功减少CPU开销，实现了107.0TOK/S的推理速度。

代码地址:https://github.com/pytorch-labs/gpt-fast

为了进一步提高性能，团队采用了GPU量化技术，通过减小运算精度来加速模型。特别是使用int8量化，性能提升了约50%，达到了157.4tok/s。

然而，仍然存在一个问题，即为了生成100个token，必须加载权重100次。为解决这个问题，团队引入了Speculative Decoding，通过生成一个“draft”模型预测大模型的输出，成功打破了串行依赖，进一步提升了性能。

使用int4量化和GPTQ方法进一步减小权重，以及将所有优化技术组合在一起，最终实现了244.7tok/s的推理速度。

为了进一步减少延迟，文章提到了张量并行性，通过在多个GPU上运行模型，进一步提高了性能，特别是在Llama-70B上达到了近80tok/s。

PyTorch团队通过一系列创新性的优化手段，不仅成功提升了大模型的推理速度，而且以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。

（举报）

相关推荐

关键词：

PyTorch

荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
vivo WATCH GT 2已支持开通移动/联通eSIM服务

vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务，提供一号双终端和独立终端两种模式，售价699元。配备2.07英寸大屏、2400nits峰值亮度，续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式，搭载自研蓝河操作系统3.0与智能助手，可跨设备连接vivo和iPhone，实现双机通知同步。

vivo WATCH GT2
GEO如何改变ChatGPT搜索和Perplexity的游戏规则

本文对比ChatGPT与Perplexity两大AI搜索平台：ChatGPT作为全能型助手，整合搜索与多任务处理，但存在信息时效性不足；Perplexity专注垂直搜索，强调引用透明与权威来源。针对AI搜索优化（GEO），提出差异化策略：面向ChatGPT需构建结构化知识库、强化品牌实体识别；面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具，通过曝光率等指标量化内容在AI生态中的可见度，并给出可落地的优化行动方案。
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

传统SEO追求"谷歌首页排名"，生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法，更像黑箱，使内容创作者困惑。GEO优化的核心是让内容具备"可引用性"：权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率"，分析引用语境、竞争差距，调整内容结构以提升AI引用倾向。SEO优化机器如何找到你，GEO则优化AI如何引用你。

SEO优化 AI引用内容权威性
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

本文探讨AI搜索时代品牌面临的"隐身危机"，指出AI搜索用户年增538.7%，但品牌在AI回答中提及率不足20%。提出三大核心策略：1）构建权威背书矩阵，通过知乎等高权重平台获取自然提及；2）优化AI友好内容，采用对话式标题和结构化数据；3）建立数据监测闭环，通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现，避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

文章搜索核心标签 SEO优化
健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

三星Galaxy Watch8推出革命性抗氧化指数功能，通过手腕实时测量类胡萝卜素水平。该技术将实验室级传感器微型化，用户仅需5秒扫描即可获得精准数据，将日常饮食转化为可量化指标。类胡萝卜素作为关键抗氧化物质，能有效反映果蔬摄入量，帮助用户追踪长期营养状况。结合睡眠、压力等综合数据，该功能为健康老龄化提供全面洞察，重新定义可穿戴设备在预防性医疗中的角色。

抗氧化指数营养追踪健康生活
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐OpenAI 推出浏览器：“让位吧，Chrome”

北京时间10月22日凌晨，没等来传闻中的Gemini3，等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说，这是一个把ChatGPT"塞进"浏览器的产品，你在任何网页上都能随时唤出ChatGPT侧边栏，让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。听起来有点像Chrome装了个ChatGPT插件?确实如此，但OpenAI的野心远不止于此。

OpenAI

今日大家都在搜的词：

热文

3 天
7天

通过这些代码，PyTorch团队让Llama 7B提速10倍

荐谁能成为中国的ChatGPT？夸克抢先交卷

vivo WATCH GT 2已支持开通移动/联通eSIM服务

GEO如何改变ChatGPT搜索和Perplexity的游戏规则

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐OpenAI 推出浏览器：“让位吧，Chrome”

今日大家都在搜的词：

热文

OPPO ColorOS 16正式版推送：首批适配11款机型

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

vivo OriginOS 6启动公测招募：支持10款机型

魅族22月白天青配色发布：2999元起

苹果客服回应iPhone或自动拨号：设置或其他问题

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

iQOO Neo11开售2小时销量超前代全天

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

鸿蒙智行：全新问界M7上市36天交付破20000台

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

余承东曝鸿蒙智行新款享界S9将于11月上市

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

站长商机