首页 > 业界 > 关键词  > PyTorch最新资讯  > 正文

通过这些代码,PyTorch团队让Llama 7B提速10倍

2023-12-05 16:01 · 稿源:站长之家

要点:

  • PyTorch团队通过优化技术,在不到1000行的纯原生PyTorch代码中将Llama7B的推理速度提升了10倍,达到了244.7tok/s。

  • 优化方法包括使用PyTorch2.0的torch.compile函数、GPU量化、Speculative Decoding(猜测解码)、张量并行等手段,以及使用不同精度的权重量化,如int8和int4。

  • 通过组合以上技术,包括"compile + int4quant + speculative decoding"的组合,以及引入张量并行性,实现了在Llama-70B上达到近80tok/s的性能。

站长之家(ChinaZ.com)12月5日 消息:近期,PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例,展示了如何通过一系列优化技术将推理速度提升10倍,达到了244.7tok/s。

推理性能的初始状态,大模型推理性能为25.5tok/s,效果不佳。然后,通过PyTorch2.0引入的torch.compile函数,以及静态KV缓存等手段,成功减少CPU开销,实现了107.0TOK/S的推理速度。

image.png

代码地址:https://github.com/pytorch-labs/gpt-fast

为了进一步提高性能,团队采用了GPU量化技术,通过减小运算精度来加速模型。特别是使用int8量化,性能提升了约50%,达到了157.4tok/s。

然而,仍然存在一个问题,即为了生成100个token,必须加载权重100次。为解决这个问题,团队引入了Speculative Decoding,通过生成一个“draft”模型预测大模型的输出,成功打破了串行依赖,进一步提升了性能。

使用int4量化和GPTQ方法进一步减小权重,以及将所有优化技术组合在一起,最终实现了244.7tok/s的推理速度。

为了进一步减少延迟,文章提到了张量并行性,通过在多个GPU上运行模型,进一步提高了性能,特别是在Llama-70B上达到了近80tok/s。

PyTorch团队通过一系列创新性的优化手段,不仅成功提升了大模型的推理速度,而且以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。

举报

  • 相关推荐
  • OpenAI推出轻量版Deep Research,所有用户可用!

    OpenAI 称,由于很多用户喜欢使用 Deep Research 功能,所以将推出轻量版 Deep Research,且此版本面向所有用户开放……

  • 双潜望新高度!曝OPPO Find X9 Ultra将配10倍超长焦镜头

    早在OPPO Find X7 Ultra上,OPPO就全球首发了双潜望镜头,由IMX890的3倍潜望长焦与IMX858的6倍潜望长焦组成。其中,3倍大底中焦段镜头负责较近距离的远景高画质输出,6倍小底超长焦段镜头则用于超远距离的超清晰影像拍摄。

  • Check Point Research发布《AI安全报告》,揭示人工智能驱动的网络犯罪崛起及其防御策略

    Check Point公司发布《2025 AI安全报告》,揭示AI驱动的四大网络威胁:1)AI增强型身份冒充与社交工程攻击,包括深度伪造视频/语音;2)大语言模型数据污染与虚假信息传播;3)AI生成恶意软件与自动化攻击;4)AI模型武器化与勒索。报告指出,33%的AI聊天机器人回答包含虚假信息,网络犯罪组织正以空前速度利用AI技术。防御建议包括:部署AI检测工具识别伪造内容、实施多层身份验证、构建具备AI感知能力的安全框架。专家警告,数字分身技术将突破传统验证机制,网络安全需与攻击者实现"同频对抗"。

  • 微软CEO:公司多达 30% 的代码是由 AI 生成的!

    微软首席技术官凯文·斯科特(Kevin Scott)曾表示,预计到 2030 年,将有 95% 的代码是由 AI 生成的……

  • 价格相差10倍!几十元/月的千兆宽带和千元/月万兆宽带 你选谁

    我国正在加快万兆宽带的普及,随之而来的是,千兆宽带开始变得亲民,如果这两种线路价格相差10倍你会怎么选呢?

  • 采用Corning® Gorilla® Glass Ceramic 2玻璃陶瓷 三星Galaxy S25 Edge带来超强耐用性体验

    三星电子与康宁公司宣布,即将推出的Galaxy S25 Edge将采用全新Corning® Gorilla® Glass Ceramic2玻璃陶瓷材料。这款创新材料在超薄机身设计中提供突破性防护性能,兼具时尚外观与坚固耐用特性。通过将康宁前沿玻璃科技与三星精密加工工艺相结合,该材料显著提升了屏幕盖板的抗裂能力和耐久性,同时保持高透光率。双方表示,此次合作延续了"以工程创新为本"和"以用户体验为核心"的共同理念,为高端智能手机带来更卓越的产品体验。

  • 英特尔发布第二代AI增强SDV SoC:车企自由度更高 AI性能提升10倍

    快科技4月23日消息,上海车展今日开幕,英特尔在车展上发布第二代英特尔AI增强软件定义汽车(SDV)SoC。该SoC率先在汽车行业推出基于芯粒架构的设计,进一步扩展了英特尔在智能座舱领域的创新产品组合。英特尔希望借助第二代AI增强SDV SoC塑造汽车计算的未来。”英特尔院士、英特尔公司副总裁、汽车事业部总经理Jack Weast说。据介绍,英特尔第二代AI增强 SDV SoC允许汽车厂商根据自身需求定制计算、图形和AI功能,降低开发成本,缩短上市时间。通过为每个功能模块匹配性能出色且合适的芯片。相比上代,生成式和多模态AI性能最高可提升10?

  • 关注家人健康 不如过节送三星Galaxy Watch7给她

    母亲节将至,三星Galaxy Watch7成为守护妈妈健康的贴心礼物。这款智能手表搭载精准健康传感器,可监测血压、心率、血氧等指标,还能通过生物电阻抗检测体脂、骨骼肌等身体成分数据。特别配备睡眠追踪功能,分析睡眠质量并提供改善建议,同时支持跌倒检测和紧急求救功能。健康小贴士功能可根据数据提供个性化建议,帮助妈妈养成健康生活习惯。无论是日常监测还是紧急情况,Galaxy Watch7都能成为妈妈的24小时健康守护者。

  • 玄武云aPaaS低代码平台全面支持MCP协议

    玄武云aPaaS平台全面支持MCP协议,进一步强化了在低代码开发领域的优势。MCP是由Anthropic公司开源的AI"通用插座"协议,能实现大语言模型与外部数据源的无缝集成。该平台具备三大独特优势:原子化能力调用、非侵入式扩展能力、自主语义解析能力。接入MCP后,开发者无需处理多接口对接,一键发布即可被智能体调用,实现即开即用。该方案与现有平台完全兼容,仅需在IDE增加发布功能并搭配适配器即可使用,成本极低。未来将持续深化MCP应用场景,携手合作伙伴共创企业智慧增长。

  • 10倍精度升级!腾讯混元3D模型v2.5版本发布

    腾讯混元3D模型升级至v2.5版本,建模精度和贴图真实度显著提升。新版本参数体量从1B增至10B,有效面片数增加超10倍,支持1024几何分辨率。纹理系统支持4K高清贴图和凹凸细节,率先支持多视图生成PBR模型。针对动画场景优化骨骼蒙皮系统,支持非标准姿态自动绑定。新增文生/图生3D减面模型、多视图建模模板等专业工作流。混元3D v2.5已全面更新至腾讯AI创作引擎,免费生成额度提升至每日20次,并正式上线腾讯云API面向企业开放。GitHub开源版本累计Star超1.2万。