首页 > 业界 > 关键词  > LLaMA最新资讯  > 正文

Buddy Compiler打通LLaMA 2端到端推理

2023-11-23 14:03 · 稿源:站长之家

要点:

  • LLaMA2端到端推理打通!结合 MLIR 和 PyTorch 的编译生态,中国团队展示了 Buddy Compiler 的前端部分实现,可以覆盖 LLaMA 计算图,进行 MLIR 转换和部分优化。

  • Buddy Compiler 基于 PyTorch 和 MLIR 实现了 LLaMA 的端到端推理通路,通过 Buddy Compiler 工具链进行优化和下降,最终生成可执行文件,实现了从 AI 模型到硬件架构的编译流程。

  • 技术路线标准化、上手门槛低和优化上限高是整个软硬件协同设计生态的重要原则,Buddy Compiler 致力于实现这一目标,并将 PyTorch 和 MLIR 作为关键组成部分,提供了简化和解耦的开发流程。

站长之家(ChinaZ.com)11月23日 消息:Buddy Compiler 选择使用 TorchDynamo 作为 Trace 工具对接 AI 模型,并使用 Aten IR 作为对接层级,通过 MLIR Python Bindings 实现 Dynamo Compiler 生成 TOSA/Linalg Ops,从而实现了从 PyTorch 到 MLIR 的转换。

Buddy Compiler 是一个结合了 MLIR 和 PyTorch 的编译生态的工具,它实现了 LLaMA 的端到端推理通路。通过 Buddy Compiler,我们可以将 AI 模型从 PyTorch 转换为 MLIR,并进行优化和下降,最终生成可执行文件。

image.png

Buddy Compiler 的设计原则是技术路线标准化、上手门槛低和优化上限高。为了实现这一目标,Buddy Compiler 选择使用 TorchDynamo 作为 Trace 工具对接 AI 模型,并使用 Aten IR 作为对接层级。通过 MLIR Python Bindings 实现的 Dynamo Compiler 可以将 PyTorch 的 Aten IR 转换为 MLIR 的 TOSA/Linalg Ops。

Buddy Compiler 的编译通路可以面向通用硬件进行优化。它使用了 MLIR Core Dialect 进行实现,从而实现了最大化的复用,并且与所有 LLVM/MLIR 的工具兼容。在优化方面,Buddy Compiler 采用了针对循环的并行计算优化和针对矩阵乘法的向量化优化。

它还可以生成面向特定加速器的代码,例如 Gemmini 加速器。目前,Buddy Compiler 已经在 X86AVX512平台上进行了测试,同时还在进行 Arm Neon 和 RISC-V Vector Extesion 的广泛测试。未来,Buddy Compiler 还计划支持 GPU 的优化,并增加前端的覆盖程度,以及将多模态大模型编译到多种硬件平台上。

总的来说,Buddy Compiler 通过结合 MLIR 和 PyTorch 的编译生态,实现了 LLaMA 的端到端推理通路。它的设计原则是标准化技术路线、降低上手门槛和提高优化上限。通过 Buddy Compiler,我们可以将 AI 模型从 PyTorch 转换为 MLIR,并进行优化和下降。

Buddy Compiler 的编译通路可以面向通用硬件进行优化,并已在 X86AVX512平台上进行了测试。未来,Buddy Compiler 还计划支持更多的硬件平台,并增加前端的覆盖程度。通过 Buddy Compiler,我们可以更好地利用软硬件协同设计,实现高效的大模型推理。

举报

  • 相关推荐
  • 张艺兴×全红婵集体打call!最嗨音乐班凭啥让明星排队合拍?

    ​最近,抖音上一个“音乐班”的视频突然爆火,原因无他——张艺兴和全红婵竟然同框打call了! 一个是国民级偶像,一个是奥运跳水冠军,看似毫无交集的两人,却在和同一个短视频合拍,为这段节奏感炸裂的音乐班表演疯狂喊麦。

  • 无万卡,不VLA:元戎启行与阿里云的“想法”和“解法”

    1980年代汉斯·莫拉维克提出人工智能悖论:计算机在逻辑推理等高级智能活动中易超越人类,但实现儿童般的感知与常识认知却极困难。智能驾驶的核心挑战在于让AI理解物理世界并进行因果推理。视觉-语言-行动模型通过融合多模态数据,使系统具备推理驾驶能力,推动行业迈向L5完全自动驾驶。面对VLA模型的数据处理、训练效率和成本挑战,阿里云等超级AI云提供全栈解决方案,从算力基础设施到开源生态,加速技术迭代与商业化落地。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • 2025视觉中国&500px视觉盛典青岛站开启招募!

    本文介绍了多个科技品牌在展会现场推出的互动体验和福利活动:至誉科技提供免费笔记本屏幕校色服务,关注小红书可领取贴纸等礼品;东芝通过问卷赠送手机挂绳;索尼展出新品相机镜头;适马打卡送周边;永诺展示神秘新品镜头;雷克沙关注社媒可领专属礼物;富图宝有识脚架互动游戏;神牛到场即送周边;艺卓体验专业显示器;唯卓仕可参与新品抽奖;斯丹德提供免费抽奖与补光灯体验;明基首次展出未发售的校色显示器。各品牌均通过现场互动吸引用户参与。

  • 最强Mate旗舰!华为Mate 80本月下旬亮相

    华为Mate 80系列会在11月25日前后发布,这将是史上最强Mate旗舰。 据悉,本次发布会将会推出Mate 80、Mate 80 Pro、Mate 80 Pro 和Mate 80 RS四款旗舰,其中标准版代号Voyager,支持66W有线快充;Pro、Pro 及RS版统一采用Sagittarius代号,支持100W有线充电。

  • 微星银色战斧降临!X870E TOMAHAWK MAX WIFI PZ背插主板上线

    微星于11月7日推出MAG X870E TOMAHAWK MAX WIFI PZ战斧导弹主板,首发价3299元。该主板专为AMD AM5平台设计,支持Ryzen 9000系列处理器,采用纯银白色外观与背插式设计,将所有接口移至背面,实现正面简洁视觉效果。配备14+2+1相供电、4个M.2插槽(含2个PCIe 5.0)、双USB4接口及Wi-Fi 7,结合EZ快拆与Debug侦错灯等便捷功能,兼顾高性能与装机便利性,精准切入白色主题细分市场。

  • 锐我科技正式获得Gala授权 《飞飞:无限宇宙》即将启程

    国家新闻出版署日前公布新版号,经典游戏《飞飞》续作《飞飞:无限宇宙》国服获批。该游戏由GALA研发、锐我科技独家代理运营,将实现三端互通,继承原版飞行系统、人物形象和社交玩法,并优化画面与内容。运营团队正全力推进本地化适配及测试筹备,预约站已上线,玩家可关注官方信息获取测试资格。

  • 双十一进入冲刺阶段 下单三星Galaxy旗舰手机可享多重好礼

    双十一期间,三星旗舰手机值得关注。Galaxy S25 Ultra作为全能旗舰,配备2亿像素主摄、多焦段镜头及AI影像技术,结合6.9英寸大屏与强劲性能,适合追求前沿体验的用户。折叠机型Galaxy Z Fold7以超轻薄设计提升便携性,配备双屏及专业摄像;Z Flip7则升级外屏交互,增强自拍与日常操作便利性。全系搭载优化AI功能,如实时翻译、智能文案等。目前三星商城11.11活动提供优惠,S25 Ultra和折叠机最高享2400元及1600元福利,学生可叠加额外折扣,是入手好时机。

今日大家都在搜的词: