首页 > 传媒 > 关键词  > 正文

旷视科技MegEngine 正式支持 XLA 啦!

2024-07-19 14:09 · 稿源: 站长之家用户

XLA(Accelerated Linear Algebra)是 Google 提出的一个神经网络编译器,可以用于加速 AI 模型的训练和推理。MegEngine1.13.1中也已经支持了 XLA,在训练模型时可以选择开启此项功能,不同的模型可以获得 10%~80% 不等的速度提升。

主要的目标场景

旷视MegEngine 现在是动态执行的,即 python 中每一个 mge.functional 的调用都对应着底层 gpu 上的一次 kernel 执行。这种模式的好处在于实际的执行方式与代码逻辑一致,所见即所得,非常的灵活;不过其问题是难以优化,性能可能不是特出。

而 XLA 采取静态执行的方式,会将模型计算过程表达成一张静态计算图,称为 “HLO” (High-Level Optimized)。HLO 中包含计算图的相关操作,张量的数据流程和形状等信息。XLA 随后会对 HLO 进行一系列的优化,并最终生成一个更优的计算图,从而更快的完成计算。而 XLA 的局限性就在于不够灵活,对于 Tensor Shape 改变或者控制流等信息无法很好的表达。 

现在 MegEngine 中已经支持了 XLA,模型训练中一些比较静态的场景,我们可以使用 XLA 来进行加速,从而缩短整个训练过程的时间。

使用方法与效果

在使用 MegEngine 进行训练时,可以通过对原来的训练函数增加 xla_trace/partial_trace 装饰器来启用 XLA 编译优化。 

当整个模型是完全静态时,我们可以使用 xla_trace 将整张网络表达成一张静态图,然后交由 XLA 做后续的优化编译,后续的执行过程将执行这张优化后的计算图提升速度。

而如果我们模型中有一些动态性,比如训练过程中一些 Tensor Shape 会发生变化,亦或者是存在控制流,我们可以使用 partial_trace,将网络中静态的部分 trace 成一些子图并分别交给 XLA 进行编译优化,而网络中其他部分仍然保持动态执行,同时保证性能与灵活性。

下面展示了在 MegEngine 中,XLA 功能开启前后,主流的神经网络模型性能变化。其中蓝色为 XLA 开启之前的训练速度,橙色为 XLA 开启之后的训练速度。在开启 XLA 后,大部分模型的性能可以获得10%~40% 的提升,最多可以超过80%。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 谷歌A2A协议是什么? MCP 和 Agent2Agent 有什么区别?

    4月10日,在GoogleCloudNext大会上,谷歌宣布开源Agent2Agent协议,这一协议被业界视为智能体交互领域的“通用语言”,旨在突破跨平台、多模态协作及安全保障等核心技术瓶颈,并联合全球50余家科技企业共同构建新一代智能生态。本文从技术实现与行业变革两个维度,深度解析A2A协议的核心价值。这一协议的推出,标志着智能体协作模式从封闭系统向开放生态的范式转变,为产业数字化转型注入新动能。

  • 《完蛋!我被美女包围了!2》正式上线:同步登录Steam/WeGame

    《完蛋!我被美女包围了!2》4月30日正式上线Steam、蒸汽平台及WeGame三大平台,同步发布首支PV预告片。本作延续前作团队打造,采用第一人称视角拍摄形式,讲述古代背景下多条故事线交织的悬疑剧情。游戏延续幽默风格和动态叙事方式,前作人气角色郑梓妍、夏天将回归出演古装包围大戏。官方已公布6位女主角设定:端庄长公主、高冷才女、异域舞姬等各具特色。故事围绕一场灭门惨案展开,玩家将作为幸存者调查真相,与商贾小姐、神秘刺客等角色互动,逐步揭开案件谜团。游戏主打多分支剧情,玩家选择将影响故事走向。

  • 数势科技SwiftAgent 3.0发布 从智能分析到智能决策

    在全球数字化转型浪潮中,企业数据价值挖掘的瓶颈日益凸显:数据口径混乱、分析门槛高、决策链路长等问题导致大量数据资产“沉睡”。数势科技于今日正式发布SwiftAgent 3.0,基于DeepSeek R1/V3 大模型与行业领先的智能引擎,重构企业数据分析与决策范式,实现从“数据可视化”到“决策自动化”的跨越式升级。企业数据分析的三大核心痛点:数据孤岛与语义鸿沟跨部门数据

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 「扣子空间」内测上线,和 Agent 一起开始你的工作

    “摘星空间”平台正式推出,集生产、专业领域支持及双模系统协作能力,通过多类型AI智能体实现高效办公,具备生产提升、专家深度支持、双模协同等四大核心功能,未来将持续扩展Agent能力边界。

  • 《黑神话:悟空》1.0.16版本更新上线Wegame支持DLSS 4.0、XeSS 2.0

    快科技4月15日消息,继Epic后,今天下午,《黑神话:悟空》1.0.16.18901版本更新上线WeGame平台。本次更新补丁大小约1.5GB,但由于平台更新机制,玩家需保证电脑至少有一磁盘预留约4.9GB的空余磁盘空间,用于更新文件的临时存储。此次更新后,将支持NVIDIA DLSS 4.0和Intel XeSS 2.0技术,使用支持相关技术的硬件时,将获得更清晰的超分辨率采样效果,并且可在设置界面启用多帧生成�

  • 对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

    谷歌在GoogleCloudNext25大会上,开源了首个Agent开发套件—ADK。这也是OpenAI之后第二家大厂发布的标准化智能体SDK。谷歌刚开源ADK几天在Github已经超过5000颗星,非常受开发者的欢迎。

  • 多模态和Agent成为大厂AI的新赛 点

    这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给到大模型多

  • 多模态和Agent成为大厂AI的新赛点

    本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势,重点分析了多模态能力和代理执行两大发展方向。文章指出,大模型落地的核心在于让人机交互更自然,具体表现为:1)通过多模态技术降低用户使用门槛,如阿里夸克新推出的"拍照问夸克"功能;2)通过代理执行提升复杂任务处理能力,如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显:国�