旷视科技MegEngine 正式支持 XLA 啦！

2024-07-19 14:09 · 稿源：站长之家用户

XLA（Accelerated Linear Algebra）是 Google 提出的一个神经网络编译器，可以用于加速 AI 模型的训练和推理。MegEngine1.13.1中也已经支持了 XLA，在训练模型时可以选择开启此项功能，不同的模型可以获得 10%~80% 不等的速度提升。

主要的目标场景

旷视MegEngine 现在是动态执行的，即 python 中每一个 mge.functional 的调用都对应着底层 gpu 上的一次 kernel 执行。这种模式的好处在于实际的执行方式与代码逻辑一致，所见即所得，非常的灵活;不过其问题是难以优化，性能可能不是特出。

而 XLA 采取静态执行的方式，会将模型计算过程表达成一张静态计算图，称为 “HLO” （High-Level Optimized）。HLO 中包含计算图的相关操作，张量的数据流程和形状等信息。XLA 随后会对 HLO 进行一系列的优化，并最终生成一个更优的计算图，从而更快的完成计算。而 XLA 的局限性就在于不够灵活，对于 Tensor Shape 改变或者控制流等信息无法很好的表达。

现在 MegEngine 中已经支持了 XLA，模型训练中一些比较静态的场景，我们可以使用 XLA 来进行加速，从而缩短整个训练过程的时间。

使用方法与效果

在使用 MegEngine 进行训练时，可以通过对原来的训练函数增加 xla_trace/partial_trace 装饰器来启用 XLA 编译优化。

当整个模型是完全静态时，我们可以使用 xla_trace 将整张网络表达成一张静态图，然后交由 XLA 做后续的优化编译，后续的执行过程将执行这张优化后的计算图提升速度。

而如果我们模型中有一些动态性，比如训练过程中一些 Tensor Shape 会发生变化，亦或者是存在控制流，我们可以使用 partial_trace，将网络中静态的部分 trace 成一些子图并分别交给 XLA 进行编译优化，而网络中其他部分仍然保持动态执行，同时保证性能与灵活性。

下面展示了在 MegEngine 中，XLA 功能开启前后，主流的神经网络模型性能变化。其中蓝色为 XLA 开启之前的训练速度，橙色为 XLA 开启之后的训练速度。在开启 XLA 后，大部分模型的性能可以获得10%~40% 的提升，最多可以超过80%。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

一加全球首发！高通骁龙8 Gen5本月正式发布

高通将在本月正式发布全新旗舰平台骁龙8 Gen5。该博主透露，未来高通将会保持双旗舰的芯片布局，分别对标苹果的A和A Pro芯片。

骁龙8 Gen5 高通旗舰平台
锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

国家新闻出版署日前公布新版号，经典游戏《飞飞》续作《飞飞：无限宇宙》国服获批。该游戏由GALA研发、锐我科技独家代理运营，将实现三端互通，继承原版飞行系统、人物形象和社交玩法，并优化画面与内容。运营团队正全力推进本地化适配及测试筹备，预约站已上线，玩家可关注官方信息获取测试资格。

飞飞:无限宇宙 Flyff Universe
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
理想汽车为车辆起火事件致歉！李想：这次MEGA是主动召回生命只有一次我们不能等

10月31日，北京理想汽车主动召回部分车辆。因冷却液防腐蚀性能不足，极端情况下可能导致动力电池和电机控制器冷却铝板腐蚀泄漏，引发故障灯亮、动力受限或无法充电，甚至电池热失控。CEO李想称此为主动召回，强调即便事故概率仅万分之一，但生命只有一次，必须及时处理安全隐患。

理想汽车召回冷却液防腐性能动力电池热失控
软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

在“软件定义汽车”浪潮下，智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而，传统软件测试模式成本高、耗时长，难以覆盖复杂场景，易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破：需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式，测试工程师角色转向质量策略师。到2027年，超80%企业将集成AI测试工具，汽车行业2025年成为转型关键节点。

软件定义汽车智能汽车座舱体验
从“实时分账”到“智能问数”：汇付天下以“Data Agent”重塑支付业务决策效率

汇付天下作为技术驱动的数字化企业，践行“数字化+国际化”战略，为全球企业提供支付、账户、资金管理及数据集成解决方案。面对海量交易数据处理需求，公司依托火山引擎技术，构建湖仓一体架构，实现毫秒级风控响应与实时分账，并通过Data Agent智能平台支持自然语言查询与业务归因，推动数据驱动运营。该方案以流批一体能力优化数据处理效率，保障业务稳定与合规，助力企业实现全域增长与智能化风控协同。

数字化企业支付收款数据集成
没有Pro Max！一加Ace 6T命名敲定：首发骁龙8 Gen5

此前有网友在机场拍到一加Ace 6 Pro Max包装盒，不少网友认为这就是一加即将推出的骁龙8 Gen5新机。博主数码闲聊站表示，一加骁龙8 Gen5新机不叫Ace 6 Pro Max，而是命名为Ace 6T，这里的T不是Turbo，是一加纯正的性能基因，一加的Turbo系列也已在路上了。对比一加Ace 6，一加Ace 6T处理器由骁龙8 Elite换成了骁龙8 Gen5，电池容量突破8000mAh，还将带来炫酷的联名。该博主还爆料，高通

一加Ace 6T 骁龙8
从SEO到GEO的范式革命，《生成式AI时代品牌战略指南》白皮书正式发布

11月4日，《生成式AI时代+品牌战略指南》白皮书发布，聚焦企业AI搜索优化需求。白皮书提出GEO全链路解决方案，结合E-E-A-T信任框架和3C指导法则，帮助企业破解AI搜索覆盖率低、合规风险高等痛点，推动从流量竞争转向价值竞争，构建可持续增长生态。

AI搜索优化生成式AI 品牌战略
高通骁龙8 Gen5本月底亮相：一加全球首发

高通骁龙8 Gen5芯片暂定11月底发布，由一加首发搭载。除了一加，vivo、魅族、iQOO、moto等品牌也将使用骁龙8 Gen5芯片。据悉，高通骁龙8 Gen5由一加和高通联合定义，这颗芯片采用台积电3nm工艺（N3P）制程，配备Oryon CPU，由2*3.8GHz超大核 6*3.32GHz大核组成，并集成Adreno 840 GPU。跑分方面，骁龙8 Gen5的安兔兔总成绩突破3

高通骁龙8 Gen5 一加首发
零一万物联合开源中国推出OAK平台，目标打造Agent世界的“生态适配器”

在GOT C 2025全球开源技术峰会上，零一万物CEO李开复博士发表演讲，强调开源模型是构建AI Agent的最佳选择。零一万物与开源中国联合发布一站式AI Agent开源开发平台OAK，支持对接多种开源大模型，旨在打破生态绑定限制，助力开发者实现“Agent开发自由”。该平台具备可视化编排、评估优化、数据管理等功能，未来将逐步推出四大核心模块，推动开放协作的AI Agent生态发展。

开源生态 AI Agent

今日大家都在搜的词：

热文

3 天
7天

旷视科技MegEngine 正式支持 XLA 啦！

一加全球首发！高通骁龙8 Gen5本月正式发布

锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

易鑫正式发布汽车金融行业首个Agentic大模型

理想汽车为车辆起火事件致歉！李想：这次MEGA是主动召回生命只有一次我们不能等

软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

从“实时分账”到“智能问数”：汇付天下以“Data Agent”重塑支付业务决策效率

没有Pro Max！一加Ace 6T命名敲定：首发骁龙8 Gen5

从SEO到GEO的范式革命，《生成式AI时代品牌战略指南》白皮书正式发布

高通骁龙8 Gen5本月底亮相：一加全球首发

零一万物联合开源中国推出OAK平台，目标打造Agent世界的“生态适配器”

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

卢伟冰：小米手机双11连续三年国产销量第一

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

卢伟冰：小米手机双11连续三年国产销量第一

华为Mate 70 Air维修备件价格公布：换主板2499元

站长商机