旷视科技天元 MegEngine 开源 CUDA INT4 量化源码实现

2024-02-29 11:41 · 稿源：站长之家用户

当下人工智能技术正加速发展，渗透到云、边、端和应用的各个层面，与海量IoT设备进行深度融合，不断拓展应用场景。然而在AIoT场景中，嵌入式设备往往算力有限，难以承载庞大的AI模型。如何在资源有限的终端场景实现 AI 模型的有效部署，是加速AI落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法，例如量化和蒸馏。其中，模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术，可以有效减少模型算力消耗并提升计算速度，当前已经在工业界发展比较成熟。

目前相对成熟的模型量化方案是 INT8量化。以ResNet-50模型为例，原本需要用 float32表示的权重，量化后只需要使用 INT8表示，通过这样的处理，模型体积可以减少到原来的1/2，再加上 TensorCore 的加持，还会有近8倍的网络加速。而如果更进一步，将模型用INT4表示，可以带来更多的速度提升。

为了推动低比特量化技术的发展，旷视天元MegEngine 团队开源了 INT4的源码实现，这也让MegEngine成为头个开源 CUDA INT4源码实现的深度学习框架。MegEngine采用均匀线性量化方案，实现了非对称量化和对称量化两种INT4的数据类型，同时通过算子融合优化、kernel优化等方法，使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例，INT4相比 INT8有1.3倍的加速。

具体代码实现可以查看文末“阅读原文”

随着 CUDA INT4的开源，目前MegEngine 框架不仅支持浮点数 FP32和 FP16，而且支持 INT8和 INT4的对称和非对称量化推理。此外，MegEngine框架开发了诸多工具，帮助用户提升模型推理性能、简化部署流程，包括自动代码裁剪功能，支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite，基于旷视海量业务打磨出的模型推理理想实践，化解模型转换部署难题;流程管理工具FastRun，可以为每个计算自动选择最快的算法，从而保证整个网络的运行时间最短，让 MegEngine 用户运行不同的网络时都能收获较好性能。

自开源以来，MegEngine不断优化，已先后发布29个版本，推出一系列实用功能，降低AI算法生产门槛，助力AI应用快速落地。未来，旷视将继续支持和拥抱开源，并将自身在开源领域积累的技术和经验与业界共享，推动人工智能技术创新和行业发展。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
数智驱动全球增长：RixEngine（睿力引擎）邀您共聚2025 ChinaJoy BTOB馆

RixEngine将在2025 ChinaJoy（展位W3-B502）展示旗下三大智能广告产品：RixSaaS一站式程序化广告平台，10分钟即可部署自有广告系统；RixDesk智能营销平台，日均处理500亿+请求，覆盖1.3亿DAU；RixDev流量变现方案，连接全球头部DSP资源提升填充率。现场提供专家1v1咨询、专属解决方案及互动好礼。该全链路智能广告引擎通过大数据和深度学习技术，为广告主、开发者和平台运营商提供从系统搭建到流量变现的全方位服务。
英伟达Blackwell Ultra芯片商用落地，微美全息以“算力+开源”领航AI科技新程

英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra，该芯片已实现商业部署，采用液冷技术，包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍，预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场，年利润超5000亿元，市值逼近4万亿美元，有望成为全球市值最高公司。微软推迟自研AI芯片发布，转向过渡性设计方案。微美全息专注AI芯片技术布局，构建多元化技术生态，推动产业协同，成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段，算力需求持续高涨，推动企业向算力数智化迁移。消费电子领域，AI赋能传统智能终端，新型智能硬件结合AI创造增量需求，关注算力产业链技术创新配套机遇。
Perplexity推出AI浏览器Comet：想用得开1400元/月的订阅

由英伟达支持的Perplexity AI推出了一款名为Comet的AI驱动网络浏览器。 Comet浏览器的核心卖点是其AI驱动的交互体验，公司表示它将整个浏览会话转变为单一、无缝的交互，将复杂的工作流程简化为流畅的对话。
LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

LiblibAI推出Lovart中文版"星流Agent"，这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上，针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化，可处理平面设计、视频生成和3D建模等跨模态创作，内置符合中国文化的视觉风格库。该产品的推出标�

Lovart AI设计中文优化
OPPO首款内置风扇手机！OPPO K13 Turbo跑分出炉：确认骁龙8s Gen4

这款新机还有一个非常重要的亮点内置风扇手机，这也是OPPO首款自带风扇的手机。该机后置主摄下方有一个风扇开孔，可以迅速散发内部热量。风扇模组采用电镀镍工艺，放弃普通喷涂，带来更好的防水、防锈效果，并且号称风力提升120%，从而实现更强、更持久的游戏性能。第四代骁龙8s的性能大家已经在测试中看到了，采用4nm打造，全大核方案，安兔兔跑分能突破240万�
王自如要回归老本行了：第一次正式播客讲苹果WWDC和Apple Intelligence

王自如今天发文称，今晚会上线AI认知小宇宙”系列的最后一期视频，系列一共4期。他表示，在在正式提笔前就有预感这个系列对于受众和流量的局限性，但依旧坚持把它放在我的频道中最优先需要创作的内容。王自如称：如果把我的频道内容理解为一部电影，那这个系列就是电影的前传，它最核心的使命是在主线剧情出来前构建宏观的故事背景，是让我和我的用户之间拉�

AI认知小宇宙系列王自如
技嘉科技发布GeForce RTX 5050系列显卡

技嘉科技于2025年7月2日推出搭载NVIDIA Blackwell架构的GeForce RTX5050系列显卡，包含GAMING、WINDFORCE和Low Profile半高卡等型号。GAMING系列采用多层装甲设计，配备滑动侧板提升互动体验；WINDFORCE系列升级散热系统，风压提升53.6%；Low Profile半高卡仅182mm长度，适合小型机箱。全系列采用服务器级导热凝胶和复合铜热导管，支持四屏输出。产品已于7月1日正式发售。

技嘉科技 GeForce RTX5050
销售易营销Agent重磅上线！智能拓客、精准触达，让业绩增长更简单

文章探讨了企业如何通过智能营销Agent实现精准获客。在流量红利消退、降本增效的背景下，企业转向存量客户价值挖掘。营销Agent能：1)分析客户画像，精准推荐潜在客户；2)识别老客户复购机会；3)智能匹配营销策略，实现一键触达。通过三个典型场景展示了如何"以存量博增量"，包括复制成功客户案例、挖掘交叉销售机会、个性化营销触达。该方案打破了数据壁垒，解决了客户识别难、拓客难、触达难等问题，为企业提供持续增长动能。

销售线索质量精准潜客获取优质客户画像
TCL科技半导体显示业务上半年净利润预计超46亿元，同比增长超70%！

TCL科技发布2025年半年度业绩预告：预计上半年营收826-906亿元，同比增长3%-13%；归母净利润18-20亿元，同比大增81%-101%。半导体显示业务表现亮眼，预计净利润超46亿元，同比增长超70%。大尺寸显示领域受益于高端化、大尺寸化趋势，产品价格稳定；中尺寸领域T9产能爬坡顺利，IT产品销量和收入大幅增长；小尺寸OLED业务高端化战略成效显著。公司已完成对华星光电部分股权的收购，进一步巩固竞争优势。未来将持续优化业务布局，提升盈利水平。

热文

3 天
7天

旷视科技天元 MegEngine 开源 CUDA INT4 量化源码实现

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

数智驱动全球增长：RixEngine（睿力引擎）邀您共聚2025 ChinaJoy BTOB馆

英伟达Blackwell Ultra芯片商用落地，微美全息以“算力+开源”领航AI科技新程

Perplexity推出AI浏览器Comet：想用得开1400元/月的订阅

LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

OPPO首款内置风扇手机！OPPO K13 Turbo跑分出炉：确认骁龙8s Gen4

王自如要回归老本行了：第一次正式播客讲苹果WWDC和Apple Intelligence

技嘉科技发布GeForce RTX 5050系列显卡

销售易营销Agent重磅上线！智能拓客、精准触达，让业绩增长更简单

TCL科技半导体显示业务上半年净利润预计超46亿元，同比增长超70%！

热文

AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

比特币首触112000美元：盘中涨幅最高达3%

微信：持续打击非法使用外挂行为进一步强化外挂营销信息治理

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

荣耀X70支持IP66/IP68/IP69/IP69K 号称行业最高规格防水

REDMI Turbo 4 Pro粉金新配色发布售价1899元起

小米汽车交付超30万辆：用时仅15个月

OPPO K13 Turbo系列官宣将于7月21日发布内置散热风扇

小米回应小折叠未搭载玄戒O1：立项之初总量比较有限