旷视科技天元 MegEngine 开源 CUDA INT4 量化源码实现

2024-02-29 11:41 · 稿源：站长之家用户

当下人工智能技术正加速发展，渗透到云、边、端和应用的各个层面，与海量IoT设备进行深度融合，不断拓展应用场景。然而在AIoT场景中，嵌入式设备往往算力有限，难以承载庞大的AI模型。如何在资源有限的终端场景实现 AI 模型的有效部署，是加速AI落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法，例如量化和蒸馏。其中，模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术，可以有效减少模型算力消耗并提升计算速度，当前已经在工业界发展比较成熟。

目前相对成熟的模型量化方案是 INT8量化。以ResNet-50模型为例，原本需要用 float32表示的权重，量化后只需要使用 INT8表示，通过这样的处理，模型体积可以减少到原来的1/2，再加上 TensorCore 的加持，还会有近8倍的网络加速。而如果更进一步，将模型用INT4表示，可以带来更多的速度提升。

为了推动低比特量化技术的发展，旷视天元MegEngine 团队开源了 INT4的源码实现，这也让MegEngine成为头个开源 CUDA INT4源码实现的深度学习框架。MegEngine采用均匀线性量化方案，实现了非对称量化和对称量化两种INT4的数据类型，同时通过算子融合优化、kernel优化等方法，使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例，INT4相比 INT8有1.3倍的加速。

具体代码实现可以查看文末“阅读原文”

随着 CUDA INT4的开源，目前MegEngine 框架不仅支持浮点数 FP32和 FP16，而且支持 INT8和 INT4的对称和非对称量化推理。此外，MegEngine框架开发了诸多工具，帮助用户提升模型推理性能、简化部署流程，包括自动代码裁剪功能，支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite，基于旷视海量业务打磨出的模型推理理想实践，化解模型转换部署难题;流程管理工具FastRun，可以为每个计算自动选择最快的算法，从而保证整个网络的运行时间最短，让 MegEngine 用户运行不同的网络时都能收获较好性能。

自开源以来，MegEngine不断优化，已先后发布29个版本，推出一系列实用功能，降低AI算法生产门槛，助力AI应用快速落地。未来，旷视将继续支持和拥抱开源，并将自身在开源领域积累的技术和经验与业界共享，推动人工智能技术创新和行业发展。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
对焦 | AI赋能，国控广东物流联合旷视科技MEGVII部署业内首例药械视觉复核项目

由国控广东物流和旷视联合研发的“药械自动识别和数据采集系统”在国控广东物流佛山物流中心进入运作使用。在药械收货环节，该系统通过人机协作，数秒内就能完成单批产品的多轮信息复核和数据自动采集，实现高准确率的同时，整体工作效率提升超50%。对此，国控广东物流总经理梁颖康表示:“国控广东物流佛山物流中心的视觉复核项目，是医药行业首例通过AI视觉识�

物流管理药械识别数据采集
蛰伏两年，旷视科技的自动驾驶果实，成熟了

自动驾驶圈正被“去高精地图”风暴席卷。今年6月中旬，一年一度的AI顶会CVPR2023在加拿大举行，同期还有场自动驾驶国际挑战赛，这场挑战赛吸引了来自15个国家的270多支队伍参赛，有2300多件作品投稿，赛况激烈。
旷视科技跻身“北京民营企业科技创新百强”榜

随着科学技术的不断发展，人工智能企业犹如雨后春笋一般出现，数据显示，我国人工智能企业数量已有数千家之多，但随之出现的还有严重的同质化现象，人工智能企业的“淘汰期”已经到来，要想获得长足发展，技术创新无疑是首位。北京市工商业联合会正式对外发布“2019北京民营企业百强”、“2019北京民营企业科技创新百强”、“民营企业文化产业百强”和“民营企业社会责任百强”四大榜单。2019年，科技部更是宣布依托旷视科技建设“图像感知”国家新一代人工智能开放创新平台。

人工智能企业技术创新北京民营企业百强
旷视科技算法量产助力解决“多重”难题，AIoT 市场算法供给面临 5 大挑战

随着人工智能、深度学习等新技术不断推出和演进，越来越多的行业进行智能化升级、智能化创新，实现降本增效。火焰检测、工业质检、零件计数、危化品检测、通行管理、明厨亮灶、高空抛物检测、普洱茶茶饼识别、破皮速冻水饺检测……这些“五花八门”的AI算法，伴随着数字化转型的热潮，进入了日常生产生活。旷视希望通过AI算法生产的标准化以及AI生产力平台的构建，大幅降低算法生产的成本和门槛，让更多人可以参与进来，促进算法在更多行业的落地，加速AI与实体经济的深度融合。

人工智能深度学习智能化
Google扩充Gemma开源家族：推出CodeGemma和RecurrentGemma模型

Google宣布扩充其Gemma开源家族，推出了两个新的模型:CodeGemma和RecurrentGemma。这两个模型的推出旨在进一步提升Gemma家族在自然语言处理领域的能力。这一更新将进一步优化模型的性能，为用户提供更好的使用体验。

Gemma 模型
GLM团队AI编程助手CodeGeeX插件在Visual Studio上线

GLM大模型团队旗下的CodeGeeX是一款免费的智能编程助手，它最近在VisualStudio平台上线。这使其成为首个适配VisualStudio平台的国产智能编程助手。通过这些功能，CodeGeeX可以帮助程序员节省时间，提高编程效率，甚至提供技术相关的答案和代码错误修复。

CodeGeeX 智能编程助手 Visual
旷视MEGVII机器人征战欧洲市场柔性仓储方案亮相LogiMAT

3月21日，2024LogiMAT德国站在斯图加特落下帷幕。作为欧洲规模最大、最具影响力的物流展之一，LogiMAT汇聚了全球最顶尖的内部物流产品及解决方案厂商参展。旷视将携手更多的国内外合作伙伴，共同推动AI技术、柔性机器人和物流自动化技术不断融合，持续为客户提供更好用的柔性存拣一体化物流综合解决方案，不断提升物流仓储的综合管理能力和效率，助力客户更好、更快发展。

LogiMAT 物流展内部物流
旷视MEGVII携手白云机场，打造大规模智慧通关机场新标杆

当前，我国民航工作正在积极践行中央的重要指示，大力推进实施“平安、绿色、智慧、人文”的“四型机场”建设。其中，建设“智慧机场”是引领民航智慧化发展，进一步推动我国民航信息化与智能化建设的重要举措。作为中国三大门户复合枢纽机场之一，广州白云国际机场（以下简称:白云机场）开通了400余条国内外航线，据广州市规划和自然资源局发布的《2021广州市交

民航工作智慧机场建设广州白云国际机场
MediaTek DaVinci GenAI Platform官网体验入口联发科生成式AI平台使用地址

MediaTekDaVinciGenAIPlatform是一个强大的生成式AI平台，能提供自然流畅的人工智能对话体验，充当个人助理。平台还能整合多种信息源，帮助用户全方位了解相关信息。MediaTekDaVinciGenAIPlatform的使用场景多种多样，包括：编写高质量文章快速了解技术文档内容根据需求扩展平台功能MediaTekDaVinciGenAIPlatform的产品特色直接聊天文档分析插件扩展希望通过此平台提高工作和生活效率，获取所需信息和服务的用户可以尝试使用MediaTekDaVinciGenAIPlatform。

MediaTekDaVinci 联发科
SWE-agent官网体验入口开源AI程序员使用地址

SWE-agent是什么？SWE-agent是普林斯顿大学推出的首个开源AI程序员，基于GPT-4技术，能够自动修复GitHub仓库中的bug。SWE-agent适用于需要自动修复bug的软件工程师、研究人员、GitHub代码管理者等。

SWE-agent

今日大家都在搜的词：

热文

3 天
7天

旷视科技天元 MegEngine 开源 CUDA INT4 量化源码实现

今日大家都在搜的词：

热文

站长商机