首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

旷视科技天元 MegEngine 开源 CUDA INT4 量化源码实现

2024-02-29 11:41 · 稿源: 站长之家用户

当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量IoT设备进行深度融合,不断拓展应用场景。然而在AIoT场景中,嵌入式设备往往算力有限,难以承载庞大的AI模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速AI落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。

目前相对成熟的模型量化方案是 INT8量化。以ResNet-50模型为例,原本需要用 float32表示的权重,量化后只需要使用 INT8表示,通过这样的处理,模型体积可以减少到原来的1/2,再加上 TensorCore 的加持,还会有近8倍的网络加速。而如果更进一步,将模型用INT4表示,可以带来更多的速度提升。

为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4的源码实现,这也让MegEngine成为头个开源 CUDA INT4源码实现的深度学习框架。MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种INT4的数据类型,同时通过算子融合优化、kernel优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例,INT4相比 INT8有1.3倍的加速。

具体代码实现可以查看文末“阅读原文”

随着 CUDA INT4的开源,目前MegEngine 框架不仅支持浮点数 FP32和 FP16,而且支持 INT8和 INT4的对称和非对称量化推理。此外,MegEngine框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视海量业务打磨出的模型推理理想实践,化解模型转换部署难题;流程管理工具FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获较好性能。

自开源以来,MegEngine不断优化,已先后发布29个版本,推出一系列实用功能,降低AI算法生产门槛,助力AI应用快速落地。未来,旷视将继续支持和拥抱开源,并将自身在开源领域积累的技术和经验与业界共享,推动人工智能技术创新和行业发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 百惠金控:金融创科迎新局 港股人工智能IPO受热捧

    接近农历,港股市场交易气氛依然炽热。百惠金控观察到,科创板块已成为带动大市上行的核心引擎,尤其是人工智能(AI)相关股份持续受资金青睐,板块热度持续攀升。香港特区政府财政司司长近日表示,香港作为国际金融中心,将凭借“金融联动创科”的效应乘势而上,进一步放大香港的制度优势。市场对科创板块的积极情绪,在年初新股表现中得以充分印证。2026年1月2

  • 支持普通话、英语和粤语零样本歌声合成,Soul App 联合吉利汽车研究院人工智能中心(AIC)、天津大学及西北工业大学开源SoulX-Singer

    过去一年,生成式AI在音乐行业不断创造新体验,但歌唱语音合成(SVS)领域进展相对缓慢。为拓展这一领域,Soul AI Lab联合吉利汽车研究院人工智能中心、天津大学视听认知计算团队和西北工业大学音频语音与语言处理研究组,正式开源歌声合成模型SoulX-Singer。这是一个面向真实应用场景设计的高质量零样本歌声合成模型,基于超过42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面均达到当前开源SVS模型中的领先水平。

  • AI入口之争:独立App和嵌入式,谁更接近终局?

    ​2026年的春节红包大战,火药味比往年更浓。 字节火山引擎拿下央视春晚独家AI云合作,豆包配合上线互动玩法。腾讯时隔多年重返红包战场,元宝砸出10亿现金。百度文心助手5亿红包开路,拿下北京台春晚首席AI合作伙伴。阿里千问拿下江苏卫视AI荔枝春节联欢晚会的独家冠名。 据不完全统计,仅四家在春节期间的营销预算已远超15亿元。但这场混战的本质,早已不是谁家�

  • 2025新质生产力示范案例发布 华为云CloudMatrix AI Infra荣获人工智能TOP案例

    AI正从参数比拼转向赋能实体经济的“下半场”,行业重心转向千行百业的规模化应用落地。华为云凭借基于CloudMatrix+AI Infra的智算云服务,成功入选“人工智能基础与产业融合”示范案例TOP5,彰显了中国式AI与产业融合发展新路径。华为云坚持深入产业,解决行业难题,通过“车-网-云”协同的AI无人驾驶全栈方案,赋能矿山、水泥等行业实现降本增效。未来,华为云将继续坚持“做难而正确的事”,推动AI真正深入行业场景,共同迈向新质生产力发展的下一程。

  • 信用为舟,量化派诠释高质量发展新范式

    北京市近日公布2025年度信用领跑企业及园区名单,量化派凭借技术创新、合规经营及消费产业数字化赋能方面的突出表现成功入选。文章指出,在数字经济浪潮下,社会信用体系已成为驱动高质量发展的核心基石,信用与创新的深度融合是激活产业活力、优化营商环境的关键。量化派作为扎根北京的消费领域线上市场运营商,依托自主AI技术平台,深耕消费产业数字化,在智能推荐、精准分发和用户运营等方面形成核心优势,其发展轨迹与城市支持电商数字化转型的政策导向同频共振。此次入选既是对其技术研发与服务成果的认可,也是对其长期坚守诚信自律、积极构建高标准企业信用体系实践的肯定。

  • 以AI为笔,量化派助力绘就消费产业数字化壮美画卷

    量化派在第十四届“金智奖”评选中荣获“杰出AI创新企业”奖项。该奖项认可其AI技术研发与商业化落地能力,彰显其在赋能消费产业数字化升级方面的领先地位。量化派依托自主AI技术平台,为消费者与合作伙伴提供智能化、精准的消费体验。公司通过多元消费场景的数字化运营,在智能推荐、精准分发和用户运营方面具备核心优势。展望未来,量化派将继续深化“AI+产业”融合探索,携手合作伙伴共拓数字消费新蓝海。

  • 小米回应开发2200MPa超强钢:安全轻量化双突破

    小米汽车联合王国栋院士团队等共同开发了2200MPa超强钢,旨在提升车身安全性与轻量化。该材料通过创新设计,在相同用量下提供更高强度,或在相同强度下实现更轻量化,从而降低能耗、提升操控。目前,该材料已应用于小米YU7的防撞梁,新一代SU7将全系标配“2200MPa超强钢内嵌式防滚架”,进一步强化车身结构安全。

  • 沃旭通讯荣膺国家级专精特新“小巨人”企业——以感传一体化AIoT技术,赋能工业数字化升级

    江苏省工信厅公示第七批国家级专精特新“小巨人”企业名单,南京沃旭通讯科技有限公司成功入选。这标志着公司在核心技术自主创新、专业化深耕能力及市场竞争力等方面获国家高度认可。沃旭通讯聚焦高精度定位与智能感知技术,构建了覆盖UWB、VSLAM、毫米波雷达等多维技术体系,提供“传感一体化AIoT网络”综合解决方案,已在智能制造、仓储物流等多个领域实现规模化应用,助力企业提升运营效率与安全防护。未来,公司将继续深耕前沿技术,以更开放生态赋能全球客户迈向数字化新时代。

  • 罗技G304X秒鲨:源自瑞士的轻量化电竞鼠标革新者,中小手玩家的绿色游戏利器

    罗技G304X秒鲨鼠标源自瑞士精密制造基因,以创新为核心,重新定义入门级电竞鼠标标准。其搭载行业首创HERO 25K传感器,实现精准追踪;采用内置锂电池替代传统AA电池,重量仅57克且重心居中,兼顾轻量化与稳定操控;支持双模连接,续航长达106小时。产品融入环保理念,使用可降解包装与环保材质,助力碳中和目标。凭借精准性能、轻便设计及绿色理念,G304X成为中小手玩家的全能选择,并获多项设计大奖认可。

  • 无线游戏鼠标怎么选?2026职业选手常用低延迟轻量化鼠标推荐

    本文探讨职业电竞选手选择无线游戏鼠标的核心标准:低延迟(需低于0.125ms)、轻量化(低于60g)和高精度(如高DPI与追踪速度)。罗技GPW系列凭借LIGHTSPEED无线技术、HERO2传感器和LIGHTFORCE微动成为行业标杆。文章还针对2026年职业选手需求,推荐了五款GPW系列型号,包括旗舰性能、小手专用、右手工学、MOBA功能及高性价比版本,帮助选手根据手型、游戏类型和预算选择合适装备。

今日大家都在搜的词: