首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

旷视科技天元 MegEngine 开源 CUDA INT4 量化源码实现

2024-02-29 11:41 · 稿源: 站长之家用户

当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量IoT设备进行深度融合,不断拓展应用场景。然而在AIoT场景中,嵌入式设备往往算力有限,难以承载庞大的AI模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速AI落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。

目前相对成熟的模型量化方案是 INT8量化。以ResNet-50模型为例,原本需要用 float32表示的权重,量化后只需要使用 INT8表示,通过这样的处理,模型体积可以减少到原来的1/2,再加上 TensorCore 的加持,还会有近8倍的网络加速。而如果更进一步,将模型用INT4表示,可以带来更多的速度提升。

为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4的源码实现,这也让MegEngine成为头个开源 CUDA INT4源码实现的深度学习框架。MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种INT4的数据类型,同时通过算子融合优化、kernel优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例,INT4相比 INT8有1.3倍的加速。

具体代码实现可以查看文末“阅读原文”

随着 CUDA INT4的开源,目前MegEngine 框架不仅支持浮点数 FP32和 FP16,而且支持 INT8和 INT4的对称和非对称量化推理。此外,MegEngine框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视海量业务打磨出的模型推理理想实践,化解模型转换部署难题;流程管理工具FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获较好性能。

自开源以来,MegEngine不断优化,已先后发布29个版本,推出一系列实用功能,降低AI算法生产门槛,助力AI应用快速落地。未来,旷视将继续支持和拥抱开源,并将自身在开源领域积累的技术和经验与业界共享,推动人工智能技术创新和行业发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 简知科技“简智AI大模型”通过国家生成式人工智能服务备案,助力兴趣教育迈向智能化新阶段

    广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案,标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑,该模型围绕用户兴趣成长周期设计,提供个性化学习支持:可为未明确兴趣方向的用户智能推荐内容,为入门用户规划学习路径,为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖,并通过社群互动增强学习动力。公司未来将持续优化模型能力,联合行业伙伴构建完整培养体系,推动兴趣教育向个性化、高质量方向发展。

  • 共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

    10月28日,AtomGit平台在北京国家会议中心举行升级发布会,正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞,强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源,打造开放中立的基础设施,计划于11月21日正式上线。华为、百度等企业代表分享了开源实践,多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • 卖家精灵加入中国人工智能产业发展联盟(AIIA),加速AI赋能跨境电商

    卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力,近日正式加入中国人工智能产业发展联盟(AIIA),成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可,未来将携手联盟推动AI技术研发与产业化,助力中国品牌全球化。依托八年积累的海量电商数据与算法体系,卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案,服务超百万跨境卖家,显著提升运营效率与决策精准度。

  • 人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

    科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲,强调高质量数据集是人工智能产业决胜关键。他指出,算力、算法和数据构成AI三大要素,而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施,通过集中管理、分散赋能模式,打通数据采集、治理到AI训练全链路,推动产业智能化升级。该平台已在制造、金融等领域落地,助力企业释放数据要素价值,实现弯道超车。

  • 行业首个!海尔冰箱获ISO/IEC 42001人工智能管理体系认证

    2025年10月,海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业,标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程,确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品,推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术,为用户提供更安全、智能的健康饮食体验。

  • 端侧AI驱动产业链变革,elexcon2026聚焦芯片/存储/嵌入式核心器件创新

    近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品,推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局,在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎,2025年第二季度全球腕戴设备出货量同比增长12.3%,中国市场增速达33.8%,占据全球近半份额。端侧AI驱动技术升级,供应�

  • 厚植AI创新沃土!麒麟信安打造人工智能孵化器,赋能创业梦想

    10月28日,麒麟信安人工智能孵化器在长沙启动,旨在汇聚AI领域人才、技术与资本,构建开放协同的创新生态。该项目获湖南省多部门支持,已吸引60余个项目入围,组建了首批30余位专家导师团,并与多家顶尖机构共建联合体,通过政策扶持、资本对接等多维度赋能,培育优质AI项目在湘落地发展,助力区域打造人工智能产业创新高地。

  • GEO品牌监控实战指南:如何量化品牌在AI搜索中的真实影响力

    文章指出AI搜索正成为被忽视的流量新战场,多数品牌对其在AI推荐中的表现一无所知。提出GEO(生成引擎优化)概念,通过可见度百分比、曝光绝对值和竞争相对位置三个维度量化品牌在AI回答中的影响力。强调需用专业工具监控跨平台表现、识别用户真实需求、评估策略有效性,并通过国货彩妆案例展示数据驱动的优化如何提升AI推荐能见度。未来GEO将向多模态监控、情感分析和预测洞察演进,成为AI时代的品牌生存必备能力。

  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

今日大家都在搜的词: