首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

旷视科技天元 MegEngine 开源 CUDA INT4 量化源码实现

2024-02-29 11:41 · 稿源: 站长之家用户

当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量IoT设备进行深度融合,不断拓展应用场景。然而在AIoT场景中,嵌入式设备往往算力有限,难以承载庞大的AI模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速AI落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。

目前相对成熟的模型量化方案是 INT8量化。以ResNet-50模型为例,原本需要用 float32表示的权重,量化后只需要使用 INT8表示,通过这样的处理,模型体积可以减少到原来的1/2,再加上 TensorCore 的加持,还会有近8倍的网络加速。而如果更进一步,将模型用INT4表示,可以带来更多的速度提升。

为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4的源码实现,这也让MegEngine成为头个开源 CUDA INT4源码实现的深度学习框架。MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种INT4的数据类型,同时通过算子融合优化、kernel优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例,INT4相比 INT8有1.3倍的加速。

具体代码实现可以查看文末“阅读原文”

随着 CUDA INT4的开源,目前MegEngine 框架不仅支持浮点数 FP32和 FP16,而且支持 INT8和 INT4的对称和非对称量化推理。此外,MegEngine框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视海量业务打磨出的模型推理理想实践,化解模型转换部署难题;流程管理工具FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获较好性能。

自开源以来,MegEngine不断优化,已先后发布29个版本,推出一系列实用功能,降低AI算法生产门槛,助力AI应用快速落地。未来,旷视将继续支持和拥抱开源,并将自身在开源领域积累的技术和经验与业界共享,推动人工智能技术创新和行业发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • “谷歌版MCP”来了,开源A2A,不同厂商Agent也能协作

    “谷歌版MCP”来了!谷歌推出A2A协议,即Agent2Agent,能让AIAgent在不同生态系统间安全协作无需考虑框架或供应商。不同平台构建的AIAgent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。从各大厂最近动作来看,芜湖,不愧是Agent元年。

  • Aloudata Agent公测开启:NoETL+大模型=好数据驱动真智能,让“万数皆可问”

    4月22日,Aloudata大应科技推出自研的Aloudata Agent,这是一款基于NoETL明细语义层的分析决策智能体,旨在通过自然语言实现数据查询、归因诊断、报告生成等功能。该产品解决了企业数据分析面临的五大挑战:语义鸿沟、口径一致性、场景覆盖度、性能优化和数据权限管控。Aloudata Agent采用NL2MQL2SQL技术路径,通过指标语义层实现业务语言与数据语言的精准对齐,显著提升查询准�

  • 自猎智聘招聘求职Agent发布,全新的智能化、自主化、轻量化交互体验

    4月28日,自猎科技发布"自猎智聘"AI招聘求职应用。该平台基于大模型和深度学习算法,打造L4级全流程自动化智能招聘系统,覆盖企业和求职者两端。企业端可智能执行全流程招聘,降本增效;求职端提供公平客观的求职体验。系统具备高精度人岗匹配、AI数字人智能面试、一键背景调查等功能,实现从筛选到入职的全流程自动化。自猎智聘突破传统招聘工具局限,通过多模态认知架构构建动态企业画像,实现从"功能模块化堆砌"到"目标牵引式自主决策"的范式跃迁。该产品标志着招聘领域正式进入"自主决策"的智能体时代。

  • 对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

    谷歌在GoogleCloudNext25大会上,开源了首个Agent开发套件—ADK。这也是OpenAI之后第二家大厂发布的标准化智能体SDK。谷歌刚开源ADK几天在Github已经超过5000颗星,非常受开发者的欢迎。

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。

  • 数势科技SwiftAgent 3.0发布 从智能分析到智能决策

    在全球数字化转型浪潮中,企业数据价值挖掘的瓶颈日益凸显:数据口径混乱、分析门槛高、决策链路长等问题导致大量数据资产“沉睡”。数势科技于今日正式发布SwiftAgent 3.0,基于DeepSeek R1/V3 大模型与行业领先的智能引擎,重构企业数据分析与决策范式,实现从“数据可视化”到“决策自动化”的跨越式升级。企业数据分析的三大核心痛点:数据孤岛与语义鸿沟跨部门数据

  • 再获权威认可!数势科技上榜IDC中国AI Agent应用市场全景图报告

    近日,国际数据公司(IDC)发布的《IDC Market Glance:中国AI Agent应用市场概览,1Q25》(Doc#CHC53057625, 2025 年 3 月)研究报告中,数势科技凭借在企业级智能体应用领域的技术突破,成功入围"数据分析"细分领域代表厂商,成为该赛道智能化转型的标杆企业。数势科技首发企业级决策分析智能体平台SwiftAgent数势科技SwiftAgent 作为基于DeepSeek及行业先进大模型构建的企业级智能决策分�

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 「扣子空间」内测上线,和 Agent 一起开始你的工作

    “摘星空间”平台正式推出,集生产、专业领域支持及双模系统协作能力,通过多类型AI智能体实现高效办公,具备生产提升、专家深度支持、双模协同等四大核心功能,未来将持续扩展Agent能力边界。

  • 大厂Agent混战:复刻Manus的野心与困局

    国内AI智能体市场竞争激烈,字节、阿里、百度等大厂纷纷推出对标Manus的产品。字节"扣子空间"定位职场助手,阿里"心流"侧重深度研究,百度"心响"聚焦医疗法律等垂直场景。尽管产品形态各异,但都面临技术复制与流量争夺的双重挑战。当前智能体仅能完成基础任务,与Manus仍有差距。大厂通过免费策略抢占市场,而创业公司如GensPark已开始商业化探索。技术窗口期正在缩短,2025年被视为"智能体爆发年",这场围绕下一代AI入口的竞赛才刚刚开始。