首页 > 业界 > 关键词  > QMoE最新资讯  > 正文

研究人员推出压缩框架QMoE:可将1.6万亿参数模型高效压缩20倍

2023-10-31 16:31 · 稿源:站长之家

要点:

1. ISTA的研究人员提出了QMoE模型量化方法,可以将1.6万亿参数的SwitchTransformer压缩至160GB以下,每参数仅0.8位,实现了高达20倍的压缩率。

2. 这种压缩框架通过专门设计的GPU解码内核实现,能在一天内将庞大的模型压缩至适用于4张英伟达RTX A6000或8张英伟达RTX3090GPU的大小,而开销不到未压缩模型的5%。

3. QMoE采用了数据依赖的量化方法,实现了高效的压缩,即使在极低位宽下,仍能维持准确性,适用于大规模的混合专家架构模型。

站长之家(ChinaZ.com)10月31日 消息:最新研究来自ISTA的科学家提出了一种创新的模型量化方法,称为QMoE,可以将庞大的1.6万亿参数SwitchTransformer压缩到令人难以置信的160GB以下,每个参数仅占用0.8位。这一方法实现了高达20倍的压缩率,为解决大型模型的高昂成本和内存需求问题提供了新的解决方案。

GPT-4等大型模型的发展使混合专家架构(MoE)成为研究的焦点。虽然MoE可以显著提高模型的准确性和训练速度,但由于庞大的参数数量,需要大量的显存才能运行这些模型。例如,1.6万亿参数的SwitchTransformer-c2048模型需要3.2TB的GPU显存。为解决这一问题,ISTA的研究人员提出了QMoE,这一框架利用专门设计的GPU解码内核,实现了高效的端到端压缩推理。

image.png

论文地址:https://arxiv.org/pdf/2310.16795.pdf

QMoE的独特之处在于采用了数据依赖的量化方法,允许在底层的位宽下实现高度压缩,同时仍能维持准确性。实验结果表明,即使在仅有2位或三元精度的情况下,与未压缩模型相比,精度的损失非常小。这一研究的成果为大规模混合专家架构模型的高效压缩和执行提供了新的可能性,将其适用于消费级GPU服务器,减少了内存开销,并降低了运行成本。

尤其令人印象深刻的是,QMoE的高效性,小型模型甚至可以在一小时内完成压缩,而大型模型如c2048也只需要不到一天的时间。虽然在执行速度方面与未压缩模型相比略有下降,但这一方法在大规模模型的压缩方面具有重要潜力。总的来说,QMoE为解决大型模型的内存需求问题提供了创新的解决方案,实现了高度的压缩和高效的执行。

然而,这项研究也存在一些局限性,因为目前公开可获得的大规模精确MoE模型数量有限,因此需要更多的研究和实验来进一步验证其适用性。这一创新性研究将有望为未来的深度学习和大型模型研究开辟新的方向。

举报

  • 相关推荐
  • 2260公里跨越四省!远东电缆护航“疆电入渝”特高压高效运行

    6月10日,"疆电入渝"特高压工程正式投运,这是中国首条穿越"沙戈荒"地区的特高压线路,全长2260公里,横跨新疆、甘肃、陕西、四川四省。工程每年可向重庆输送360亿千瓦时绿电,满足1600万居民1.5年用电需求,年减碳1600万吨。远东股份旗下智能缆网产业为工程提供核心技术支持,其研发的大截面钢芯高导率铝绞线导电率较传统产品提升2%,每公里每年可节电2500度。该产品曾获2019年国家科技进步奖,已服务全国30多条特高压线路。工程投运标志着中国能源结构优化和"双碳"目标取得重要进展。

  • 如何高效孵化新人主播?YY给行业带来新解法

    娱乐直播行业也有了自己的“创造营101”。 今年4月,YY重磅推出新主播赛事IP——《星耀直播营》。这是YY首次以“老带新”的模式为核心,集结顶级资源、线上线下联动赋能,从而助力潜力新人快速成长的全新赛事活动。 100位新人主播,五个赛段“阶梯式”成长体系,“YY十大新人主播”......历经30天的激烈角逐,5名新主播升级成为平台头部主播,近80名主播升级成为平台�

  • 运德开新仓赋能跨境旺季,助力卖家开启高效物流!

    运德供应链宣布美国印第安纳州黎巴嫩市的中美二仓正式投入运营。这座17万平方英尺的现代化智能仓储中心配备先进WMS系统,可提升订单处理效率20%-30%,满足旺季爆发式增长需求。仓库地处美国物流黄金走廊,49分钟可达机场,高效覆盖中西部及东海岸市场。延续"全链路自营"优势,提供24小时极速出库、一件代发、FBA头程转运等特色服务。这是运德在美国的第五大仓储群,目前其本土自营仓库已达11个,总面积超200万平方英尺,为跨境卖家提供最具性价比的物流解决方案。

  • 真学霸!豆包大模型1.6正式发布:高考数学卷获144分 全国第一

    今日,字节跳动旗下火山引擎举办FORCE原动力大会,正式发布豆包大模型1.6。 新系列包括三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。 火山引擎总裁谭待表示,Doubao-Seed-1.6是首个支持256k长上下文的大模型。 以thinking模型为例,其思考能力强化,支持多模态,Doubao-Seed-1.6则支持on/off/auto三种思考模式。 在高考全国新一卷数学单科测试中,豆包大模�

  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�

  • 数字金融时代,还呗怎么让投诉更高效?智能矩阵守护用户体验

    文章介绍了创业者在办理还呗贷款业务遇到问题时,可通过三种可靠途径寻求帮助:1)拨打官方客服热线4006816666;2)通过官网在线客服或微信公众号咨询;3)使用官方App在线客服功能。同时强调投诉时需提供准确信息以便快速解决问题。还呗平台通过构建智能客服矩阵,运用AI客服机器人、RPA自动化流程等技术提升服务效率,确保用户随时获得专业帮助。未来将持续优化用户体验,为创业梦想和日常金融需求提供更有温度的支持。

  • 当618大促遇上父亲节,快手电商“宠爸计划”助力商家高效生意增长

    快手电商在618大促期间推出"宠爸计划"活动,联合海澜之家、七匹狼等知名男装品牌,通过平台补贴、流量扶持等资源助力商家。活动包含"超级直播间"和"宠爸好礼返场特惠"等主题玩法,商家最高可获得3万元虚拟金补贴。同时推出"超级链接"活动,入选商品可获得额外曝光和流量支持。数据显示,2025年一季度快手电商GMV同比增长15.4%至3323亿元,男装行业增长迅猛。此次活动将帮助商家抓住父亲节和618双节点商机,实现销量爆发。

  • 贝锐蒲公英组网方案:低投入高回报,助力包装设备企业高效远程运维

    本文探讨了智能包装设备在食品饮料行业中的核心作用及远程运维解决方案。国内企业通过多年技术积累,已掌握从灌装到贴标的完整自动化包装技术,产品远销全球。然而设备调试阶段常面临计量不准、定位偏差等问题,传统现场维护模式响应慢、成本高。贝锐蒲公英基于SD-WAN技术推出远程运维方案,通过工业级路由器R300+快速组网,实现设备远程访问与调试,解决工厂网络隔离、跨国连接等难题。方案具备四大优势:1)突破工厂网络隔离限制;2)全球智能链路保障跨国稳定连接;3)全面支持工业协议;4)多层次数据安全防护。该方案显著提升设备交付效率,降低运维成本,助力企业数字化转型,2024年市场份额居全国首位。

  • 忆联 Docker+MySQL 流控方案:打造安全高效存储底座,释放 AI 极致性能

    文章探讨了在AI时代背景下,基于Docker部署MySQL数据库的高效解决方案。通过Docker容器化技术,MySQL实现了灵活部署、资源高效利用和稳定隔离性,成为AI应用的首选数据库方案。测试结果显示,采用PCIe5.0企业级SSD配合Namespace技术和QoS优化策略,能精准控制性能偏差在2%以内,在混合读写场景下更可控制在1%以内。该方案显著提升了存储资源管理效率,为AI应用提供稳定可靠的数据存储支持,同时降低企业TCO成本,推动数据价值释放。

  • 从TradingView到AiCoin,WEEX用户尽享专业分析与高效交易

    5月28日,加密货币交易平台WEEX与行情分析平台AiCoin达成战略合作,实现行情数据与K线图的全面对接。此前WEEX已完成与TradingView的集成,为用户提供专业图表分析工具。WEEX成立于2018年,现支持15种语言,服务全球130多个国家超620万用户,合约交易量排名全球前十。平台设立1000BTC投资者保护基金,定期公布储备金证明(PoR)。此次合作将借助AiCoin的专业数据和分析工具,提升用户�