首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算

2023-10-12 14:29 · 稿源:站长之家

要点:

1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法,可以将大型预训练模型剪枝至低成本,但高性能水平。

2. 剪枝方法将模型剪枝看作一种约束优化问题,同时学习剪枝掩码矩阵以最大化性能为目标。

3. 这种方法提供了一种有效的方式,可用于将剪枝后的模型继续预训练,最终超越从头开始预训练的模型。

站长之家(ChinaZ.com)10月12日 消息:陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA(State-of-the-Art)水平的性能。

这一成果的基础是以羊驼LLaMA2.7B为起点,通过有针对性的结构化剪枝,得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中,这些剪枝后的模型表现出色,超越了之前的同等规模模型。

image.png

论文地址:

https://arxiv.org/abs/2310.06694

Hugging Face:

https://huggingface.co/princeton-nlp

项目主页:

https://xiamengzhou.github.io/sheared-llama/

该研究的首席作者夏梦舟指出,与从头开始预训练相比,这种剪枝方法在成本和性能方面更为划算。

研究团队还在论文中提供了剪枝后模型的示例输出,表明即使规模只有1.3B和2.7B,这些模型仍然能够生成连贯且内容丰富的回复。此外,相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。

image.png

这一研究的重要性在于,虽然目前仅使用Llama2.7B模型进行了剪枝实验,但这种方法可扩展到其他模型架构和规模。此外,剪枝后的模型还可以进一步预训练,从而在一定程度上恢复因剪枝而导致的性能损失。

研究团队还解决了一个关键问题,即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载(Dynamic Batch Loading)的方法,通过根据模型在不同领域数据上的损失下降速率,动态调整每个领域的数据比例,从而提高数据使用效率。

实验证明,虽然剪枝模型最初表现较差,但通过继续预训练,最终可以超越与之规模相同但从头开始预训练的模型。

总而言之,这项研究的关键在于提供了一种高效的方式,可以将庞大的预训练模型剪枝至较低成本,同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

举报

  • 相关推荐
  • 何小鹏“剧透”:小鹏训练的一个物理大模型 是国内车企“独一份”

    快科技4月14日消息,今日早间,小鹏汽车创始人何小鹏在社交平台发帖称:作为最早把「智能化」作为核心的车企,小鹏的本质是「AI汽车公司」,我认为AI 最大的价值在于改变物理世界,而不仅是数字世界,我们要做一家面向全球的AI汽车公司,我更想通过 AI 来改变物理世界,这是很有意义的,但难度也更大。小鹏坚持全栈自研,去年率先在自动驾驶领域引入强化学习、模型

  • 苦等一年 Meta终于放大招 正式发布开源大模型Llama 4

    美国科技巨擘Meta重磅推出其迄今最为强大的开源AI模型Llama4,恰逢Llama3上市一周年之际。Llama4系列采用了先进的混合专家架构,这一架构在模型训练及用户查询回答过程中展现出更高效率,通过将模型划分为多个专注于特定任务的专家”子模型,实现精准高效的处理。Meta首席执行官扎克伯格表示:他们的目标是建立世界领先的人工智能,将其开源,并使其普遍可用,以便世界上每个人都能受益。

  • 比买更划算!PS5主机出租爆火:多家门店一机难求

    快科技4月23日消息,在日本和英国,游戏主机租赁服务正在悄然兴起,尤其是索尼PS5主机的租借服务,意外地受到了玩家的热烈追捧,甚至出现了多家门店一机难求的场景。据日本媒体报道,零售巨头GEO在2025年首次推出了PS5租借服务,这项服务覆盖了全国超过400家门店,玩家只需支付980日元(约合50元人民币),就可以将PS5主机带回家畅玩8天。如果支付1780日元(约合91元人民币),租期还可以延长至15天,GEO表示,这项服务推出后反响热烈,整体出租率高达80%,超过一半的门店设备几乎被租借一空。英国的租赁公司Raylo也在今年推出了类似的PS5

  • 凯迪拉克VISTIQ亚洲首秀,搭载Momenta飞轮大模型定义豪华纯电智能出行

    4月23日,凯迪拉克在上海举办"心驰·电掣"发布会,推出亚洲首秀的VISTIQ车型。该车与Momenta深度合作,采用行业首个量产飞轮大模型技术,实现L2全场景城区辅助驾驶功能,提供"有路就能开,有位就能停"的智能体验。凯迪拉克强调不应通过堆砌硬件实现智能化,而需技术创新与用户体验并重。此次合作展现了凯迪拉克拥抱智能化的决心,也彰显了Momenta在自动驾驶领域的技术领先地位。双方将共同推动豪华纯电出行的智能化升级。

  • Aloudata Agent公测开启:NoETL+大模型=好数据驱动真智能,让“万数皆可问”

    4月22日,Aloudata大应科技推出自研的Aloudata Agent,这是一款基于NoETL明细语义层的分析决策智能体,旨在通过自然语言实现数据查询、归因诊断、报告生成等功能。该产品解决了企业数据分析面临的五大挑战:语义鸿沟、口径一致性、场景覆盖度、性能优化和数据权限管控。Aloudata Agent采用NL2MQL2SQL技术路径,通过指标语义层实现业务语言与数据语言的精准对齐,显著提升查询准�

  • 阿丘科技李嘉悦:大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

    3月28日,由机器视觉产业联盟主办、慕尼黑展览有限公司承办的VisionChina2025机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题,发表了精彩演讲。”今年,在这个快速变化的时代,我要补充一句:“AI工业视觉的格局正在加速变革,不会用大模型的将会被善用大模型的人淘汰。

  • 新增自主决策推理模型!理想汽车OTA 7.2开启推送

    快科技4月3日消息,我们从理想汽车官方获悉,OTA7.2版本车机系统正式开启推送,预计一周内完成,升级耗时约50分钟。本次更新新增自主决策推理模型,该模型基于车载场景数据及通用推理模型数据打造,可根据问题内容自主决策是否深度思考,面对车控指令等简单问题时,能够保障响应速度。智能座舱方面,新增全能儿童锁功能,支持一键锁定副驾老板键、后排座椅物理按�

  • AI 大模型的困境:数据才是真正的“燃料”

    一旦掉入AI坟场,幻觉将永远存在,噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目,但小心进入AI大模型的坟场,在光鲜亮丽的背后,AI大模型也面临着诸多困境,其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据,AI大模型才能发挥出其真正的潜力,为企业带来更大的价值。

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。