LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

2023-10-12 14:29 · 稿源：站长之家

要点:
1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法，可以将大型预训练模型剪枝至低成本，但高性能水平。
2. 剪枝方法将模型剪枝看作一种约束优化问题，同时学习剪枝掩码矩阵以最大化性能为目标。
3. 这种方法提供了一种有效的方式，可用于将剪枝后的模型继续预训练，最终超越从头开始预训练的模型。

站长之家（ChinaZ.com）10月12日消息:陈丹琦团队近期发布了一项重要的研究成果，他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本，同时保持着SOTA（State-of-the-Art）水平的性能。

这一成果的基础是以羊驼LLaMA2.7B为起点，通过有针对性的结构化剪枝，得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中，这些剪枝后的模型表现出色，超越了之前的同等规模模型。

论文地址:

https://arxiv.org/abs/2310.06694

Hugging Face:

https://huggingface.co/princeton-nlp

项目主页:

https://xiamengzhou.github.io/sheared-llama/

该研究的首席作者夏梦舟指出，与从头开始预训练相比，这种剪枝方法在成本和性能方面更为划算。

研究团队还在论文中提供了剪枝后模型的示例输出，表明即使规模只有1.3B和2.7B，这些模型仍然能够生成连贯且内容丰富的回复。此外，相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。

这一研究的重要性在于，虽然目前仅使用Llama2.7B模型进行了剪枝实验，但这种方法可扩展到其他模型架构和规模。此外，剪枝后的模型还可以进一步预训练，从而在一定程度上恢复因剪枝而导致的性能损失。

研究团队还解决了一个关键问题，即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载（Dynamic Batch Loading）的方法，通过根据模型在不同领域数据上的损失下降速率，动态调整每个领域的数据比例，从而提高数据使用效率。

实验证明，虽然剪枝模型最初表现较差，但通过继续预训练，最终可以超越与之规模相同但从头开始预训练的模型。

总而言之，这项研究的关键在于提供了一种高效的方式，可以将庞大的预训练模型剪枝至较低成本，同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

（举报）

相关推荐

关键词：

大模型

何小鹏“剧透”：小鹏训练的一个物理大模型是国内车企“独一份”

快科技4月14日消息，今日早间，小鹏汽车创始人何小鹏在社交平台发帖称：作为最早把「智能化」作为核心的车企，小鹏的本质是「AI汽车公司」，我认为AI 最大的价值在于改变物理世界，而不仅是数字世界，我们要做一家面向全球的AI汽车公司，我更想通过 AI 来改变物理世界，这是很有意义的，但难度也更大。小鹏坚持全栈自研，去年率先在自动驾驶领域引入强化学习、模型

小鹏汽车 AI汽车智能化
苦等一年 Meta终于放大招正式发布开源大模型Llama 4

美国科技巨擘Meta重磅推出其迄今最为强大的开源AI模型Llama4，恰逢Llama3上市一周年之际。Llama4系列采用了先进的混合专家架构，这一架构在模型训练及用户查询回答过程中展现出更高效率，通过将模型划分为多个专注于特定任务的专家”子模型，实现精准高效的处理。Meta首席执行官扎克伯格表示：他们的目标是建立世界领先的人工智能，将其开源，并使其普遍可用，以便世界上每个人都能受益。

Meta Llama 4
比买更划算！PS5主机出租爆火：多家门店一机难求

快科技4月23日消息，在日本和英国，游戏主机租赁服务正在悄然兴起，尤其是索尼PS5主机的租借服务，意外地受到了玩家的热烈追捧，甚至出现了多家门店一机难求的场景。据日本媒体报道，零售巨头GEO在2025年首次推出了PS5租借服务，这项服务覆盖了全国超过400家门店，玩家只需支付980日元（约合50元人民币），就可以将PS5主机带回家畅玩8天。如果支付1780日元（约合91元人民币），租期还可以延长至15天，GEO表示，这项服务推出后反响热烈，整体出租率高达80%，超过一半的门店设备几乎被租借一空。英国的租赁公司Raylo也在今年推出了类似的PS5

游戏主机租赁 PS5租借服务租赁市场趋势
凯迪拉克VISTIQ亚洲首秀，搭载Momenta飞轮大模型定义豪华纯电智能出行

4月23日，凯迪拉克在上海举办"心驰·电掣"发布会，推出亚洲首秀的VISTIQ车型。该车与Momenta深度合作，采用行业首个量产飞轮大模型技术，实现L2全场景城区辅助驾驶功能，提供"有路就能开，有位就能停"的智能体验。凯迪拉克强调不应通过堆砌硬件实现智能化，而需技术创新与用户体验并重。此次合作展现了凯迪拉克拥抱智能化的决心，也彰显了Momenta在自动驾驶领域的技术领先地位。双方将共同推动豪华纯电出行的智能化升级。

凯迪拉克智能驾驶新能源车
Aloudata Agent公测开启：NoETL+大模型=好数据驱动真智能，让“万数皆可问”

4月22日，Aloudata大应科技推出自研的Aloudata Agent，这是一款基于NoETL明细语义层的分析决策智能体，旨在通过自然语言实现数据查询、归因诊断、报告生成等功能。该产品解决了企业数据分析面临的五大挑战：语义鸿沟、口径一致性、场景覆盖度、性能优化和数据权限管控。Aloudata Agent采用NL2MQL2SQL技术路径，通过指标语义层实现业务语言与数据语言的精准对齐，显著提升查询准�

Aloudata 大应科技智能BI
阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

3月28日，由机器视觉产业联盟主办、慕尼黑展览有限公司承办的VisionChina2025机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场，围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题，发表了精彩演讲。”今年，在这个快速变化的时代，我要补充一句:“AI工业视觉的格局正在加速变革，不会用大模型的将会被善用大模型的人淘汰。

机器视觉 AI检测工业应用
新增自主决策推理模型！理想汽车OTA 7.2开启推送

快科技4月3日消息，我们从理想汽车官方获悉，OTA7.2版本车机系统正式开启推送，预计一周内完成，升级耗时约50分钟。本次更新新增自主决策推理模型，该模型基于车载场景数据及通用推理模型数据打造，可根据问题内容自主决策是否深度思考，面对车控指令等简单问题时，能够保障响应速度。智能座舱方面，新增全能儿童锁功能，支持一键锁定副驾老板键、后排座椅物理按�

理想汽车 OTA更新智能座舱
AI 大模型的困境：数据才是真正的“燃料”

一旦掉入AI坟场，幻觉将永远存在，噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目，但小心进入AI大模型的坟场，在光鲜亮丽的背后，AI大模型也面临着诸多困境，其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据，AI大模型才能发挥出其真正的潜力，为企业带来更大的价值。

AI 大模型数据质量
合合信息发布“大模型加速器 2.0”，助力大模型跨越“幻觉”障碍

近日，上海合合信息科技股份有限公司（简称“合合信息”）TextIn“大模型加速器 2.0”版本正式上线，凭借其多维度升级，为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键，合合信息“大模型加速器 2.0”基于领先的智能文档处理技术，从数据源头入手，对复杂文档的版式、布局和元素进行精准解析及结构化处理，

大模型加速器合合信息智能文档处理
Llama 4大模型跌落神坛：作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间，口碑急转直下，被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文，打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆，恐将在AI竞赛中进一步失去开发者支持。

Meta Llama 4

热文

3 天
7天

LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

何小鹏“剧透”：小鹏训练的一个物理大模型是国内车企“独一份”

苦等一年 Meta终于放大招正式发布开源大模型Llama 4

比买更划算！PS5主机出租爆火：多家门店一机难求

凯迪拉克VISTIQ亚洲首秀，搭载Momenta飞轮大模型定义豪华纯电智能出行

Aloudata Agent公测开启：NoETL+大模型=好数据驱动真智能，让“万数皆可问”

阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

新增自主决策推理模型！理想汽车OTA 7.2开启推送

AI 大模型的困境：数据才是真正的“燃料”

合合信息发布“大模型加速器 2.0”，助力大模型跨越“幻觉”障碍

Llama 4大模型跌落神坛：作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

热文

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

4chan 之“死”：互联网最狂野的角落逐渐消逝！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

站长商机