LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

2023-10-12 14:29 · 稿源：站长之家

要点:
1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法，可以将大型预训练模型剪枝至低成本，但高性能水平。
2. 剪枝方法将模型剪枝看作一种约束优化问题，同时学习剪枝掩码矩阵以最大化性能为目标。
3. 这种方法提供了一种有效的方式，可用于将剪枝后的模型继续预训练，最终超越从头开始预训练的模型。

站长之家（ChinaZ.com）10月12日消息:陈丹琦团队近期发布了一项重要的研究成果，他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本，同时保持着SOTA（State-of-the-Art）水平的性能。

这一成果的基础是以羊驼LLaMA2.7B为起点，通过有针对性的结构化剪枝，得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中，这些剪枝后的模型表现出色，超越了之前的同等规模模型。

论文地址:

https://arxiv.org/abs/2310.06694

Hugging Face:

https://huggingface.co/princeton-nlp

项目主页:

https://xiamengzhou.github.io/sheared-llama/

该研究的首席作者夏梦舟指出，与从头开始预训练相比，这种剪枝方法在成本和性能方面更为划算。

研究团队还在论文中提供了剪枝后模型的示例输出，表明即使规模只有1.3B和2.7B，这些模型仍然能够生成连贯且内容丰富的回复。此外，相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。

这一研究的重要性在于，虽然目前仅使用Llama2.7B模型进行了剪枝实验，但这种方法可扩展到其他模型架构和规模。此外，剪枝后的模型还可以进一步预训练，从而在一定程度上恢复因剪枝而导致的性能损失。

研究团队还解决了一个关键问题，即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载（Dynamic Batch Loading）的方法，通过根据模型在不同领域数据上的损失下降速率，动态调整每个领域的数据比例，从而提高数据使用效率。

实验证明，虽然剪枝模型最初表现较差，但通过继续预训练，最终可以超越与之规模相同但从头开始预训练的模型。

总而言之，这项研究的关键在于提供了一种高效的方式，可以将庞大的预训练模型剪枝至较低成本，同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

（举报）

相关推荐

关键词：

大模型

加速Robotaxi部署滴滴自动驾驶进入爆发前夜

滴滴自动驾驶在第十七届国际交通技术设备展上亮相新一代L4级量产车型，配备33个传感器，展现技术突破。公司宣布将持续加大研发投入，与广汽埃安成立合资公司加速无人驾驶商业化落地。目前滴滴Robotaxi车队已在北京、广州等城市稳定运营超1800天无重大事故，并计划年内部署千台车辆。凭借多年技术积累和资本支持（累计融资超15.5亿美元），滴滴正迈向规模化商业运营新阶段。近期与广州市政府达成战略合作，进一步拓展智慧交通应用场景，标志着其自动驾驶技术进入爆发前夜。

滴滴自动驾驶国际交通展 L4级车型
HKIT携手WALLX推出创新区块链奖励模型，引领心理治疗与AI技术融合新趋势

香港智能有限公司(HKIT)与WALLX公司合作，将AI技术与心理治疗相结合，开发出基于区块链的奖励和参与模式。该创新系统能精准评估用户心理状态并提供个性化治疗方案，同时利用区块链确保数据安全。双方还推出奖励机制，用户参与心理课程或贡献数据可获得，用于兑换咨询服务或健康产品。这一模式获得市场广泛关注，多家机构表达合作意向，被视为心理健康服�

心理治疗 AI技术区块链
曝小米16拿下骁龙8 Elite 2首发：9月登场

小米16系列将在9月份登场，首发搭载高通新一代处理器骁龙8 Elite 2。新机将搭载全新的澎湃OS 3.0系统，爆料称更灵动，流畅度应该会有所提升。
国内有哪些ai大模型？一文看懂中国核心AI大模型全景

近两年中国AI大模型发展迅猛，已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出；深度求索DeepSeek以1/10参数实现GPT-4级推理能力；月之暗面Kimi以20万汉字上下文窗口领跑长文本处理；智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型，覆盖超1000家医院。开源生态加速国产芯片适配，15家厂商完成深度优化。行业应用方面，工程文档效率提升60%，24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向，中国AI正从实验室走向产业变革前沿。

AI大模型中国AI发展文心一言
主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V
“晓妙”产业大模型——AI驱动的产业变革

7月4日，安徽数智建材研究院在长城工程科技会议上发布"晓秒"产业大模型。该模型由傲林科技投资支持，采用"1+1+N"架构，融合数据、机理和业务模型，实现生产运营全流程实时闭环优化。中国建材集团董事长周育先表示，该模型已在水泥板块试点应用，吨水泥成本降低1%以上，能耗电耗下降2%以上。会议指出，AI落地制造业需突破三大关键：建立数字化体系、夯实数据基础、实现工艺与数据融合。未来将拓展至新能源、钢铁等十余个行业，推动产业智能化升级。
在减肥市场，瘦吧用“AI+私域”拿下超8亿营收

行业是这样的:减肥行业“烧钱营销”泛滥。有人打价格战抢用户，有人用极端手段赚快钱，市场乱象丛生。违规减肥药、非法添加剂、节食反弹，一度让消费者心灰意冷。有人做法是这样的:不打价格战，不依赖电商流量，而是用「服务+产品+AI工具」的方式来做减肥生意。业绩则是这样的:3年增长超200%，APP注册用户超440万，年GMV突破10亿（2024年超8亿，2025年预计达10亿）。

减肥市场烧钱营销体重管理
AI大模型排名前十：谁主2025智能时代沉浮？

本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长；Anthropic的Claude3系列擅长长文本分析和专业写作；Google的Gemini1.5具备强大的多模态处理能力；Meta的Llama3是性能强劲的开源模型；xAI的Grok系列擅长实时信息处理；Mistral AI以高效混合专家架构著称；Cohere专注企业级应用；Inflection Pi主打情感陪伴；中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型，并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

人工智能 AI大模型技术创新
文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中，OpenAI的DALL·E3擅长复杂语义理解，MidJourney以艺术风格见长，Stable Diffusion则以开源生态支持深度定制。中国力量方面，百度文心一格在中文语义和国风创作表现突出，阿里通义万相侧重商业化应用，昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程，Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性，并指出下一代技术将突破分辨率限制，实现跨模态生成。从精准语义到无限可能，AI文生图正在重塑视觉创作边界。
2025最新全球AI大模型排名，国内外模型动态洗牌（实时更新平台推荐）

2025年全球AI大模型竞争进入白热化阶段，OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期，仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示：1)GPT-4.5综合80.4分领跑；2)Claude3.7编程领域领先；3)Gemini2.0多模态标杆；4)国产DeepSeek R1推理速度提升3倍；5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车，如DeepSeek R1仅耗资600万美元达到GPT-4水平，字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出，如文心一言4.0方言交互准确率92%。开源生态爆发，通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

全球AI大模型 OpenAI 技术迭代

热文

3 天
7天

LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

加速Robotaxi部署滴滴自动驾驶进入爆发前夜

HKIT携手WALLX推出创新区块链奖励模型，引领心理治疗与AI技术融合新趋势

曝小米16拿下骁龙8 Elite 2首发：9月登场

国内有哪些ai大模型？一文看懂中国核心AI大模型全景

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

“晓妙”产业大模型——AI驱动的产业变革

在减肥市场，瘦吧用“AI+私域”拿下超8亿营收

AI大模型排名前十：谁主2025智能时代沉浮？

文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

2025最新全球AI大模型排名，国内外模型动态洗牌（实时更新平台推荐）

热文

尾号“8个7”手机号拍出320万元溢价率高达146%

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

腾讯客服回应误删微信聊天记录可撤销：苹果iOS机型已支持

淘宝闪购：日订单量再次突破8000万创新高

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

比特币首触112000美元：盘中涨幅最高达3%

微信：持续打击非法使用外挂行为进一步强化外挂营销信息治理

OPPO K13 Turbo系列官宣将于7月21日发布内置散热风扇

荣耀X70支持IP66/IP68/IP69/IP69K 号称行业最高规格防水

周杰伦发布第一条抖音视频：回顾成长史粉丝超1200万

站长商机