首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算

2023-10-12 14:29 · 稿源:站长之家

要点:

1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法,可以将大型预训练模型剪枝至低成本,但高性能水平。

2. 剪枝方法将模型剪枝看作一种约束优化问题,同时学习剪枝掩码矩阵以最大化性能为目标。

3. 这种方法提供了一种有效的方式,可用于将剪枝后的模型继续预训练,最终超越从头开始预训练的模型。

站长之家(ChinaZ.com)10月12日 消息:陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA(State-of-the-Art)水平的性能。

这一成果的基础是以羊驼LLaMA2.7B为起点,通过有针对性的结构化剪枝,得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中,这些剪枝后的模型表现出色,超越了之前的同等规模模型。

image.png

论文地址:

https://arxiv.org/abs/2310.06694

Hugging Face:

https://huggingface.co/princeton-nlp

项目主页:

https://xiamengzhou.github.io/sheared-llama/

该研究的首席作者夏梦舟指出,与从头开始预训练相比,这种剪枝方法在成本和性能方面更为划算。

研究团队还在论文中提供了剪枝后模型的示例输出,表明即使规模只有1.3B和2.7B,这些模型仍然能够生成连贯且内容丰富的回复。此外,相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。

image.png

这一研究的重要性在于,虽然目前仅使用Llama2.7B模型进行了剪枝实验,但这种方法可扩展到其他模型架构和规模。此外,剪枝后的模型还可以进一步预训练,从而在一定程度上恢复因剪枝而导致的性能损失。

研究团队还解决了一个关键问题,即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载(Dynamic Batch Loading)的方法,通过根据模型在不同领域数据上的损失下降速率,动态调整每个领域的数据比例,从而提高数据使用效率。

实验证明,虽然剪枝模型最初表现较差,但通过继续预训练,最终可以超越与之规模相同但从头开始预训练的模型。

总而言之,这项研究的关键在于提供了一种高效的方式,可以将庞大的预训练模型剪枝至较低成本,同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

举报

  • 相关推荐
  • 这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

    在最近关于「ScalingLaw是否撞墙」的讨论中,后训练被寄予厚望。近期发布的OpenAIo1在数学、代码、长程规划等问题上取得了显著提升背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。最后必须说明,长达73页的Tülu3技术报告中还包含大量本文并未提及的细节,感兴趣的读者千万不要错过。

  • 最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o

    AI编程模型的开源王座易主了!Qwen2.5-Coder-32B正式发布,霸气拿下多个主流基准测试SOTA,彻底登上全球最强开源编程模型宝座。更重要的是,在代码能力的12个主流基准上,Qwen2.5-Coder-32B与GPT-4o对决,斩获9胜,一举掀翻闭源编程模型的绝对统治。可以期待一下~关于Qwen2.5-Coder的更多信息,可直接通过下方链接了解。

  • 首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

    【新智元导读】Meta最近开源了一个7B尺寸的SpiritLM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音、自动语音识别或翻译,在其他模态数据和任务上的泛化能力十分有限。研究人员还直接评估了模型对输入提示的处理能力,结果发现,无论是哪种提示,模型都能得到很高的评分,表明还有很大的空间来进一步提高模型在保持情感表达方面的能力,也意味着,智能体在理解和生成情感丰富的内容方面还有很大的潜力可以挖掘。

  • 50多款AI眼镜来了,大模型找到了应用救星?

    一开始并不被扎克伯格重视的RaybanMeta现在已经成为了硅谷科技达人的时尚单品,发售至今9个月,RaybanMeta眼镜第二代已经卖出了100多万台第一代产品在1年半内仅仅卖出去了30万台。这款由Meta和Rayban联名推出的AI眼镜,第二代因为接入了Meta自研的大模型LIama3,提升了摄像/拍照水平,实现语音交互、物体识别、文字翻译等功能,凭借不错的产品力,一下子成为了智能硬件领域的一匹黑马。强大如Meta一年也才卖出百万台,这是手机厂商们发布新品时3天就能达到的销量,中国的AI眼镜或许容不下太多玩家。

  • ChatGPT两周年,国产o1大模型们紧追不舍

    ChatGPT诞生的第二年,OpenAI和国内的一众企业正在试着“抛弃”它。在ScalingLaw被质疑能力“见顶”的情况下,今年9月,OpenAI带着以全新系列命名的模型o1一经发布,“会思考的大模型”再度成为焦点。在如何不过度思考的情况下,平衡大模型的推理进化和用户对效率的需求?这是杨植麟几个月前在云栖大会上的提问,这个问题需要留给国内大模型厂商们继续解决。

  • 大模型上了火山方舟:数据唯你可见,唯你所用,唯你所有

    大模型的发展呈现出追风逐日般的速度,但与之相伴的安全问题,也是频频被曝光。正如此前ChatGPT所曝出的案例中,黑客可以利用漏洞给AI植入虚假记忆,在后续回答中出现误导信息。在我们问及吴迪,在搞安全的过程中,是否有令他印象深刻的故事时,他这样回答道:总言之,纵观火山方舟的整体安全互信方案,是已经做到了“科技道路千万条,安全第一条”。

  • Andrej Karpathy:神奇大模型不存在的,只是对人类标注的拙劣模仿

    也许是时候寻找新的方法了?大模型回答人类的对话内容,究竟有多少「智能」成分在里面?本周五,知名AI领域学者,OpenAI创始成员、特斯拉前AI高级总监AndrejKarpathy发表观点:「人们对『向人工智能询问某件事』的解释过于夸张」,引发网友热议。Karpathy称:人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。这或许为大模型下一步性能突破提供了新的思路。

  • 端到端大模型到底是个啥 小米官方详解

    小米HAD将全面接入端到端大模型,智驾体验重大升级,预计12月底开启先锋版推送。XiaomiHAD将在小米SU7Pro、小米SU7Max和小米SU7Ultra上搭载。卡口前智能降速,灵活等待;进出口机智识别,精确选择;抬杆后即刻起步,高效利索。

  • 指令层级,帮助AI大模型防御恶意攻击

    随着ChatGPT等生成式AI产品被广泛应用在AI代理/客服、虚拟助手等领域,在安全方面会遭遇黑客攻击、恶意文本提示等难题。使用特定的提问方式,可以让ChatGPT输出原始私密训练数据。即使面对未见过的恶意攻击指令,经过上下文蒸馏训练的模型也能够更好地学习到这些知识,以识别和处理新的安全威胁。

  • 加速替代CUDA!摩尔线程开源vLLM-MUSA 加速国产GPU AI

    近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,为开发者提供基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。摩尔线程表示,正努力围绕自主研发的统一系统架构GPU、MUSA软件平台,构建完善好用的MUSA应用生态。摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容,大幅提升了应用移植的效率,缩短了开发周期提供MUSIFY自动代码移植工具等一系列实用工具和脚本。