首页 > AI头条  > 正文

Llama3压缩版!Nvidia推小型语言模型Llama-3.1-Minitron4B 仅4亿参数

2024-08-21 09:46 · 来源: AIbase基地

在如今科技公司纷纷追逐在设备上实现人工智能的时代,越来越多的小型语言模型(SLM)应运而生,能够在资源受限的设备上运行。最近,Nvidia 的研究团队利用前沿的模型剪枝和蒸馏技术,推出了 Llama-3.1-Minitron4B,这是 Llama3模型的压缩版本。这个新模型在性能上不仅可以与更大的模型媲美,还能与同等规模的小型模型竞争,同时在训练和部署上都显得更加高效。

剪枝和蒸馏是创建更小、更高效语言模型的两项关键技术。剪枝是指去除模型中不重要的部分,包括 “深度剪枝”—— 去掉整个层,和 “宽度剪枝”—— 去掉特定元素如神经元和注意力头。而模型蒸馏则是从一个大模型(即 “教师模型”)转移知识和能力到一个更小、更简单的 “学生模型”。

蒸馏主要有两种方式,第一种是通过 “SGD 训练”,让学生模型学习教师模型的输入和响应,第二种是 “经典知识蒸馏”,在这里,学生模型除了学习结果外,还要学习教师模型的内部激活。

在之前的一项研究中,Nvidia 的研究人员成功地将 Nemotron15B 模型通过剪枝和蒸馏的方式减少到一个8亿参数的模型,最终又进一步精简至4亿参数。这个过程不仅在著名的 MMLU 基准测试中提高了16% 的性能,而且所需的训练数据也比从头训练少了40倍。

image.png

此次,Nvidia 团队在 Llama3.18B 模型的基础上,采用相同的方法打造出一个4亿参数的模型。首先,他们在一个包含940亿个标记的数据集上对未剪枝的8B 模型进行了微调,以应对训练数据和蒸馏数据集之间的分布差异。接着,采用了深度剪枝和宽度剪枝两种方式,最终得到了 Llama-3.1-Minitron4B 的两个不同版本。

研究人员通过 NeMo-Aligner 对剪枝后的模型进行了微调,并评估其在指令跟随、角色扮演、检索增强生成(RAG)和函数调用等方面的能力。

结果显示,尽管训练数据量较小,Llama-3.1-Minitron4B 的性能依然接近其他小型模型,表现出色。该模型的宽度剪枝版本已在 Hugging Face 上发布,允许商业使用,帮助更多用户和开发者受益于其高效和卓越的表现。

image.png

image.png

官方博客:https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

划重点:

🌟 Llama-3.1-Minitron4B 是 Nvidia 基于剪枝和蒸馏技术推出的小型语言模型,具有高效的训练和部署能力。  

📈 该模型在训练过程中使用的标记量比从头训练减少了40倍,性能却有明显提升。  

🔓 宽度剪枝版本已在 Hugging Face 发布,方便用户进行商业使用和开发。

  • 相关推荐
  • Lamett乐迈石晶产品硬核测评:零醛、防水、防霉三大指标重新定义健康家

    北京楼市新政落地,市场活力提升,新房装修需求升温。文章重点指出选购健康安全建材的关键指标:甲醛释放量少、防水防潮性强、防霉防蛀能力过硬。通过高温甲醛实验、防水实验和防霉防蛀实验,对比测试了乐迈石晶板等主流建材,结果显示其具有零甲醛释放、滴水不侵、无惧虫霉的优异性能,重新定义了健康建材的标准。

  • 小平板元年,华为MatePad Mini创出一片蓝海

    2012年,天才乔布斯去世一年后,接任苹果CEO的库克捧出了两款“很不乔布斯”的产品——大屏手机iPhone6和7英寸的iPad mini。 这两款差异化的产品形态,都是库克希望弥补的市场空白。比如,虽然乔布斯认为10英寸就是平板电脑尺寸的下限,更小的屏幕会让用户难以操控。但库克却觉得,小尺寸平板不仅在硬件配置上超越手机,它还具备易于携带的特点,将成为移动办公的利器�

  • 领先行业不止一代!继UX后,海信再推RGB-Mini LED新品U7S Pro

    海信在2025年柏林消费电子展上全球首秀RGB-Mini LED电视U7S Pro,搭载全新“双芯”组合,实现100% BT.2020色域、100%色纯度及低蓝光护眼等优势。该产品覆盖75/85/100英寸三种规格,9月底量产上市。海信通过自研RGB-Mini LED发光芯片和信芯AI画质芯片H7,突破行业技术瓶颈,推动RGB-Mini LED从技术引领迈向全民共享,标志着全球显示正式进入RGB-Mini LED时代。

  • 华为MatePad Mini官宣9月4日发布

    今日,华为正式对外宣布,其首款旗舰小平板——华为MatePad Mini将于9月4日震撼登场,官方Slogan定为“超强,超Mini”,预示着这款新品将在性能与便携性上实现双重突破。 此前,知名数码博主“数码闲聊站”已提前透露,华为MatePad小平板已顺利入网,并定位为全能轻薄型设备。据进一步爆料,该机将采用8.8英寸小尺寸机身设计,搭配16:9比例的OLED屏幕,为用户带来极致的视觉

  • 比iPad mini更胜一筹!华为MatePad Mini包装盒曝光:8.8寸屏的手机 或卖4K起

    明天除了Mate XTs亮相外,还有MatePad Mini,而它到底算是平板还是手机呢? 现在有博主晒出了MatePad Mini外包装盒,从产品名称上看,华为给它定位是手机(数字移动电话机)。 对于这款新机,今天我们也报道了相关内容,比如曝光的价格是:12GB 256GB售价为3999元;12GB 512GB售价为4499元;12GB 512GB柔光版售价为4999元。

  • iPad mini对比完败!华为MatePad Mini明天发布 价格曝光 或3999元起

    明天华为要举行新品发布会,除了新的三折叠屏手机外,还有MatePad Mini。 现在,有博主曝光了华为MatePad Mini不同内存版本的价格,具体来说:12GB 256GB售价为3999元;12GB 512GB售价为4499元;12GB 512GB柔光版售价为4999元。 汇总之前曝光的消息,华为MatePad Mini将推出多个版本,包括标准版、柔光版(配备防眩光屏幕,适合手写笔创作)、插卡版(支持5G网络和通话功能)、read版”(�

  • 34Q9 垂直整合重塑 Mini LED 格局

    2025年9月1日,雷鸟推出34Q9 Mini LED电竞显示器,定价3999元。该产品采用2304分区Mini LED背光和HVA面板,实现1ms响应速度和4000:1对比度,精准切入3000-4000元市场空档。凭借华星光电供应链优势,产品在画质、色域(97% DCI-P3)及多设备兼容性(90W Type-C)上表现突出,覆盖电竞玩家、内容创作者和多设备用户三大群体。业界认为该产品可能重塑中高端显示器市场格局,加速Mini LED技术普及。

  • 华为小平板MatePad Mini发布:售价3299元起 支持插卡打电话

    今日,华为正式推出全新品类产品MatePad Mini小平板,以“小平板 大手机”为口号,主打便携性与通信能力融合。该产品提供六种存储版本,售价区间为3299元至6499元,其中12+256GB悦读版起售价3299元,16GB+1TB典藏版(含手写笔及皮套)顶配6499元,智能皮套单独售价199元。 核心配置上,MatePad Mini采用8.8英寸2560×1600分辨率OLED屏,通过2.99mm四等边挖孔设计实现92%屏占比,支持120Hz高�

  • 8.8英寸“大手机”!华为MatePad mini全系支持插卡

    在三折叠登场厚,华为小尺寸平板MatePad mini正式登场。 之前官方在预热时候就表示小平板 大手机”,发布会上何刚终于揭晓其特性全系支持插卡。 甚至华为还为MatePad mini配备了听筒结构,8.8英寸超窄边框的设计,可以一手掌握,轻松接打电话。

  • 轻巧新境界,智慧随心至——华为MatePad Mini 8.8英寸正式发布

    华为于2025年9月4日发布全新HUAWEI MatePad Mini平板,主打8.8英寸轻薄设计,仅重255g、厚5.1mm。搭载鸿蒙5.1系统,支持插卡通话和蜂窝网络,配备柔性OLED全面屏,峰值亮度达1800nits。内置6400mAh电池,支持66W快充。提供办公、阅读、创作等多场景体验,售价3999元起,9月12日正式开售。

今日大家都在搜的词: