近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。
Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。这些模型的性能在业界引发了广泛关注,尤其是 LN-Ultra,它在推理任务中表现优异,能够在单个8xH100节点上高效运行,同时支持最多128K 的上下文长度,这在大语言模型中可谓是独一无二。
值得一提的是,英伟达在开源界首次推出了 “推理开关” 功能,用户只需通过系统提示词 “detailed thinking on/off” 即可轻松切换不同的推理模式。这一设计使得模型能够在日常对话与复杂的多步骤推理之间自如转换,极大地满足了不同用户的需求。
Llama-Nemotron 模型的构建分为五个阶段,首先通过神经架构搜索(NAS)优化推理效率,接着进行知识蒸馏与预训练,以恢复模型性能。随后,进行了有监督微调(SFT),结合标准指令数据与强大教师模型的推理过程,提升模型的多步骤推理能力。特别是在复杂的数学和 STEM 数据集上进行强化学习训练,使 LN-Ultra 在科学推理方面脱颖而出。
在模型架构方面,Llama-Nemotron 引入了新颖的 Puzzle 框架,能够根据硬件限制转化大语言模型为高效版本,提升计算性能。这一系列优化措施为 LN-Ultra 的推理能力奠定了坚实基础。
英伟达的 Llama-Nemotron 系列模型在推理效率、内存管理和用户交互方面的创新,标志着开源人工智能模型领域的一次重大突破。
论文地址:https://arxiv.org/pdf/2505.00949