近日,Nvidia 推出了一款新的小型语言模型 Nemotron-Nano-9B-v2,这款模型在多个基准测试中表现优异,并且用户可以灵活控制其推理功能的开关。Nemotron-Nano-9B-v2的参数量为90亿,相较于其前身的120亿参数有了显著减小,旨在适应单个 Nvidia A10GPU 的部署需求。
Nvidia 的 AI 模型后训练总监 Oleksii Kuchiaev 表示,这款模型专门针对 A10GPU 进行了优化,可以实现高达6倍的处理速度,适合各种应用场景。Nemotron-Nano-9B-v2支持多种语言,包括英语、德语、西班牙语、法语、意大利语、日语,以及扩展的韩语、葡萄牙语、俄语和中文等,适用于指令跟随和代码生成任务。
该模型基于 Nemotron-H 系列,融合了 Mamba 与 Transformer 架构,能够在处理长序列时降低内存和计算需求。与传统的 Transformer 模型不同,Nemotron-H 模型使用选择性状态空间模型(SSM),在确保准确性的同时,能够高效处理更长的信息序列。
在推理功能上,Nemotron-Nano-9B-v2可以默认生成推理过程的跟踪记录,用户也可以通过简单的控制指令,如 /think 或 /no_think,来切换这一功能。此外,模型引入了运行时 “思考预算” 管理,允许开发者设定推理所用的最大 token 数量,以便在准确性和响应速度之间取得平衡。
在基准测试中,Nemotron-Nano-9B-v2展现了良好的准确性。例如,在使用 NeMo-Skills 套件的 “推理开启” 模式下,该模型在多个测试中均表现出色,显示出与其他小型开源模型相比的优势。
Nvidia 将 Nemotron-Nano-9B-v2以开放模型许可证发布,允许商业用途,且开发者可自由创建和分发衍生模型。值得一提的是,Nvidia 不会对模型生成的输出主张所有权,用户可完全控制其使用。
该模型的发布旨在为开发者提供在小规模环境中平衡推理能力和部署效率的工具,标志着 Nvidia 在提高语言模型的效率和可控推理能力方面的持续努力。
huggingface:https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2
划重点:
🌟 Nvidia 推出了新型小型语言模型 Nemotron-Nano-9B-v2,支持用户灵活控制推理功能。
⚙️ 该模型基于先进的混合架构,能够高效处理长序列信息,适用于多语言任务。
📊 Nemotron-Nano-9B-v2以开放模型许可证发布,允许开发者进行商业用途和衍生模型的创建。