首页 > 业界 > 关键词  > Nemotron-4最新资讯  > 正文

英伟达发布Nemotron-4:150亿参数通用大模型,目标单张A100/H100可跑

2024-02-29 14:43 · 稿源:站长之家

**划重点:**

1. 🌐 Nemotron-4是英伟达最新通用大模型,拥有150亿参数,在各语言和编码任务中表现出色。

2. 💡 该模型采用Chinchilla模型的「缩放定律」,通过优化计算预算、数据和模型大小实现性能提升。

3. 🔥 在多领域下游评估中,Nemotron-415B超越同等参数规模的模型,甚至击败4倍大的模型,成为最强通用语言模型。

站长之家(ChinaZ.com)2月29日 消息:英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数,经过在8T token上的训练,在英语、多语言和编码任务中表现出色。具体而言,Nemotron-4在7个评估基准上的15B模型表现优异,超越同等参数规模的模型,甚至击败了4倍大的模型。

image.png

该模型的设计灵感来自Chinchilla模型的「缩放定律」,该定律强调在给定固定计算预算的情况下,同时优化数据和模型大小。与过去主要关注模型大小不同,这一研究强调将计算分配给更多数据的训练,以降低延迟和服务模型所需的计算量。因此,Nemotron-4的主要目标是打造一个能在单个英伟达A100或H100GPU上运行的最佳「通用大模型」。

在架构方面,Nemotron-4采用了标准的纯解码器Transformer架构,并带有因果注意掩码。核心超参数包括32亿个嵌入参数和125亿个非嵌入参数。在数据方面,研究人员使用了包含8万亿个token的预训练数据集,分为英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。

为了实现这一庞大模型的训练,Nemotron-4使用了384个DGX H100节点,每个节点包含8个英伟达H10080GB SXM5GPU。在16位浮点(bfloat16)算术下,每个GPU的峰值吞吐量为989teraFLOP/s。研究人员通过张量并行和数据并行的组合进行训练,并使用了分布式优化器。

在下游评估中,Nemotron-4在各领域均表现强劲,特别是在常识推理、热门综合基准和数学、代码任务上。该模型在多语言分类和生成任务中也实现了最佳性能,展现了其在不同语言的卓越理解能力。值得注意的是,Nemotron-4在机器翻译任务中取得了显著的进展,不仅在中文翻译成英文方面表现出色,而且在中文直接翻译成其他语言方面也取得了印象深刻的效果。

image.png

Nemotron-4的推出标志着英伟达在通用大模型领域的一次重要突破,为单个A100或H100GPU上运行的最佳通用大模型设定了新标准。

论文地址:https://arxiv.org/abs/2402.16819

举报

  • 相关推荐
  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 999元起!联想moto g100s开售:LCD护眼屏、支持微信/抖音6开

    联想官方今天宣布,moto g100s正式开售,定价是999元起。 这是近期少有的LCD手机,搭载6.72英寸LCD防蓝光无频闪护眼屏,支持120Hz高刷新率与全局DC调光,硬件级过滤蓝光、消除频闪,局部峰值亮度1050nits。 内置7000mAh超大容量电池,采用10%硅负极技术提升能量密度,电池循环寿命超1000次,6年使用后容量仍80%,支持30W有线快充 搭载第四代骁龙6s处理器,性能满足日常社交、短视�

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • 九号公司举办首届「MoTech Day 2025」:让技术回归生活,让创新成为日常

    10月24日,九号公司举办首届“MoTech Day 2025”技术文化节,这是专属于工程师的节日,也是公司首次以“技术文化”为核心议题的集团级活动。活动通过嘉宾演讲、互动体验与创意挑战等形式,聚焦智能出行、AI芯片、能源技术等前沿领域,旨在让“工程师精神”成为九号文化的核心符号,推动技术与文化双向融合,构建长期创新驱动力。活动还同步推出面向高校的“MoTech创意挑战赛”,并搭建线下互动打卡区,强化内部技术认同与组织活力,重塑品牌科技形象。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • 7000mAh+1050尼特LCD屏!联想moto g100/s AI手机发布:999元起

    联想10月31日发布moto g100系列手机,主打LCD屏幕与长续航。配备6.72英寸120Hz自适应刷新率LCD屏,支持全程DC调光;搭载骁龙7s Gen2处理器,内置7000mAh大电池,支持30W快充。后置双摄组合满足日常拍摄,支持NFC、侧边指纹识别。moto g100售价1399元(12+256GB),moto g100s起售价999元,均提供四年质保服务。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

今日大家都在搜的词: