首页 > 业界 > 关键词  > Nemotron-4最新资讯  > 正文

英伟达发布Nemotron-4 15B: 8 万亿训练数据,性能超LLaMA-2

2024-03-07 08:48 · 稿源:站长之家

**划重点:**

1. 🌐 Nemotron-415B拥有150亿参数,基于8万亿文本标注数据预训练,在多领域测试中超越同类大小的开源模型,尤其在代码语言准确率上表现出色。

2. 🧠采用标准Transformer架构,结合自注意力、全局注意力和多头注意力等机制,以及旋转位置编码技术,提升模型表达和泛化能力。

3. 🌐 利用384个DGX H100节点,每节点搭载8个NVIDIA Hopper架构的H10080GB SXM5GPU,采用8路张量并行和数据并行的组合,以及分布式优化器进行分片。

站长之家(ChinaZ.com)3月7日 消息:英伟达最新推出的大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。

在多领域测试中,Nemotron-415B在7个领域中的4个表现优异,超越了同类大小的开源模型。特别值得注意的是,在代码语言方面,Nemotron-415B展现出更高的准确率,尤其在资源稀缺的编程语言上超过了Starcoder和Mistral7B等模型。

该模型采用了标准的Transformer架构,包括多头自注意力机制和前馈神经网络。其独特之处在于,Nemotron-415B结合了自注意力和全局注意力机制,以更好地理解输入序列内部的依赖关系和输入序列与输出序列之间的对应关系。多头注意力的引入进一步提高了模型的表达能力和泛化能力。

在训练过程中,研究人员充分利用了384个DGX H100节点,每个节点搭载8个基于NVIDIA Hopper架构的H10080GB SXM5GPU。通过8路张量并行和数据并行的组合,以及分布式优化器进行分片,成功完成了Nemotron-415B的训练。

Nemotron-415B在英语、数学推理、多语言分类和代码等多个测试任务中表现出色,不仅在性能上超越了LLaMA-234B和Mistral7B,在广泛的代码语言中也取得了更高的准确率。这一成就为大型语言模型的发展和应用提供了崭新的视角。

image.png

技术报告https://arxiv.org/abs/2402.16819

举报

  • 相关推荐
  • 有AI的Air!联想moto X70 Air月底发布:厚度不到6mm

    联想moto X70 Air已经官宣10月底发布,今天官方发布视预热视频透露了新机的三大亮点轻、薄、AI。 这个预热很明显是在针对iPhone Air了,在同轻薄的设计下,联想moto X70 Air却拥有国内可以随意使用的AI,而苹果却已经画饼一年多,依然遥遥无期。 联想moto X70 Air大概率是保留了实体SIM卡结构,不会存在无法上市的问题,可能最终还会比iPhone Air提前到手。 综合多方面消息来看,联

  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

  • 联想moto X70 Air上架!5.3mm握持厚度 比iPhone Air还薄

    联想moto X70 Air将于10月31日发布,已上架官网。提供凌灰、青巧、韵绿三色,12GB+256GB/512GB存储。机身采用航空铝薄刃设计,重159g,厚度仅5.3mm,比iPhone Air更薄。配备6.7英寸护眼直屏,分辨率2712*1220,最高亮度4500nits,通过SGS蓝光低拖影和Pantone专业色彩认证。搭载第四代骁龙7芯片,后置5000万像素三摄防抖主摄+5000万前摄,内置4800mAh电池,支持68W快充和15W无线充电。拥有IP68/IP69级防尘防水、湿手触控2.0及系统级AI智能体。

  • 特斯拉V14终于来了!整合Robotaxi技术 马斯克:FSD有了意识

    以下是FSD 14的主要功能更新 1、新增到达选项(Arrival Options):驾驶者可选择目的地停车类型,包括停车场、街边、车道、停车库或路边停靠。 2、系统可识别警车、消防车、救护车等紧急车辆并自动避让或靠边停车。 3、实现对封路与临时绕行的实时处理。 4、增加自定义速度档位”以调整驾驶风格。新增SLOTH”模式,以更低车

  • 荣耀亲选KUMI AI Note发布:支持AI通话录音智能转换 699元

    荣耀发布KUMI AI Note智能记事本,售价699元。产品采用磁吸卡片设计,厚度仅2.89mm,重量30g,便于携带。具备五大AI功能:语音转逻辑图、133种语言翻译、断句排版、人物识别及信息整理,转写准确率98%。内置高品质电池,支持24小时连续录音,配备Wi-Fi快传技术(5小时录音30秒传完)。适合会议记录、内容创作等场景,是便携的AI办公助手。

  • 携手Josh Rowledge登上季军奖台,WeTrade 8号赛车闪耀新加坡赛道

    亚洲保时捷卡雷拉杯重返新加坡滨海湾街道赛道,年轻车手Josh Rowledge驾驶WeTrade 8号赛车凭借稳定果敢表现登上领奖台,并以优异积分摘得2025年Street Cup年度季军。文章强调赛车与金融交易的核心共性:精准判断、稳健执行与持续突破。WeTrade通过赛事赞助传递"专业、稳健、精进"的品牌精神,展现速度与纪律的完美平衡,助力每位交易者在属于自身的赛道上赢得更稳更远。

  • 重磅预告:全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

    灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析,覆盖数据获取、建模到可视化全流程。用户可用自然语言交互,系统自主规划任务并输出可维护结果,支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手,旨在降低分析门槛,助力企业高效挖掘数据价值,适用于数据分析师、营销人员等各类用户。

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

  • 云智汇科技与TeamViewer达成IT+OT战略合作, 共筑全球智能工厂新生态

    云智汇科技与德国远程连接领军企业TeamViewer达成生态合作,双方聚焦IT与OT深度融合,通过技术协同为全球制造业提供端到端智能工厂解决方案。合作将整合云智汇在智能制造领域的全场景服务能力与TeamViewer的跨平台远程控制、AI预测性维护及AR协作技术,联合开发设备数据实时采集、AR远程专家指导、全球化本地部署三大核心能力,旨在破解制造业数据孤岛痛点,助力客户提升生产效率30%以上。目前已在汽车零部件、电子制造等行业试点,未来三年计划将合作成果推广至东南亚等新兴市场。

  • Checkout.com正式推出Flow Remember Me: 一键支付,全球通用

    Checkout.com推出嵌入式支付产品Flow的"记住我"功能,消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示,该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络,并与Visa、Mastercard和Google达成AI智能体合作,助力商户在数字支付领域保持领先地位。

今日大家都在搜的词: