首页 > 业界 > 关键词  > Nemotron-4最新资讯  > 正文

英伟达发布Nemotron-4 15B: 8 万亿训练数据,性能超LLaMA-2

2024-03-07 08:48 · 稿源:站长之家

**划重点:**

1. 🌐 Nemotron-415B拥有150亿参数,基于8万亿文本标注数据预训练,在多领域测试中超越同类大小的开源模型,尤其在代码语言准确率上表现出色。

2. 🧠采用标准Transformer架构,结合自注意力、全局注意力和多头注意力等机制,以及旋转位置编码技术,提升模型表达和泛化能力。

3. 🌐 利用384个DGX H100节点,每节点搭载8个NVIDIA Hopper架构的H10080GB SXM5GPU,采用8路张量并行和数据并行的组合,以及分布式优化器进行分片。

站长之家(ChinaZ.com)3月7日 消息:英伟达最新推出的大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。

在多领域测试中,Nemotron-415B在7个领域中的4个表现优异,超越了同类大小的开源模型。特别值得注意的是,在代码语言方面,Nemotron-415B展现出更高的准确率,尤其在资源稀缺的编程语言上超过了Starcoder和Mistral7B等模型。

该模型采用了标准的Transformer架构,包括多头自注意力机制和前馈神经网络。其独特之处在于,Nemotron-415B结合了自注意力和全局注意力机制,以更好地理解输入序列内部的依赖关系和输入序列与输出序列之间的对应关系。多头注意力的引入进一步提高了模型的表达能力和泛化能力。

在训练过程中,研究人员充分利用了384个DGX H100节点,每个节点搭载8个基于NVIDIA Hopper架构的H10080GB SXM5GPU。通过8路张量并行和数据并行的组合,以及分布式优化器进行分片,成功完成了Nemotron-415B的训练。

Nemotron-415B在英语、数学推理、多语言分类和代码等多个测试任务中表现出色,不仅在性能上超越了LLaMA-234B和Mistral7B,在广泛的代码语言中也取得了更高的准确率。这一成就为大型语言模型的发展和应用提供了崭新的视角。

image.png

技术报告https://arxiv.org/abs/2402.16819

举报

  • 相关推荐
  • 这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

    在最近关于「ScalingLaw是否撞墙」的讨论中,后训练被寄予厚望。近期发布的OpenAIo1在数学、代码、长程规划等问题上取得了显著提升背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。最后必须说明,长达73页的Tülu3技术报告中还包含大量本文并未提及的细节,感兴趣的读者千万不要错过。

  • 英伟达Blackwell 芯片因过热问题延迟出货,或影响科技巨头客户部署

    Nvidia推出的新一代BlackwellAI芯片因配套服务器过热问题导致交付延迟。这一问题已引发客户对数据中心部署时间不足的担忧。这项技术旨在优化如聊天机器人响应等任务的效率,但当前的散热问题可能成为其全面落地的阻碍。

  • 英伟达在华涉反垄断突遭调查!中国是英伟达Q3主要收入来源

    日前,国家市场监管总局发布公告,因英伟达公司涉嫌违反《中华人民共和国反垄断法》及《市场监管总局关于附加限制性条件批准英伟达公司收购迈络思科技有限公司股权案反垄断审查决定的公告》,市场监管总局依法对英伟达公司开展立案调查。此次反垄断事件涉英伟达2020年完成的对以色列网络设备商迈络思的收购,该笔收购作价69亿美元,为英伟达史上最大一笔收购。英伟达的芯片中有大量零部件产自中国,这与全球汽车供应链的复杂性道理相通。

  • 黄仁勋「极致」地使用 NotebookLM,AI 如何推动英伟达业绩增长?

    站长之家11月23日消息:英伟达是人工智能训练领域的芯片巨头,其在上季度的系统销售额达到了310亿美元,这一数据于周三晚间发布。作为英伟达的联合创始人和首席执行官,黄仁勋也是当下所有AI相关技术的首席倡导者。供应链团队正与合作伙伴紧密合作提升Blackwell的产量,我们明年将继续努力提高供应,以满足市场对AI技术的快速增长需求。

  • 英伟达核弹来了!RTX 5090售价再次曝光:想买准备2万预算

    对于那些打算入手RTX5090的用户,至少要准备2万左右的预算,因为它注定不便宜。按照一些NV零售商流传出的消息,RTX5090的价格区间可能为1899至1999美元,其最快开卖时间预计在2月初左右。RTX5090将搭配32GBGDDR7显存,速率28Gbps,位宽512-bit,带宽1792GB/s,TBP600W,相比上一代RTX4090提升了150W之多。

  • 英伟达展示AI模型Fugatto:可修改并生成新声音

    据报道,英伟达展示了一种用于生成音乐和音频的新型人工智能模型Fugatto,它可以修改声音并生成新的声音。Fugatto的独特魅力在于其超越传统的人工智能界限,不仅能够接收并分析现有音频素材能对其进行灵活修改。行业内的其他巨头如OpenAI与Meta,对于何时会推出能够生成音频或视频的先进模型,同样保持着神秘的态度,尚未透露具体的时间表。

  • 亚马逊联合英伟达举办AI路演大赛,AI新星PromptBio入围6强

    由亚马逊云服务和英伟达联合举办的AI路演大赛在亚马逊奥斯汀总部圆满落幕。此次竞赛旨在吸引北美地区快速发展的AI初创公司,为它们提供一个向人工智能行业及风险投资人展示AI前沿技术应用的平台。公司致力于将前沿人工智能和多组学技术应用于生物数据分析,为生命科学用户、药企和医疗机构提供专业全面的解决方案,推动医学和生物科学的前沿发展。

  • 英特尔错失AI芯片浪潮,从放弃收购英伟达开始

    【新智元导读】几十年来,英特尔一直是硅谷占主导地位的芯片厂家。但错失大好时机,加上糟糕的执行力,让这家公司在科技行业如火如荼的AI淘金热中被迫退居观望状态。考虑到面临的其他挑战,我们不会很快参与竞争。

  • 黄仁勋对话孙正义:后悔没买下英伟达所有股票

    在 2024 年日本AI峰会上,NVIDIA公司创始人兼CEO黄仁勋与软银集团董事长兼CEO孙正义进行了一场深入的对话。黄仁勋在谈话中对孙正义的商业洞察力和创新精神表示了高度赞扬,认为孙正义能够准确识别并支持时代的胜出者。黄仁勋提到,孙正义曾是NVIDIA的重要股东,持有公司近5%的股权,但在五年前以不到 40 亿美元的价格出售了所有股份。如果孙正义能保留这些股份至今,其价

  • 英伟达2025财年第三财季营收350.8亿美元:同比大增94%

    美东时间周三盘后,人工智能龙头股英伟达公布了2025财年第三财季财报。英伟达Q3营收为350.8亿美元,同比大增94%,超出分析师预期的331亿美元;在GAAP规则下,净利润为193.09亿美元,同比增长109%,也高于市场预期的174亿美元;经调整后的每股收益为0.81美元,高于市场预期的0.74美元。英伟达在数据中心芯片领域是霸主,客户优质,毛利率高达惊人的60%,这些铸就了英伟达强大的竞争力,并推动公司收入飞速增长,公司营收从2023年11月被纳入ProPicks策略时的440亿美元,跃升至2024年晚些时候的960亿美元。