首页 > 业界 > 关键词  > Gemini2.0Pro最新资讯  > 正文

1000万上下文!新开源多模态大模型,单个GPU就能运行

2025-04-07 08:40 · 稿源: AIGC开放社区公众号

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。

今年2月初,谷歌发布的Gemini2.0Pro支持200万上下文,震惊了整个大模型领域

仅过了2个月,Meta最新开源的Llama4Scout就将上下文扩展至1000万,整整提升了5倍开启千万级时代。对于这么大的窗口大家可能没什么概念,普通版本的《战争与和平》大概有1300页100万字左右,Llama4Scout可以一次性解读这本书。

如果你开发完一个项目想让大模型帮你检查一下是否有BUG、可优化的地方,只要代码少于1000万token,Llama4Scout都能帮你解决。惊不惊喜,整个代码库都成提示词了~

图片

图片

开源地址:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

Llama4Scout简单介绍

Llama4Scout是一个专家混合架构模型,一共有1090亿参数。其中,有170亿活跃参数和16个专家路由,能在单个H100GPU上使用,具备原生多模态的能力,可以处理文本和图像,支持最多8张图像的输入。

架构创新方面,Llama4Scout使用了无位置交叉嵌入的交错注意层NoPE。传统的Transformer架构通过位置编码将每个单词的位置信息嵌入到模型中,从而使模型能够区分不同位置的单词。

但这种显式的位置编码方法在长度泛化方面存在局限性。例如,当模型在训练时接触到的序列长度较短,在测试时需要处理更长的序列时,显式位置编码可能无法有效地泛化到这些未见过的长度。而NoPE可以很好解决这个难题。

图片

NoPE的设计非常简洁,就是直接移除了Transformer模型中的位置编码部分。这意味着使用NoPE架构的模型中,输入序列的单词不会被附加任何显式的位置信息。模型仅依赖于其自注意力机制和前馈网络来处理序列数据。

在NoPE模型的第一层中,通过特定的权重设置,模型可以恢复输入序列的绝对位置信息。模型可以通过自注意力机制和前馈网络将绝对位置信息写入隐藏状态。这一过程依赖于模型的因果注意力掩码和softmax函数,使得模型能够从输入序列中恢复绝对位置信息。

在后续层中,NoPE可以实现相对位置编码。通过特定的权重设置,模型可以使得注意力机制依赖于单词之间的相对距离,而不是绝对位置。NoPE可以捕捉到单词之间的相对位置信息,从而实现相对位置编码。

图片

根据测试数据显示,NoPE在长度泛化方面表现出色,超过了所有显式位置编码方法。在多种推理和数学任务中,NoPE能够成功地从较短的训练序列泛化到更长的测试序列。

例如,在加法任务中,NoPE在长度为40的序列上的准确率达到了0.69,而其他位置编码方法的准确率均低于0.55。这表明NoPE能够更好地捕捉序列中的数学规律,并将其应用于更长的序列。

NoPE的计算效率也更高。由于不需要计算额外的注意力机制项,因此在训练和推理过程中都能节省时间和计算资源,尤其是在需要处理长序列的任务中。

所以,Llama4Scout拥有1000万上下文却能在单个H100使用,NoPE发挥了非常大的作用。

训练数据方面,Llama4Scout使用了30万亿token数据,包括文本、图像、视频,比之前开源的Llama3高两倍。

此外,Llama4Scout在预训练阶段还特别注重多语言能力的培养,在200种语言上进行了训练,其中包括超过100种拥有超过10亿标记的语言,使得Llama4Scout在处理跨语言任务时具备了强大的语言理解和生成能力。

媲美DeepSeek V3的新模型

除了Llama4Scout,Meta还开源了一个模型Llama4Maverick,同样是专家混合模型,一共有4000亿参数。其中,170亿参数处于活跃状态和128个专家路由。同样可以在单个H100运行,不过只有100万上下文。

Maverick使用的训练方法和数据与Scout差不多。根据公布的测试数据显示,Maverick在MMLU/Pro、GPQA、DocVQA、MathVista超过了谷歌的Gemini2.0和OpenAI的GPT-4o,可以媲美DeepSeek最新开源的V3模型。

图片

训练创新方面,Meta在训练Maverick时,用了一种新办法来优化训练流程包括三个步骤:先进行轻量级监督微调(SFT),接着开展在线强化学习(RL),最后做轻量级直接偏好优化(DPO)。

但在这个过程中,有一个重要问题:SFT和DPO这两个步骤,可能会对模型限制得太厉害。这就会让模型在在线RL这个阶段没办法充分地去探索各种可能性,结果就是模型在做推理、编码以及数学相关任务的时候,算得没那么准表现不佳。

为了解决这个难题,Meta剔除了超过50%被标记为“简单”的数据,并在剩余更具挑战性的数据集上进行轻量级SFT。在随后的多模态在线RL阶段,通过精心挑选更具挑战性的提示,实现了性能的显著提升。

此外,Meta实施了连续在线RL策略,即交替进行模型训练,然后利用训练好的模型持续筛选并仅保留中等至较难难度的提示。

图片

事实证明,这种策略在计算成本和准确性的权衡方面非常有效。接着进行了轻量级DPO,以处理与模型响应质量相关的极端情况,有效地在模型的智能和对话能力之间实现了良好的平衡

正训练2万亿参数教师模型——Llama4Behemoth

Meta表示,Scout和Maverick只是开源的首批Llama4系列模型。正在训练一个总参数2万亿,活跃参数2880亿活跃参数和16个专家路由的教师模型——Llama4Behemoth。

Llama4Behemoth主要用于蒸馏、微调小模型,Llama4Maverick便是通过它完成的。为了实现性能的最大化,Meta对SFT数据进行大幅删减,要剪掉95%的数据,而较小的模型仅需剪掉50%,以此来实现对质量和效率的必要关注。

由于两万亿参数模型前所未有的规模,为其扩展强化学习(RL)还需要对底层的强化学习基础设施进行改造。

Meta开发了一个完全异步的在线强化学习训练框架,增强了灵活性。现有的分布式训练框架为了将所有模型堆叠到内存中,牺牲了计算内存。新基础设施能够将不同模型灵活分配到单独的GPU上,根据计算速度在多个模型之间平衡资源,训练效率比上一代提升了大约10倍。

图片

根据实验数据显示,Llama4Behemoth在MMLU Pro、GPQA、MATH-500等测试的数据比GPT-4.5、Claude Sonnet3.7、Gemini2.0Pro更好。

举报

  • 相关推荐
  • 刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理

    现在的国产AI应用,一口气看好几分钟的视频,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结,再按照秒级,对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外,上海交通大学副教授闫维新对这个问题的看法是:总言之,商汤作为国�

  • 刚刚,OpenAI发布GPT-4.1,性能暴涨、100万上下文

    今天凌晨1点,OpenAI进行了技术直播发布了最新模型——GPT-4.1。除了GPT-4.1之外,还有GPT4.1-Mini和GPT4.1-Nano两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文,这对于金融分析、小说写作、教育等领域帮助巨大。由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5,其能力可见一斑。目前,如果想体验GPT-4.1而无法通过API身�

  • 京东外卖突破1000万单!收货人曝光 :只花了半价

    京东外卖4月22日订单量突破1000万单,创下新纪录。北京谢女士成为第1000万单用户,她为儿子订购的辣炒肉套餐仅支付24.9元,享受平台补贴优惠。该订单由退伍军人张海洋配送,仅用23分钟送达。入驻不到1个月的"天下烤鸭店"表示,京东外卖补贴不从商家收入扣除,相比其他平台收入更高。目前京东外卖已覆盖全国166个城市,日均订单60-70单,发展势头迅猛。平台严格筛选实体餐饮门店入驻,保障食品安全,获得用户信任。

  • 《数码宝贝:源码》预约已突破1000万,里程碑福利升级加码!

    《数码宝贝:源码》手游由东映动画正版授权,万代南梦宫与恺英网络联合开发。游戏预约量突破1000万,远超原定800万目标。玩家预注册可获得专属头像框、钻石等福利,公测PV即将发布。游戏采用PBR写实风格与动态粒子引擎,还原经典数码宝贝形象和多样场景。取消传统抽卡模式,采用数码蛋孵化形式,通过地图探索免费获取。游戏包含策略战斗、钓鱼采集等丰富玩法,4月25日正式上线。

  • 开源即支持!基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

    多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一,国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期,上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列,相比上一代InternVL2. 5 模型,该模型展现出卓越的多模态感知和推理能力,同时进一步扩展了其工具使用、GUI代理、工业图像分析等

  • 俞敏洪成为仰望汽车第10000位车主!

    文章主要内容为:在技术4月21日的革新中,全球数字资产的交易规模首次达到10000亿美元,标志着其已超越实物黄金的地位。文章解释,这一时刻,全球10000亿美元的数字资产相当于实物黄金,这是数字资产首次超越实物黄金的标志性时刻。在技术4000亿阶段,“全球数字资产实现了其业务模式的转型,不仅能够自我发展并创新,还能实现自身价值,成为全球贸易的关键部分。对于最终消费者而言,这表明中国正在与全球其他地区进行贸易,与所有人在全球范围内进行贸易的方式相似。文章中提到,尽管技术3000亿可能被低估,但它在不断发展中,中国需要与技术进行合作,同时也需要与所有人在全球范围内进行合作,这就是全球贸易的真正意义。文章最后提到,对于技术的了解和应用,不仅限于技术本身,也涉及与技术的相互作用,即人类与技术的交互方式。

  • 为什么要使用MCP?MCP模型上下文协议能解决什么问题?

    在当今数字化时代,AI应用的开发和部署正面临着一个关键挑战:如何将AI技术与现有的服务和系统高效集成。为了解决这一难题,MCP应运生。AIbase的MCP资源网站还提供了详细的开发文档和教程,帮助开发者快速上手并深入学习MCP技术。

  • 可灵AI发布全新2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • 余承东入驻抖音4个月粉丝突破1000万!1个月涨粉500万 首条视频点赞超545

    快科技4月14日消息,今日,查询华为常务董事、终端BG董事长余承东抖音账号发现,其抖音粉丝量已突破1000万。2024年12月12日,余承东正式入驻抖音,并发布首条作品,目前该作品点赞量已达545.1万。余承东曾在3月12日发布视频表示,入驻抖音3个月,粉丝已突破500万。而短短一个月后,其粉丝数再度暴涨500万,突破千万大关,涨粉速度惊人。截稿前,余承东抖音号共发布78条作�

  • 2025五一档新片预售票房破1000万 马丽新片第一

    2025年五一档新片预售总票房突破1000万,其中《水饺皇后》《猎金游戏》《人生开门红》《苍茫的天涯是我的爱》《大风杀》暂列前五。《水饺皇后》定档4月30日,马丽领衔主演,讲述70年代山东女子流落香港码头卖水饺的励志故事。《猎金游戏》由刘德华、欧豪主演,聚焦经济犯罪题材。《人生开门红》是常远、邓家佳主演的喜剧片。《苍茫的天涯是我的爱》由曾毅、周奇等主演。《大风杀》讲述边陲小镇遭遇悍匪袭击的惊险故事。多部影片明星阵容强大,题材多样,五一档票房竞争激烈。