首页 > AI头条  > 正文

​谷歌 DeepMind 推出 MoR 架构:有望大幅提升大型语言模型的效率

2025-07-17 13:55 · 来源: AIbase基地

在人工智能领域,大型语言模型(LLM)因其出色的表现而受到广泛关注,但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战,谷歌 DeepMind 最近推出了一种新架构 ——Mixture-of-Recursions(MoR),该架构被认为有潜力成为传统 Transformer 模型的 “杀手”。

image.png

MoR 架构在递归 Transformer 的基础上进行了创新,旨在同时实现参数共享和自适应计算。通过将动态的 token 级路由集成到高效的递归 Transformer 中,MoR 能够在不增加模型成本的情况下,提供与大型模型相媲美的性能。该模型通过轻量级路由系统,为每个 token 分配专属的递归深度,动态决定每个 token 所需的 “思考” 层数。这种方法能够有效分配计算资源,提升处理效率。

在具体实现上,MoR 采用了一种先进的缓存机制,该机制能够根据 token 的递归深度选择性地缓存和检索相关的键值对。这一创新显著降低了内存带宽压力,提高了推理吞吐量。同时,MoR 还通过参数共享、计算路由和递归级缓存等多项优化措施,显著减少了参数量,降低了计算开销。

在实验中,MoR 在相同计算预算下以更少的参数数量超越了原始 Transformer 和递归 Transformer,验证了其优越的性能。通过与基线模型进行对比,MoR 在少样本学习的平均准确率上也取得了更好的成绩,尽管其参数量减少近50%。这一成功归因于其高效的计算策略,使得 MoR 能够处理更多的训练 token。

此外,研究人员还发现,MoR 在不同计算预算下始终优于递归基线模型,尤其在模型规模超过360M 时,MoR 不仅能够追平原始 Transformer,还能在低至中等预算下常常超越对手。因此,MoR 被视为一种可扩展且高效的替代方案,适合用于大规模的预训练和部署。

随着 AI 技术的不断发展,MoR 架构的推出为大型语言模型的高效化提供了新的解决方案,预示着 AI 研究领域的新突破。

  • 论文链接:alphaxiv.org/abs/2507.10524

划重点:  

🌟 MoR 架构通过动态分配计算资源和缓存机制,有效提高大型语言模型的效率。  

📉 在相同计算预算下,MoR 以更少参数超越传统 Transformer,性能更优。  

🚀 MoR 被视为 AI 研究中的新突破,适合大规模预训练与部署。

  • 相关推荐
  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • 李斌:蔚来品牌明年会推出两款大型SUV 分别为ES9和ES7

    蔚来汽车今日公布了二季度财报。 蔚来公司二季度交付72,056台,同比增长25.6%,环比增长71.2%。二季度营收190.1亿元,同比增长9.0%,环比增长57.9%。 在财报后的电话会议上,李斌表示,蔚来品牌明年会推出两款大SUV,一款是ES9,一款是大五座 SUV ES7。加上乐道L80,公司明年会有三款新的大SUV车型交付。 今年不会有新的产品发布,原本计划发布乐道L80,因为产能问题,改到明年

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 如何快速筛选实用AI工具?这个导航站用精选+直达提升效率

    AI工具推荐平台AIBase.cn致力于解决用户在海量AI应用中高效筛选的痛点。通过人工精选、分类清晰、信息透明三大核心优势,提供经过验证的主流工具,覆盖ChatGPT、Midjourney等成熟产品。平台突出核心功能对比、收费情况、语言支持等关键信息,实现一键直达官网,帮助用户快速匹配需求,告别无效搜索,提升生产力。

  • BeauEver革新护肤流程,水油双相方案提升养护效率

    新西兰高端护肤品牌BeauEver推出两款双相油敷水,以92:8精准水油配比实现保湿与修护合一。产品通过摇匀即可快速融合水油相,5-10分钟完成高效护理,突破传统繁琐步骤。引力塑颜款侧重紧致亮肤,安肤愈颜款专注舒缓修护,针对不同肌肤需求提供分区护理可能。该系列从实际使用场景出发,解决现代人对高效多效合一的护肤诉求,为追求理性护肤的消费者提供新选择。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

今日大家都在搜的词: