谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

2025-07-17 13:55 · 来源： AIbase基地

在人工智能领域，大型语言模型（LLM）因其出色的表现而受到广泛关注，但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战，谷歌 DeepMind 最近推出了一种新架构 ——Mixture-of-Recursions(MoR)，该架构被认为有潜力成为传统 Transformer 模型的 “杀手”。

MoR 架构在递归 Transformer 的基础上进行了创新，旨在同时实现参数共享和自适应计算。通过将动态的 token 级路由集成到高效的递归 Transformer 中，MoR 能够在不增加模型成本的情况下，提供与大型模型相媲美的性能。该模型通过轻量级路由系统，为每个 token 分配专属的递归深度，动态决定每个 token 所需的 “思考” 层数。这种方法能够有效分配计算资源，提升处理效率。

在具体实现上，MoR 采用了一种先进的缓存机制，该机制能够根据 token 的递归深度选择性地缓存和检索相关的键值对。这一创新显著降低了内存带宽压力，提高了推理吞吐量。同时，MoR 还通过参数共享、计算路由和递归级缓存等多项优化措施，显著减少了参数量，降低了计算开销。

在实验中，MoR 在相同计算预算下以更少的参数数量超越了原始 Transformer 和递归 Transformer，验证了其优越的性能。通过与基线模型进行对比，MoR 在少样本学习的平均准确率上也取得了更好的成绩，尽管其参数量减少近50%。这一成功归因于其高效的计算策略，使得 MoR 能够处理更多的训练 token。

此外，研究人员还发现，MoR 在不同计算预算下始终优于递归基线模型，尤其在模型规模超过360M 时，MoR 不仅能够追平原始 Transformer，还能在低至中等预算下常常超越对手。因此，MoR 被视为一种可扩展且高效的替代方案，适合用于大规模的预训练和部署。

随着 AI 技术的不断发展，MoR 架构的推出为大型语言模型的高效化提供了新的解决方案，预示着 AI 研究领域的新突破。

论文链接:alphaxiv.org/abs/2507.10524

划重点:
🌟 MoR 架构通过动态分配计算资源和缓存机制，有效提高大型语言模型的效率。
📉 在相同计算预算下，MoR 以更少参数超越传统 Transformer，性能更优。
🚀 MoR 被视为 AI 研究中的新突破，适合大规模预训练与部署。

相关推荐

Nano Banana更像是AI图像领域的DeepSeek

这是《窄播Weekly》的第66期，本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana，可能会给AI图像领域带来一场应用大爆炸。去年这个时候，我想把照片中人物手里拿的玩具火车换成玩具飞机，还需要给玩具火车做出精细标记，找到干净的玩具飞机图片，告诉AI将其替换成另一张图里的飞机。我花费一个小时，多番尝试下来，飞机会变形，人物的手会消失，最后的�

AI图像生成 Nano Banana
DeepSeek：已对AI生成合成内容添加标识用户不得恶意删除

今天下午，DeepSeek发布了《关于AI生成合成内容标识的公告》。公告中称，Deepseek始终高度重视AI的安全问题，已在平台内对AI生成合成内容添加标识，并明确提醒用户相关内容由AI生成。此举为贯彻落实《人工智能生成合成内容标识办法》（2025年9月1日起施行）及《网络安全技术人工智能生成合成内容标识方法》等国家标准的相关要求，防止AI生成内容可能引发的公众混淆、�

AI生成内容 DeepSeek公告合成内容标识
李斌：蔚来品牌明年会推出两款大型SUV 分别为ES9和ES7

蔚来汽车今日公布了二季度财报。蔚来公司二季度交付72,056台，同比增长25.6%，环比增长71.2%。二季度营收190.1亿元，同比增长9.0%，环比增长57.9%。在财报后的电话会议上，李斌表示，蔚来品牌明年会推出两款大SUV，一款是ES9，一款是大五座 SUV ES7。加上乐道L80，公司明年会有三款新的大SUV车型交付。今年不会有新的产品发布，原本计划发布乐道L80，因为产能问题，改到明年

蔚来财报二季度交付营收增长
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
如何快速筛选实用AI工具？这个导航站用精选+直达提升效率

AI工具推荐平台AIBase.cn致力于解决用户在海量AI应用中高效筛选的痛点。通过人工精选、分类清晰、信息透明三大核心优势，提供经过验证的主流工具，覆盖ChatGPT、Midjourney等成熟产品。平台突出核心功能对比、收费情况、语言支持等关键信息，实现一键直达官网，帮助用户快速匹配需求，告别无效搜索，提升生产力。

AI工具推荐高效筛选信息透明
BeauEver革新护肤流程，水油双相方案提升养护效率

新西兰高端护肤品牌BeauEver推出两款双相油敷水，以92:8精准水油配比实现保湿与修护合一。产品通过摇匀即可快速融合水油相，5-10分钟完成高效护理，突破传统繁琐步骤。引力塑颜款侧重紧致亮肤，安肤愈颜款专注舒缓修护，针对不同肌肤需求提供分区护理可能。该系列从实际使用场景出发，解决现代人对高效多效合一的护肤诉求，为追求理性护肤的消费者提供新选择。

护肤品成分肤感
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5
荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布，大幅增强长文档分析和代码理解能力；企业微信5.0集成智能搜索、总结和机器人功能；快手Klear-Reasoner模型数学推理准确率超90%；谷歌Docs新增AI语音朗读功能；Firecrawl完成1450万美元融资并推出V2版本API；Meta上线AI语音翻译功能；微软Excel集成Copilot实现一键数据分析；Claude桌面客户端推动AI编程可视化；苹果Xcode将原生集成Cl

AI DeepSeek V3.1

今日大家都在搜的词：

热文

3 天
7天

谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

Nano Banana更像是AI图像领域的DeepSeek

DeepSeek：已对AI生成合成内容添加标识用户不得恶意删除

李斌：蔚来品牌明年会推出两款大型SUV 分别为ES9和ES7

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

如何快速筛选实用AI工具？这个导航站用精选+直达提升效率

BeauEver革新护肤流程，水油双相方案提升养护效率

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

今日大家都在搜的词：

热文

雷军第90次健身房打卡距离健身目标仅剩10次

魅族22官宣9月15日发布：外观、配置公布

预售16.98万起！尚界H5 小订量破 8 万

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

抖音打击 AI 仿冒于东来内容封禁 1000 多个黑灰产团伙账号

小米自带线充电宝20000 67W开售：售价179元

高通骁龙峰会定档9月24日：将发布骁龙8 Elite Gen5

真我15 Pro外观公布将于9月16日正式发布

小红书语音评论更新：可识别音色了支持甜嗓、气泡音、元气音等

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

雷军第90次健身房打卡距离健身目标仅剩10次

全新问界M7开售1小时订单破10万售价28.8万元起

站长商机

​谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

今日大家都在搜的词：

热文

站长商机

谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率