谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

2025-05-20 17:29 · 来源： AIbase基地

近期，谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作，开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调（RLFT）技术，旨在提升语言模型的决策能力。这项研究的重点在于，通过思维链的强化训练，解决了模型在决策过程中存在的一些关键问题。

Gemini，Google DeepMind，人工智能，AI

随着大数据的应用，现有的语言模型已经展现出处理文本的超越能力，甚至能够在交互环境中做出基于知识的决策。然而，这些模型在实际决策时却常常出现 “纸上谈兵” 的问题，虽然能推导出正确的策略，却无法有效地执行。此外，它们还倾向于选择短期内能够获得更高回报的选项，同时较小的模型常常因为频率偏见而重复常见的动作。

传统的强化学习方法，比如 UCB 算法，虽然可以在一定程度上平衡探索与利用，但仍然无法完全解决模型推理与行动之间的脱节问题。为此，DeepMind 团队创新性地引入了强化学习微调技术，利用模型自生成的思维链作为训练信号。系统将评估每个推理步骤所对应的行动奖励，促使模型优先选择逻辑自洽且有效的行动方案。

在实际实施过程中，模型根据输入指令及历史行动与奖励生成包含推理过程和动作的序列。通过蒙特卡洛基线评估和广义优势估计进行优化，若采取无效动作，则会触发惩罚机制。同时，奖励塑造技术的引入不仅保证了输出的规范性，还保留了探索的空间。

在实验中，研究团队测试了多臂老虎机模型。在10臂的测试中，2B 参数模型的动作覆盖率提升了12个百分点。在20臂的测试中，虽然改善幅度较小，但频次偏见率从70% 降至35%，显示出研究的有效性。井字棋的实验结果显示，模型与随机对手对战的胜率提升了5倍，对阵最优蒙特卡洛树搜索代理时的平均回报从 -0.95归零。此外，27B 大模型生成正确推理的概率达到了87%，而未微调时仅有21% 能够执行最优动作。这一系列的数据充分证明了强化学习微调在缩小推理与行动之间差距方面的有效性。

划重点:
📊 研究采用强化学习微调（RLFT）技术提升 AI 语言模型的决策能力。
🧩 通过自生成思维链进行训练，模型的逻辑推理和行动选择得到有效提升。
🏆 实验显示，模型在多臂老虎机及井字棋中均显著改善了表现，缩小了推理与执行之间的差距。

相关推荐

猿辅导AI技术赋能教育变革，多产品协同构建个性化学习新体系

猿辅导作为国内教育科技领军企业，通过自主研发AI大模型构建"硬件+软件+平台"全场景教育生态。其700亿参数大模型通过国家备案，获"可信AI"最高评级，覆盖课前、课中、课后全学习闭环。产品矩阵包含"小猿学练机"智能硬件、"海豚AI学"学习平台及"飞象星球"教育解决方案，实现批改效率提升100倍、启发式教学等突破。累计研发投入超百亿，服务200万学生，首创"教研+数据+算法"三元模式，重新定义智能教育行业标准，推动教育公平与个性化学习发展。

AI技术教育科技个性化学习
荐秘塔AI也终于悄悄上线了DeepResearch。

测试完以后，我觉得这玩意，还是值得我将近通宵写一篇的。深度研究，也就是DeepResearch。我过去写过很多次秘塔AI了，因为我自己的搜索习惯，现在基本就是，大活上ChatGPT用DeepResearch，常识问答直接找豆包，一般的AI搜索就是秘塔AI。当然很多ChatBot产品都有AI搜索，但是我自己这两年，还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了，这可能就是习惯的力量吧。

秘塔AI 深度研究 AI搜索
INDEMIND：停止堆功能，扫地机器人需要回归第一性原理

文章批评当前扫地机器人行业过度追求"花哨"功能而忽视核心清洁能力的问题。厂商为差异化竞争不断叠加视频通话、机械手等创新功能，却导致产品复杂化、故障率上升，用户体验未获实质提升。指出行业应回归本质，聚焦感知、规划、决策三大核心能力升级，解决避障不佳、覆盖率低等基础痛点。介绍INDEMIND公司通过立体视觉技术构建三维语义地图，实现厘米级障碍
REDMI Pad 2定位千元大平板王腾：老人看剧、小朋友学习都合适

今日，REDMI推出全新平板电脑REDMI Pad 2，目前已在小米商城、电商平台开启预约，将于8月1日正式开售。官方暂未公布新品价格，但根据REDMI品牌总经理王腾介绍，这是一款千元大平板，放在家里给老人看剧、小朋友学习都非常合适。作为参考，2022年发布的初代REDMI Pad起售价1299元（4GB 128GB），2024年发布的REDMI Pad Pro起售价1499元（6GB 128GB）。

REDMI Pad 2
荐AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔；谷歌发布Gemini 2.5 Flash-Lite 稳定版

本文介绍了AI领域多项重要进展：1)谷歌发布Gemini 2.5 Flash-Lite稳定版，平衡速度与成本；2)腾讯混元ASR语音大模型接入ima平台；3)阿里开源Qwen3-Coder编程大模型；4)360将推智能眼镜和AI录音笔；5)夸克健康大模型通过医师评测；6)零一万物发布企业级大模型平台；7)Hedra推出低成本AI视频代理；8)Gemini2.5革新图像理解能力；9)Meta推出创新文本处理模型AU-Nets；10)苹果AI团队或寻求第三方合

谷歌 Gemini 2.5
AI技术赋能教育革新，猿辅导引领个性化学习新浪潮

猿辅导作为中国在线教育领军企业，正通过AI大模型技术推动教育变革。其自主研发的"猿力大模型"与开源模型深度融合，打造出海豚AI学等智能产品，实现实时互动答疑、个性化学习建议等功能。2023年推出的"小猿学练机"智能硬件销量突破百万台。通过多模态AI算法，平台能动态调整学习计划，实现"千人千面"精准教学。猿辅导累计投入超百亿研发资金，构建了覆盖语音识别、自然语言处理等核心技术体系，并获中国信通院"可信AI"5级认证。其探索不仅推动商业成功，更致力于通过技术降低教育门槛，促进教育公平发展。
荐高决策行业，找到了最后一片种草蓝海

35岁的互联网公司中层苏越最近萌生了换车的想法。工作间歇之余，他打开今日头条，认真翻阅起了自己关注的汽车博主@韩路聊车发布的内容。在一条条图文、视频的专业测评和各项核心数据的细致讲解，以及评论区中车主的真实反馈和热情互动中，他的思路逐渐清晰，并最终做出决策，完成了这桩30万+的购车事宜。

汽车购买汽车测评今日头条
李想：很多人让我学习雷军考虑也开个视频号

如今不少汽车高管纷纷开通短视频账号，走向台前与用户交流互动，理想汽车创始人李想也要加入了。今天，随着理想i8媒体动态品鉴内容的陆续释放，李想透露，已收到公司内外诸多建议，希望他能学习雷军走到台前，通过视频账号与用户面对面”交流，目前正在认真考虑这一建议。据了解，目前蔚来汽车的李斌和小鹏汽车的何小鹏均已开通个人抖音号。

汽车高管短视频账号用户互动
OPPO K13 Turbo系列卖爆：首销激活量较上代提升380%

OPPO宣布，OPPO K13 Turbo系列首销单日激活量较上代提升380%，全新K系列创新的疾风散热引擎带来越级性能，比普通手机更可靠的满级防水抗摔广受认可。该系列包含K13 Turbo和K13 Turbo Pro两款机型，起售价是1799元（12G 256G），支持国补。该机是千元档唯一一款配备主动散热系统的手机，K13 Turbo系列首发搭载史上最强手机风冷散热技术OPPO疾风散热引擎，该机创新性打造了L型风道，�

OPPO K13 Turbo
荐AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜索API上线；Lovart AI正式版全球发布

AI日报栏目报道了多项AI领域最新进展：1)字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0，实现中英高质量实时翻译；2)秘塔搜索API上线，提供低价多模态搜索服务；3)Lovart AI正式版发布，作为首个AI设计Agent重塑创作流程；4)李沐团队推出Higgs Audio v2语音合成模型，融合千万小时训练数据；5)OpenAI开发Sora2视频生成模型，与谷歌Veo3展开竞争；6)OpenAI与Oracle合作扩展Stargate项目，�

人工智能同声传译字节跳动

今日大家都在搜的词：

热文

3 天
7天

谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

猿辅导AI技术赋能教育变革，多产品协同构建个性化学习新体系

荐秘塔AI也终于悄悄上线了DeepResearch。

INDEMIND：停止堆功能，扫地机器人需要回归第一性原理

REDMI Pad 2定位千元大平板王腾：老人看剧、小朋友学习都合适

荐AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔；谷歌发布Gemini 2.5 Flash-Lite 稳定版

AI技术赋能教育革新，猿辅导引领个性化学习新浪潮

荐高决策行业，找到了最后一片种草蓝海

李想：很多人让我学习雷军考虑也开个视频号

OPPO K13 Turbo系列卖爆：首销激活量较上代提升380%

荐AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜索API上线；Lovart AI正式版全球发布

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜

全球第一网红野兽先生计划中国行比甲亢哥更火

AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜

站长商机

​谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

今日大家都在搜的词：

热文

站长商机

谷歌 DeepMind 通过强化学习微调提升 AI 决策能力