首页 > AI头条  > 正文

谷歌DeepMind:大模型明知到最优解,但还是故意绕了一圈

2025-05-06 10:24 · 来源: AIbase基地

现在的大模型(LLMs)已经非常智能。写文章、编代码、当医生、当老师,样样精通。于是乎,有人就想了:既然它们这么聪明,能不能让它们自己做决定,当个“智能体”呢?比如,在复杂的环境里自己探索、自己解决问题。

毕竟,大家觉得LLMs肚子里有“世界知识”,不需要手把手教也能猜到怎么干。而且,它们还有“思维链”(Chain-of-Thought,CoT)这种“聪明脑回路”,能一步一步推理,更好地理解环境和自己的行为。听起来是不是很完美?

image.png

结果呢?啪!打脸了。研究人员发现,这些LLM智能体在需要做决策的时候,表现那叫一个“次”。它们不够“好奇”,探索得不好,老是选不到最佳策略。更尴尬的是,它们居然存在一个“知行合一”的大问题。

AI的“知行不一”:我知道该减肥,但我就是做不到!

论文里把这个“知行不一”的问题,叫做**“Knowing-Doing Gap”(知-行差距)**。形象地说,就是LLMs“知道”怎么做是对的,甚至能把正确的“思路”(CoT)给你写得明明白白,告诉你这么做会有啥后果。但到了真正“做”的时候,它们却偏偏不按“知道”的来,选择了别的行动。

image.png

这简直就像我们自己:明知道熬夜不好,还是刷手机刷到凌晨;明知道健康饮食要多吃蔬菜,手却伸向了炸鸡。AI,你是不是在我家装了摄像头?!

论文里的数据显示,在某些任务中,LLM智能体生成正确“思考过程”(Rationale)的比例高达87%。也就是说,它们脑子里门儿清!但即使“知道”正确答案,它们实际执行的行动里,只有21%是真正“最优”的,而高达58%是“贪婪”行动。这“知道”和“做”之间的巨大鸿沟,简直让人哭笑不得。

AI的另外两个“小毛病”:贪婪和跟风!

除了“知行不一”,论文还系统研究了LLMs在决策时的另外两个普遍“失败模式”:

1.Greediness(贪婪): 这个最好理解了。LLM智能体就像个尝鲜者,试了几个选项后,如果发现其中一个给了点甜头(高回报),它就会超级偏爱这个选项。即使还有好多没试过的选项,即使那个“甜头”可能不是真正的最佳选择,它也倾向于反复选择已经“见过”并且感觉不错的那个。这导致它们不愿意去探索未知,行动空间覆盖率非常低。想象一下,一家餐厅只吃最开始那道菜,可能错过了招牌硬菜啊! 即使是更大的模型或者用了CoT,“贪婪”这个问题依然明显。这是因为它们对看到有回报的行动,会赋予过高的执行概率。

2.Frequency Bias(频率偏差): 这个更奇葩。小一点的LLMs(比如2B规模的)特别容易“跟风”。如果输入的历史信息里,某个行动被重复了很多次(哪怕它给的回报很低),模型就倾向于跟着选择这个行动。这就像鹦鹉学舌,或者被洗脑了一样,看到重复得多的就觉得是对的。论文发现,2B模型在这个问题上栽得很惨,越重复某个行动,它就越确信那是对的。而大一些的模型(比如27B)就好多了,基本克服了“跟风”,但还是逃不过“贪婪”的手掌心。研究人员猜测,这个“跟风”可能是在海量数据上进行“有监督预训练”留下的“后遗症”——毕竟,预训练时就是学着重复数据里的模式嘛。

给AI大佬们“治病”:强化学习微调 (RLFT) 大法!

面对这些“疑难杂症”,论文作者们提出了一种“治疗方案”:Reinforcement Learning Fine-Tuning (RLFT)。简单来说,就是把强化学习(RL)的训练方法,用在LLMs身上,而且是基于LLMs自己生成的“思考过程”(CoT)来进行。

它的基本逻辑是:让AI在环境里自己生成思考过程和行动。如果这个行动带来了好的回报,就“奖励”它产生这样的思考和行动;如果回报不好,就“惩罚”它。通过这种方式,“训练”LLM去学习那些能带来高回报的思考模式和行动策略。这就像给LLM请了个私人教练,让它在实践中学习,从自己的思考和结果中吸取经验。

“治疗”效果如何?显著提升,但仍需努力!

实验证明,RLFT这剂猛药确实管用。

降低了“贪婪”:经过RLFT的2B模型,行动的探索覆盖率提高了12%。虽然还没达到最优,但至少愿意多看看外面的世界了,不再那么死守着少数几个看过的选项。

对抗了“跟风”:RLFT有效地对抗了频率偏差,模型没那么容易被重复的历史带跑偏了。尽管在高重复频率下,“跟风”的残余影响还在。

弥合了“知行差距”:RLFT通过奖励那些能带来高回报的“思考+行动”组合,让LLM更好地把“知道”的转化为“做到”。

实战能力提升:在多臂老虎机 (MABs) 和上下文老虎机 (CBs) 任务中,RLFT显著降低了累积遗憾(也就是少做了很多错误决策)。在有状态的环境,比如文字版井字棋 (Tic-tac-toe) 中,RLFT也大幅提高了LLM的胜率,甚至能和顶级的MCTS对手打平。这说明它在更复杂的决策场景下也有潜力。

光“治疗”还不够,得加点“辅助训练”!

虽然RLFT很有效,但论文也指出,经过RLFT的模型在探索方面依然不是最优的。就像运动员,基础训练好后,还得有专项训练。于是,研究人员尝试了一些额外的“探索机制”,比如:

“上来就全试一遍”:就像UCB算法那样,一开始先把所有可能的行动都试一次。结果发现,这招超级管用!特别是对27B这种大模型,用了这招后几乎能达到最优的表现。这再次证明,AI不是不会做决定,而是需要先给它足够的信息去了解每个选项的大致情况。

ε-greedy(小概率随机探索):经典RL招数,偶尔随机选个行动。效果嘛,一般般。

探索奖励(Exploration Bonus):给那些还没尝试过的行动额外加分。这招也很灵!能显著提高探索率,并降低遗憾。这强调了“奖励设计”的重要性,得告诉AI你希望它做什么样的行为(比如多探索)。

还有一些针对LLMs的技巧,比如上下文随机化、上下文总结、自我纠正、自我一致性等等。

“思考”的重要性:不仅要有,还要给够时间!

论文还强调,“思维链”(CoT)在这个过程中起着“至关重要”的作用。它不仅能帮助LLM在做决策前进行合理的推导,还是RLFT有效性的关键。没有CoT,RLFT的效果会大打折扣。

更进一步,给AI“思考”的时间(也就是生成思考过程的Token数量上限)也很重要。思考时间太短(比如只允许生成16或64个Token),AI就没法好好组织思路,性能会很差。但如果把思考时间从256提到512个Token,性能就能显著提升,甚至能追平更大模型的水平。这说明,AI能有效利用这些额外的“思考时间”来提升决策能力。不过,多思考也有代价——训练时会消耗更多计算资源和时间。

向“学霸”取经:模仿专家行为也很香!

最后,论文还对比了传统的“模仿学习”方法。他们让LLM学习模仿UCB专家的行为,包括只模仿行动(Behavior Cloning,BC)和模仿行动+思考过程(Thought Cloning,TC)。结果发现,直接模仿专家数据训练出来的模型,在简单任务上也能达到和专家差不多的水平。这说明,如果有高质量的专家数据,“抄作业”也是个提高AI决策能力的好方法。

AI大佬也有“成长的烦恼”

总而言之,这篇论文告诉我们:

1.虽然LLMs看起来无所不知,但在做决策时,它们有自己的“人格缺陷”,比如贪婪、跟风和知行不一。

2.强化学习微调(RLFT)能有效“治疗”这些问题,提高AI的探索能力和决策表现。

3.但RLFT后的探索能力依然不够完美,需要额外的探索机制来辅助,比如“上来就全试一遍”或者给“探索奖励”。这证明,AI不是不会做决策,是需要引导和充分信息。

4.“思考过程”(CoT)对于RLFT至关重要,“思考时间”(生成预算)也需要给够。

5.直接学习模仿专家也是一条有效的捷径。

当然,目前的研究主要集中在特定模型(Gemma2)和相对简单或有限的场景下。未来还需要在更复杂、更贴近现实的环境中进一步探索。

看来,AI要成为真正的“决策高手”,还有一段路要走。它们和我们人类一样,都有需要克服的“人性弱点”(虽然是机器的),也都需要学习和训练才能变得更优秀。不过,看到AI在努力克服“知行不一”,是不是也给我们自己提了个醒呢?

好了,今天的AI八卦……哦不,AI研究解读就到这里。希望这篇不正经的科普,能让你对AI的决策能力和强化学习微调有个初步的了解!下回见到AI,别忘了它们也可能正在经历“贪婪”和“知行不一”的挣扎哦!

论文地址:https://www.alphaxiv.org/abs/2504.16078

  • 相关推荐
  • DeepSeek+物流行业,AI大模型破解五大场景效能困局

    文章探讨了AI大模型在物流行业的应用现状与挑战。以DeepSeek为代表的AI技术正通过重构业务流程、优化资源配置、提升决策效率等方式,成为推动行业降本增效的核心引擎。但成功应用AI大模型需要企业具备数字化基础、业务流程标准化和数据治理能力,而非简单技术堆砌。G7+易流梳理出五大核心应用场景:工作效能辅助、经营数据分析、安全审查、智能客服和知识管理。这些

  • DeepSeek领航大模型普惠化浪潮,xAI/微美全息加速开源AI布局打造新格局

    DeepSeek 作为当前最受关注的大模型之一,凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示,DeepSeek已经成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前,DeepSeek市场份额6.58%,仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品,它的市场份额从2.34%快速增长至6.58%,展现出强劲的增长态势。全球著名�

  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • 超过ChatGPT、Deepseek?谷歌发布 Gemini 2.5 Flash AI 模型

    新版AI模型缩短了响应时间,节约了运算成本;还推出了新的AI芯片“Ironwood”。谷歌发布了新的AI模型“Gemini2.5Flash”,据称,这款AI模型的性能比OpenAI和DeepSeek的AI产品“更高效”。谷歌计划在三星今年上半年推出的AI伴侣机器人Ballie上搭载生成式AI模型。

  • IQ 过百的 AI 模型名单发布:ChatGPT、Deepseek等上榜

    人工智能IQ哪家强?o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • 深度deepin 23.1正式发布!AI默认引擎切换至DeepSeek、修复超百项问题

    快科技4月16日消息,今天,深度操作系统宣布,deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题,大幅提升新用户安装体验,同时集成多项功能优化与问题修复,进一步优化系统使用。本次版本的重点改进包括内核优化、AI 默认引擎切换至DeepSeek、修复超百项用户反馈问题等,具体重点改进如下:硬件兼容性与内核优化:集成6.6/6.12内核更新、NVIDIA显卡驱动升级、Intel/AMD CPU微码更新,全面提升硬件支持与底层性能;核心功能增强:DDE新增智能镜像源管理、紧凑模式入口,全局搜索支持离线自然语言与AI处理能力;?

  • DeepSeek红利耗尽后,元宝拿什么和豆包斗?

    短短60天内,中国AI原生应用下载排行榜的位次排名,就三易其主。最新情况是,截至4月15日中午,中国区苹果应用商店免费APP下载排行榜上,豆包再次超越DeepSeek,位列第二,紧随其后的DeepSeek被挤到了第三的位置,腾讯元宝则滑落到了第七名。2月13日,作为首家在C端主力产品中接入DeepSeek-R1满血版的元宝,一度趁着DeepSeek东风崛起:3月3日力压DeepSeek和豆包,首度登顶。但好景�

  • DeepSeek的极致谄媚,正在摧毁我们的判断力。

    昨天别人给我发了一个很好玩的帖子。就是如果你问DeepSeek一个问题:“北京大学和清华大学哪个更好,二选一,不需要说明理由”DeepSeek在思考了15秒之后,会给出答案。

今日大家都在搜的词: