CMU 团队推出元强化微调：提升大语言模型推理能力的新范式

2025-03-13 11:37 · 来源： AIbase基地

在人工智能领域，大语言模型（LLM）正在不断进化，最近，卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning，简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率，尤其是在解决复杂推理问题时，表现尤为突出。

研究表明，现有的大语言模型在推理过程中常常消耗过多的计算资源，而 MRT 的目标是让模型在给定的计算预算内，实现更高效的答案发现。该方法将大语言模型的输出分割成多个片段，以便在探索与利用之间取得平衡。通过对训练数据的细致学习，MRT 能够使模型在面对未知难题时，既能利用已知信息，又能够探索新的解题策略。

在研究中，CMU 团队的实验显示，使用 MRT 微调后，模型在多个推理基准测试上取得了显著提升。在与传统结果奖励强化学习（GRPO）的对比中，MRT 的准确率是其2到3倍，且在 token 使用效率上提升了1.5倍。这意味着，MRT 不仅能提高模型的推理能力，还能降低计算资源的消耗，从而在实际应用中更具优势。

此外，研究者们还提出了如何有效评估现有推理模型的有效性，为未来的研究奠定了基础。这一成果不仅展示了 MRT 的潜力，也为大语言模型在更多复杂应用场景中的应用指明了方向。

通过这样的创新，CMU 与 HuggingFace 的研究团队无疑在推动 AI 技术的前沿，赋予机器更强大的推理能力，为实现更智能的应用打下了坚实的基础。

项目地址：https://cohenqu.github.io/mrt.github.io/

相关推荐

荐不要思考过程，推理模型能力能够更强

UC伯克利和艾伦实验室的最新研究表明，推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案，跳过了传统推理模型中的显性思考步骤。实验证明，在低资源(低token数量、少模型参数)或低延迟情况下，NoThinking方法的表现优于传统思考方式，能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异，尤其在资源受限时优势更明显。研究还发现，结合并行计算扩展后，NoThinking能进一步提升性能，在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

推理模型无思考方法解决方案
联想发布端侧AI新技术 PC本地推理能力媲美 OpenAI-mini

联想在Tech World大会上展示了其最新AI创新成果"联想推理加速引擎"。该引擎由联想联合清华大学、无问芯穹共同研发，专为高效AI PC设计，通过并行解码、算子融合优化及异构计算技术，显著提升本地推理速度并降低功耗。现场演示显示，搭载该引擎的AI PC解答高考数学题仅需13秒，性能媲美云端大模型但成本更低。联想CEO杨元庆表示，下一代AI PC将让用户体验到强大的本地推理能力。该技术通过软硬件协同优化，实现了推理速度提升、内存占用减少和能耗降低的显著效果。

联想 AI技术推理引擎
荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
美图秀秀桌面版AI修图改图能力全面接入鸿蒙电脑，开启高效适配新范式

5月8日，华为在深圳召开鸿蒙电脑技术与生态沟通会，首次展示鸿蒙操作系统在电脑端的应用。美图秀秀桌面版成为首批深度适配鸿蒙电脑的影像处理软件，仅用一个月完成核心功能开发，功能覆盖度达Windows平台的98%，带来更流畅的交互体验。美图展示了四大AI修图功能在鸿蒙电脑端的适配成果：AI消除、智能抠图、AI变清晰、无痕改字，修图效率与表现力双提升。鸿蒙电脑从内核层自主研发，助力软件深度优化。未来双方将围绕鸿蒙的智能图片处理能力展开联合创新，从"兼容适配"转向"联合共创"，共同拓展软件创新边界，推动鸿蒙应用规模化落地。

鸿蒙操作系统美图秀秀 AI修图
荐AI日报：小米首个推理大模型开源Xiaomi MiMo；快手上线AI笔记工具“喵记多”；腾讯拆分AI团队

本文汇总了AI领域最新动态：1)小米开源70亿参数大模型Xiaomi MiMo，在数学推理和代码竞赛中超越OpenAI和阿里模型；2)快手推出AI笔记工具"喵记多"，简化笔记管理；3)Luma AI发布电影级镜头控制API，降低视频生成门槛；4)腾讯重组AI团队，加大语言模型研发投入；5)Anthropic为Claude引入新语音"Glassy"；6)谷歌NotebookLM新增50+语言音频概述功能；7)xAI将发布Grok3.5模型；8)Meta推出独立AI助手应用挑战ChatGPT；9)OpenAI紧急修复GPT-4o"谄媚"问题；10)Mac本地AI助手Simular升级隐私保护；11)CameraBench项目帮助AI理解镜头运动；12)谷歌推出个性化语言学习AI工具。

人工智能 Xiaomi MiMo
小米推出10cm长度USB-C充电线：定价9.9元支持60W功率输出

小米推出新款便携充电线，售价9.9元。该产品采用10厘米超短线身设计，重点适配手机向平板、耳机、笔记本等设备应急供电的跨设备充电需求。采用高强编织工艺，支持3A电流传输，兼容PD3.0/QC4.0+等快充协议，最高60W功率输出。创新点在于单端90度弯折头设计，优化侧边充电握持体验。目前已在小米生态链电商平台开售，其轻量化设计与亲民定价被视为抢占细分充电配件市场的举措。随着Type-C接口普及，此类精准定位场景的充电配件或成新增长点。

小米产品便携充电线 USB-C数据线
顶级锂电驱动九号，引领两轮出行新范式

近日，智能出行领域的领军品牌九号公司与高性能锂电池企业新能安联合发布了一条品牌纪录片式视频，全面呈现48V30Ah锂电池的生产、组装和测试流程。这款被誉为“超能心脏”的核心部件，正是支撑九号明星车型MMAX2110P实现百公里超长续航、2. 12 秒破25km/h加速性能的关键所在。当视频中高速机械臂以0. 17 秒/颗的效率装配电芯、当电池在针刺测试下依旧保持稳定输出，它不仅

智能出行锂电池技术电动两轮车
山石网科发布全新Open XDR解决方案：开启安全运营新范式

山石网科发布全新Open XDR解决方案，以"开放融合、AI赋能、智慧运维"为核心理念，突破传统安全架构局限。该方案通过南北向开放架构实现全领域数据采集与异构设备联动，打破数据孤岛；集成云端/本地AI大模型，降低安全运维门槛，实现日志精准解读和威胁深度分析；创新"案件调查"功能构建完整攻击链路，结合可视化剧本编排实现闭环安全运维。方案支持多源数据接入和无代码插件扩展，构建灵活可扩展的安全生态，助力企业从被动防御转向主动研判，为数字化转型提供智能化安全运营保障。

开放融合 AI赋能智慧运维
itc保伦股份“AI教育3.0·智慧教育新纪元”线上推介会！用AI重塑课堂，重塑教育新范式！

4月23日，ITC保伦股份成功举办"AI教育3.0·智慧教育新纪元线上推介会"。活动通过沉浸式视频直播形式，吸引超4万用户观看，收获8.7万点赞。会议聚焦AI赋能智慧教育，展示了AI智慧教学、AI智慧操场、平安校园三大解决方案，通过虚拟演播厅技术生动呈现AI教育3.0体系下的技术创新。专家指出，AI技术将重塑教育时空逻辑，推动个性化教学发展。ITC保伦股份深耕声光电讯系统集成领域，拥有70+系列产品线，全球案例超100万个。未来将持续以创新驱动，引领智慧教育新浪潮。

ITC保伦 AI教育智慧教育
泡泡玛特如何驶向全球市场，解码中国IP的“文化贸易”新范式

中国潮玩品牌泡泡玛特正以惊人速度扩张全球版图。截至2024年第三季度，其海外门店达114家，覆盖泰国、越南、欧美等市场。品牌通过IP矩阵和本土化战略实现文化出海：在东南亚推出Labubu等专属IP，与卢浮宫等国际机构联名；海外收入占比从2023年15%跃升至2024上半年的30%，全年营收预计突破百亿。其市值年内涨幅超340%，获摩根士丹利等机构增持评级。泡泡玛特构建了覆盖设计、生产、营销的全球供应链，在越南设本土化工厂，90%员工本地化，实现从"产品出海"到"生态共建"的跨越，为中国品牌全球化提供新范式。

中国潮玩泡泡玛特海外拓展

CMU 团队推出元强化微调：提升大语言模型推理能力的新范式

荐不要思考过程，推理模型能力能够更强

联想发布端侧AI新技术 PC本地推理能力媲美 OpenAI-mini

荐国产六大推理模型激战OpenAI？

美图秀秀桌面版AI修图改图能力全面接入鸿蒙电脑，开启高效适配新范式

荐AI日报：小米首个推理大模型开源Xiaomi MiMo；快手上线AI笔记工具“喵记多”；腾讯拆分AI团队

小米推出10cm长度USB-C充电线：定价9.9元支持60W功率输出

顶级锂电驱动九号，引领两轮出行新范式

山石网科发布全新Open XDR解决方案：开启安全运营新范式

itc保伦股份“AI教育3.0·智慧教育新纪元”线上推介会！用AI重塑课堂，重塑教育新范式！

泡泡玛特如何驶向全球市场，解码中国IP的“文化贸易”新范式

今日大家都在搜的词：

热文

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

苹果高管称：10 年后，可能 iPhone 将不复存在！

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

基于安卓16的三星 One UI 8 本月发布首个测试版本

站长商机