首页 > AI头条  > 正文

8B模型碾压32B?Mira Murati新作“在线策略蒸馏”引爆AI训练革命,成本直降90%!

2025-10-30 11:33 · 来源: AIbase基地

当大模型军备竞赛让算力成本高不可攀,前OpenAI首席技术官Mira Murati领衔的Thinking Machines Lab,正用一项名为“在线策略蒸馏”(On-Policy Distillation)的突破性技术,为行业按下“重启键”。最新研究显示:仅80亿参数的小模型,经此方法训练后,性能可达32B大模型的70%,而训练成本骤降90%,效率提升50至100倍——这意味着,中小企业甚至个人开发者,也能以极低成本训练出媲美巨头的专用AI。

50-100倍效率跃升:150步干翻1.8万GPU小时

传统强化学习(RL)训练动辄需数万步迭代与海量算力。以数学推理任务AIME'24为例,纯RL方法耗费17,920个GPU小时,准确率仅68%;而采用在线策略蒸馏的Qwen3-8B模型,仅150步训练即达70%准确率,计算开销几乎可忽略。

元宇宙 科幻 赛博朋克 绘画 (3)大模型

其核心在于“每token密集反馈”机制:不同于RL仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个token实时评分,提供连续、精准的指导信号。这不仅加速收敛,更有效防止长序列训练中的“策略漂移”,让小模型在有限资源下稳定输出高质量结果。

破解“灾难性遗忘”:学新知识不忘旧本领

AI模型在注入新知识时常“忘本”——实验显示,某模型经内部文档微调后,指令遵循能力从85%暴跌至45%。而在线策略蒸馏通过实时轨迹采样+教师逐步校正,在保留41%新知识的同时,将原有能力迅速恢复至83%,远超传统微调或离线蒸馏。

这一特性使其特别适合企业场景:模型可动态学习业务新规、产品文档,而不丢失基础对话、工具调用等核心能力,真正实现“持续进化”。

四步闭环:简洁架构,普惠落地

该方法实现极为轻量,仅需四步闭环:

部署教师模型(如32B大模型)作为监督源;

学生模型生成响应轨迹;

教师计算每个token的对数概率;

以反向KL散度为损失,优化学生参数。

无需复杂基础设施,兼容现有蒸馏框架,即可实现“廉价而准确”的性能跃迁。论文指出,该技术可无缝扩展至代码生成、多模态推理等任务,为“教师-学生”协同训练开辟新路径。

Mira Murati的“降维打击”:AI民主化的关键钥匙

作为OpenAI前CTO,Murati将大模型训练的实战经验反哺于高效小模型生态。在AI安全与对齐日益重要的今天,在线策略蒸馏不仅提升效率,更通过可控的知识迁移,增强模型行为的可预测性。

行业专家预测,该技术将极大推动开源模型与边缘AI的发展——当8B模型能胜任32B任务,手机、IoT设备乃至本地服务器,都将成为高性能AI的载体。智能,正从“云端垄断”走向“人人可及”。

这场由Murati掀起的训练革命,或许正是AI从“巨头游戏”迈向“普惠工具”的转折点。当小模型也能“聪明”如大模型,真正的智能民主化时代,才刚刚开始。

  • 相关推荐
  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • 卢伟冰:REDMI K90标准版12+512首销月直降300 售价2899元

    10月24日,小米集团总裁卢伟冰宣布Redmi K90标准版12GB+512GB版本首销月直降300元,售价调整为2899元。此次调价迅速引发行业关注,卢伟冰称源于对用户反馈的深度回应,尤其针对存储成本上涨压力。该机型搭载旗舰级屏幕、处理器及影像系统,配备7100mAh电池与100W快充,支持IP68/69防水等高阶配置,在3000元价位段形成显著竞争力。

  • REDMI K90标准版12+512GB降价300元 小米回应:可退差价

    10月24日,Redmi K90系列手机正式发布,起售价2599元。其中12+512GB主力版本原价3199元,但小米合伙人卢伟冰次日宣布首销月限时优惠300元,调整后售价2899元。卢伟冰解释称,团队关注到用户对标准版定价的反馈,上游成本压力确实影响新品定价,但小米选择倾听用户声音,特别针对需求最大的12+512GB版本进行价格调整。线下用户需在24小时内完成价保申请,线上用户可通过电商平台直接申请价保服务。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • 京东:REDMI K90发布会当天官方直降 现货充足不用等

    REDMI K90系列将于明天(10月23日)正式发布,京东平台上市首日就降价。 京东电脑数码宣布,京东11.11上新惊喜日10月23日盛大开启,包括新品、拍卖、直播三重福利。 第一重福利:iPhone Air、售价8W徕卡新机、小米K90、泡泡马特15周年盲盒...重磅新品官方直降,现货充足不用等!

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • REDMI Turbo 5参数出炉:首发天玑8500

    REDMI Turbo 5采用6.5英寸LTPS中尺寸直屏,电池是7500mAh,支持100W有线闪充,配备金属中框、光学屏下指纹,支持IP68级防尘防水。 另外,REDMI Turbo 5将会首发搭载天玑8500处理器,这将是联发科最强悍的天玑8系芯片。 在去年12月,天玑8400正式亮相,由REDMI Turbo 4首发,这颗芯片采用了旗舰同款全大核架构设计,拥有8个主频至高达3.25GHz的Arm Cortex-A725大核,并且二级缓存翻倍,三级缓�

  • REDMI官方:REDMI K90超级像素新国屏比2K屏更强

    10月30日,Redmi官方回应K90系列屏幕配置问题,确认全系未采用2K屏,但搭载全新“超级像素新国屏”。该屏幕采用全RGB新一代显示技术,每个像素由独立红绿蓝子像素构成,实现OLED从有损到无损的重大突破。K90 Pro+Max子像素数量达938万,超越传统2K排列,显示文字、线条和图片边缘更清晰锐利。全RGB排列还具备减轻视觉疲劳优势,配合圆偏振2.0、DC调光等护眼技术。核心配置上,K90搭载骁龙8至尊版平台,Pro+Max升级为第五代骁龙8至尊版。起售价分别为2599元和3999元。

  • REDMI K90 Pro Max外观公布:后置BOSE认证扬声器

    Redmi K90 Pro+ Max将于10月23日发布,采用全新“流金白”配色,机身无渐变处理,金属边框与相机模组同色,呈现简约高级感。后摄模组采用一体金属火山口设计,与小米17系列风格呼应;右侧圆形结构疑似独立扬声器,获BOSE调校认证。正面延续大R角超窄边框,实现四边等宽视觉效果。首次搭载潜望式长焦镜头,主摄配备5000万像素1/1.3英寸超大底传感器并支持OIS防抖。起售价预计突破4000元,直接对标小米17标准版竞争。

  • 未来iPad mini/iPad Air/MacBook都将升级OLED屏:LCD退场

    苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型,苹果已在iPad Pro中采用OLED屏,并计划在未来数月及数年内将OLED推广到更多设备上,从而淘汰LCD屏幕。 具体来看,iPad mini最快会在2026年配备OLED屏,同时会提升防水性能,新款iPad mini也因此涨价100美元。 至于iPad Air,其商用OLED的时间要晚于iPad mini,爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕,但后续

今日大家都在搜的词: