首页 > AI头条  > 正文

小模型训练效率狂飙100倍!Thinking Machine推“在线策略蒸馏”,OpenAI前CTO亲自点赞

2025-10-28 10:47 · 来源: AIbase基地

近日,AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏(On-Policy Distillation),让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公布,即获前OpenAI首席技术官Mira Murati亲自转发,引发学界与工业界高度关注。

image.png

融合强化学习与监督学习,打造“AI教练”新模式

传统AI训练长期面临两难:强化学习让模型在试错中自主探索,灵活但低效;监督微调直接提供标准答案,高效却僵化。而在线策略蒸馏巧妙融合二者——如同为学生模型配备一位“实时教练”:学生在自主生成内容的同时,由强大教师模型对其每一步输出进行动态评分与引导,通过最小化两者之间的KL散度,实现精准、稳定的知识迁移。

这一机制不仅避免了传统蒸馏中“只学结果、不学过程”的弊端,还有效防止模型“走捷径”或过拟合,显著提升泛化能力。

image.png

实测效果惊人:7-10倍步骤缩减,100倍效率跃升

在数学推理任务中,研究团队仅用原强化学习方法1/7到1/10的训练步数,就让8B小模型达到接近32B大模型的性能水平,整体计算成本降低高达两个数量级。这意味着,资源有限的中小企业或研究团队,也能高效训练出媲美巨头的专业模型。

更关键的是,该方法成功破解了企业AI落地中的“灾难性遗忘”难题。在一项企业助理实验中,模型在学习新业务知识的同时,完整保留了原有对话与工具调用能力——这为持续迭代的行业AI系统提供了可行路径。

image.png

核心团队背景深厚,技术源自OpenAI实战经验

该研究由Kevin Lu主导,他曾在OpenAI领导多个关键项目,如今作为Thinking Machine核心成员,将大模型训练的前沿经验反哺于高效小模型生态。其团队认为,在AI走向垂直化、场景化的今天,“小而专”的模型才是商业落地的主力,而在线策略蒸馏正是打通这一路径的关键引擎。

随着算力瓶颈日益凸显,行业正从“唯大模型论”转向“高效智能”新范式。Thinking Machine的这项突破,不仅大幅降低AI开发门槛,更预示着一个属于高性价比专业模型的时代正在加速到来。

论文:https://thinkingmachines.ai/blog/on-policy-distillation/

  • 相关推荐
  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • iPad、Mac新品京东跌破底价 国补可用地区、优惠力度都秒杀隔壁

    10月22日,搭载M5芯片的MacBook Pro和iPad Pro正式开售,起售价分别为12999元和8999元。恰逢双11大促,各大电商平台推出不同优惠:京东MacBook Pro最高优惠4000元,iPad Pro优惠超2000元;天猫提供消费券和88VIP专属折扣,MacBook Pro可享国家补贴。建议消费者对比各平台优惠力度及服务保障,结合性能升级综合决策。

  • 性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

    本月苹果推出了全新MacBook Pro、iPad Pro及Vision Pro,这些设备均搭载新一代M5芯片。除了上述新品,苹果还有一款MacBook已在路上,许多人期待能在节前看到。 行业分析师郭明錤透露,苹果正研发一款更具性价比的13英寸笔记本电脑,这款产品旨在对标Chromebook,提升MacBook的整体销量,新MacBook将搭载A18 Pro芯片,这颗芯片去年在iPhone 16 Pro上首发搭载。 在Mac产品中使用iPhone芯片,从�

  • 见所未见 百微新生 索尼发布首款G大师微距镜头FE 100mm F2.8 Macro GM OSS

    索尼将于2025年10月发布首款1G大师系列微距镜头FE 100mm F2.8 Macro GM OSS。新品实现1.4倍放大率,搭配增距镜可达2.8倍,配备4个XD线性马达使自动对焦性能提升1.9倍。采用11片圆形光圈与第二代纳米AR镀膜技术,搭载专为微距设计的光学防抖系统。镜头重646克,具备防尘防潮设计,建议零售价9,299元。

  • 苹果藏了一手!M5 MacBook Pro隐形升级:SSD速度提升211%

    苹果在前不久正式推出了新款M5 MacBook Pro,不过在外观上缺乏明显变化,可能给人留下了苹果只是升级了M5芯片就完事”的印象。 然而最新的测试显示,其固态硬盘速度也有着大幅提升,对比M4 MacBook Pro,读写速度最高竟提升了211%。 根据Max Tech的对比测试,M5和M4 MacBook Pro在内部布局、单风扇和单热管散热方案上保持一致,都采用了两颗NAND闪存芯片以最大化SSD性能。 不过,在

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • 新款MacBook Pro破发!京东11.11直降、以旧换新叠国补至高省4000元

    10月22日8点起,搭载M5芯片的MacBook Pro、iPad Pro及iPhone Air在京东11.11现货开售。活动推出多重福利:购买MacBook Pro可领500元优惠券,以旧换新至高补贴1500元,部分地区叠加国补最高减4000元;购买iPad Pro可领300元惊喜券,部分用户叠加教育优惠至高优惠2200元;购买iPhone Air享以旧换新补贴400元起、12期免息。三款新品均支持24期免息,搭载M5芯片性能大幅提升,MacBook Pro配备24小时续航,iPad Pro提供超精视网膜XDR显示屏,iPhone Air厚度仅5.6mm、内置eSIM。即日起打开京东APP搜索“苹果惊喜券”即可参与活动。

今日大家都在搜的词: