首页 > AI头条  > 正文

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

2025-07-16 10:56 · 来源: AIbase基地

近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。

实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消费级显卡上轻松部署,大大降低了应用门槛。

微信截图_20250716105617.png

POLARIS的核心创新在于其训练策略。研究团队发现,通过围绕待训练模型定制训练数据和超参数设置,可以显著提升小模型的数学推理能力。具体实践中,团队动态调整了训练数据的难度分布,构建了轻微偏向难题的数据集,以避免样本难度过于集中。同时,引入数据动态更新策略,根据模型在训练过程中的表现实时剔除过易样本,确保训练的有效性。

在采样控制方面,POLARIS通过精细调控采样温度,平衡了模型性能与生成路径的多样性。研究发现,采样温度对模型性能和路径多样性具有显著影响,过高或过低的温度均不利于模型训练。因此,团队提出了控制探索区的温度初始化方法,并在训练过程中动态调整采样温度,以保持生成内容的多样性。

针对长上下文训练的挑战,POLARIS引入了长度外推技术,通过位置编码RoPE的调整,使模型能够处理超出训练时所见的更长序列。这一创新策略有效补偿了长文本训练中的不足,提升了模型在长文本生成任务上的性能。

此外,POLARIS还采用了多阶段RL训练方法,早期使用较短的上下文窗口进行训练,待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务,提升了训练的稳定性和效果。

目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。研究团队在多个主流推理评测集上验证了POLARIS的有效性,结果显示,不同规模的模型以及不同的模型家族在应用POLARIS训练方法后,模型效果均有显著提升。

GitHub 主页: 

https://github.com/ChenxinAn-fdu/POLARIS

Hugging Face 主页: 

https://huggingface.co/POLARIS-Project

  • 相关推荐
  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • 字节跳动回应即将发布AI眼镜:早期探索阶段 没有发布计划

    近日,有媒体报道字节跳动即将推出一款AI眼镜产品,并详细披露了所谓的产品供应链信息,引发行业广泛关注。据传,该产品方案由RXKJ提供,MCU(微控制单元)由HXKJ供应,核心SOC采用高通AR1芯片,整机代工则交由LQKJ负责。 针对这一市场传闻,字节跳动相关负责人迅速作出回应。该负责人明确表示,相关产品目前还处在早期探索阶段,暂时没有明确的发布计划。

  • 可灵2.1最强首尾帧上线 生成效果提升235%

    8月22日,可灵AI推出基于2.1模型的首尾帧功能,通过端到端多模态语义推理升级,视频生成效果提升235%。核心突破包括解决转场难题、强化视觉冲击、支持专业运镜及创意营销。测试显示,在人物动态衔接、风格切换及复杂镜头调度上表现突出,显著优于Midjourney等竞品,适用于广告、影视等创意制作场景,巩固了其在AI视频生成领域的领先地位。

  • 半年报:美的集团、格力电器、海尔集团的分公司表现如何?

    中国家电三巨头2025半年报显示:美的集团以超2500亿营收和25%净利润增速领跑;格力电器成为唯一营收下滑企业,主因空调业务过度依赖;海尔智家保持稳健双位数增长。美的多元化战略有效抵御风险,格力面临单一业务转型压力,海尔全球化布局持续发力。行业竞争已从产品力升级至生态布局与战略耐力的综合较量。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 字节跳动否认将推手机产品:探索把自己的AI能力开放给硬件厂商

    字节跳动否认年底推出自有手机产品传闻,表示专注于AI大模型技术开发,为手机厂商提供基于大模型的软件解决方案,推动智能交互和个性化推荐功能,旨在改善用户体验并促进行业发展。

  • 小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

    今日,小米正式向旗下8款机型推送了澎湃OS3的首批Beta版升级,涵盖小米15、小米15Pro、小米15S Pro、小米15Ultra、REDMI K80Pro、REDMI K80至尊版、小米平板7Pro以及小米平板7S Pro12.5。此次更新不仅修复了用户反馈的多项系统问题,还新增了实用功能,并对相机稳定性进行了优化。 在系统层面,小米澎湃OS3解决了部分场景下多应用音量调节异常、应用双开时无法切换输入法、点击消息�

  • 泡泡玛特不止一个LABUBU

    不可否认,在本周举办的泡泡玛特中期业绩发布会上,LABUBU依然是最引人瞩目的话题中心。THE MONSTERS系列2025H1收入达到48.1亿元,同比增长668%,新品MINI LABUBU即将发售的消息也在海内外社媒引发巨大反响。 尽管位列所有IP第一,THE MONSTERS系列在总收入中的占比也刚刚接近35%。2025年H1,泡泡玛特自有IP中有5个收入超10亿,收入过亿的IP更是达到13个,这其中有MOLLY这样历经十数年的�

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

今日大家都在搜的词: