字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

2025-07-16 10:56 · 来源： AIbase基地

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。

实验结果显示，采用POLARIS训练的40亿参数开源模型Qwen3-4B，在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率，性能超越部分更大规模的闭源模型。尤为突出的是，POLARIS-4B模型的轻量化设计，使其能够在消费级显卡上轻松部署，大大降低了应用门槛。

微信截图_20250716105617.png

POLARIS的核心创新在于其训练策略。研究团队发现，通过围绕待训练模型定制训练数据和超参数设置，可以显著提升小模型的数学推理能力。具体实践中，团队动态调整了训练数据的难度分布，构建了轻微偏向难题的数据集，以避免样本难度过于集中。同时，引入数据动态更新策略，根据模型在训练过程中的表现实时剔除过易样本，确保训练的有效性。

在采样控制方面，POLARIS通过精细调控采样温度，平衡了模型性能与生成路径的多样性。研究发现，采样温度对模型性能和路径多样性具有显著影响，过高或过低的温度均不利于模型训练。因此，团队提出了控制探索区的温度初始化方法，并在训练过程中动态调整采样温度，以保持生成内容的多样性。

针对长上下文训练的挑战，POLARIS引入了长度外推技术，通过位置编码RoPE的调整，使模型能够处理超出训练时所见的更长序列。这一创新策略有效补偿了长文本训练中的不足，提升了模型在长文本生成任务上的性能。

此外，POLARIS还采用了多阶段RL训练方法，早期使用较短的上下文窗口进行训练，待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务，提升了训练的稳定性和效果。

目前，POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。研究团队在多个主流推理评测集上验证了POLARIS的有效性，结果显示，不同规模的模型以及不同的模型家族在应用POLARIS训练方法后，模型效果均有显著提升。

GitHub 主页:

https://github.com/ChenxinAn-fdu/POLARIS

Hugging Face 主页:

https://huggingface.co/POLARIS-Project

相关推荐

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

本期AI日报聚焦多项技术突破：阿里通义万相发布Wan 2.2-S2V模型，实现视频音频同步生成；字节跳动研发3D模型生成工具，降低建模门槛；面壁智能推出MiniCPM-V4.5端侧多模态模型；苹果提出RLCF训练法提升模型性能；微软开源VibeVoice-1.5B支持超长语音合成；谷歌Imagen 4正式上线；英伟达发布Jetson Thor机器人计算平台；Genspark推出AI Designer一键生成品牌方案；豆包上线未成年人保护模式。

AI视频生成多模态AI 阿里通义万相
字节跳动回应即将发布AI眼镜：早期探索阶段没有发布计划

近日，有媒体报道字节跳动即将推出一款AI眼镜产品，并详细披露了所谓的产品供应链信息，引发行业广泛关注。据传，该产品方案由RXKJ提供，MCU（微控制单元）由HXKJ供应，核心SOC采用高通AR1芯片，整机代工则交由LQKJ负责。针对这一市场传闻，字节跳动相关负责人迅速作出回应。该负责人明确表示，相关产品目前还处在早期探索阶段，暂时没有明确的发布计划。

字节跳动 AI眼镜供应链
可灵2.1最强首尾帧上线生成效果提升235%

8月22日，可灵AI推出基于2.1模型的首尾帧功能，通过端到端多模态语义推理升级，视频生成效果提升235%。核心突破包括解决转场难题、强化视觉冲击、支持专业运镜及创意营销。测试显示，在人物动态衔接、风格切换及复杂镜头调度上表现突出，显著优于Midjourney等竞品，适用于广告、影视等创意制作场景，巩固了其在AI视频生成领域的领先地位。

可灵AI 首尾帧功能 2.1模型
半年报：美的集团、格力电器、海尔集团的分公司表现如何？

中国家电三巨头2025半年报显示：美的集团以超2500亿营收和25%净利润增速领跑；格力电器成为唯一营收下滑企业，主因空调业务过度依赖；海尔智家保持稳健双位数增长。美的多元化战略有效抵御风险，格力面临单一业务转型压力，海尔全球化布局持续发力。行业竞争已从产品力升级至生态布局与战略耐力的综合较量。
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
字节跳动否认将推手机产品：探索把自己的AI能力开放给硬件厂商

字节跳动否认年底推出自有手机产品传闻，表示专注于AI大模型技术开发，为手机厂商提供基于大模型的软件解决方案，推动智能交互和个性化推荐功能，旨在改善用户体验并促进行业发展。

字节跳动手机产品 AI能力
小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

今日，小米正式向旗下8款机型推送了澎湃OS3的首批Beta版升级，涵盖小米15、小米15Pro、小米15S Pro、小米15Ultra、REDMI K80Pro、REDMI K80至尊版、小米平板7Pro以及小米平板7S Pro12.5。此次更新不仅修复了用户反馈的多项系统问题，还新增了实用功能，并对相机稳定性进行了优化。在系统层面，小米澎湃OS3解决了部分场景下多应用音量调节异常、应用双开时无法切换输入法、点击消息�

小米澎湃OS3 Beta版升级系统问题修复
荐泡泡玛特不止一个LABUBU

不可否认，在本周举办的泡泡玛特中期业绩发布会上，LABUBU依然是最引人瞩目的话题中心。THE MONSTERS系列2025H1收入达到48.1亿元，同比增长668%，新品MINI LABUBU即将发售的消息也在海内外社媒引发巨大反响。尽管位列所有IP第一，THE MONSTERS系列在总收入中的占比也刚刚接近35%。2025年H1，泡泡玛特自有IP中有5个收入超10亿，收入过亿的IP更是达到13个，这其中有MOLLY这样历经十数年的�

泡泡玛特 LABUBU THE
荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

抖音打击AI技术滥用行为，对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2，支持长音频和无缝循环。OpenAI收购数据分析平台Statsig，增强产品迭代能力。亚马逊推出Lens Live AI功能，实时扫描购物。谷歌AI推出Stax工具，帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型，提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型，优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld，精准率达92%。瑞士发布开源大模型Apertus，提供多语言处理能力。

AI技术滥用抖音公告虚假商品展示

今日大家都在搜的词：

热文

3 天
7天

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

字节跳动回应即将发布AI眼镜：早期探索阶段没有发布计划

可灵2.1最强首尾帧上线生成效果提升235%

半年报：美的集团、格力电器、海尔集团的分公司表现如何？

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

OpenAI的开源模型现已在IBM watsonx.ai上提供

字节跳动否认将推手机产品：探索把自己的AI能力开放给硬件厂商

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

荐泡泡玛特不止一个LABUBU

荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

今日大家都在搜的词：

热文

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

三大运营商回应是否支持eSIM版iPhone：需等待通知

尊界S800选配星空顶涨价3万：价格上调至 8 万元

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

苹果折叠屏iPhone或将采用真全面屏形态：告别刘海与挖孔

曝苹果Vision Air头显2027年登场：售价腰斩重量更轻

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

抖音升级AI内容标识功能上线两项核心功能

站长商机