首页 > AI头条  > 正文

阿里通义实验室发布FIPO算法,32B模型推理性能反超o1-mini

2026-04-08 08:51 · 来源: AIbase基地

阿里通义实验室智能计算团队今日正式对外发布了大模型后训练领域的新型算法——FIPO(Future-KL Influenced Policy Optimization)。该算法通过引入创新的“Future-KL”机制,有效解决了纯强化学习(Pure RL)训练过程中普遍存在的“推理长度停滞”技术瓶颈。

在长文本推理与复杂逻辑对齐的训练中,传统强化学习往往难以精准捕捉长序列中的关键决策点。通义团队开发的FIPO算法通过对关键Token实施差异化奖励分配,引导模型在思维链(CoT)生成过程中更具前瞻性。

实验数据显示,在32B规模模型的纯强化学习设定下,搭载FIPO算法的模型性能已率先超越同规模的DeepSeek-Zero-MATH以及OpenAI的o1-mini,标志着国产大模型在逻辑推理与数学计算能力上取得了实质性进展。

当前,大模型竞争的重心正从预训练规模转向推理端的深度对齐。FIPO算法的推出,不仅为解决逻辑推理模型中“思考过程”的质量评估提供了新思路,也预示着开源社区与国产头部实验室在追赶全球顶尖推理模型过程中,正逐步构建起独立的技术演进路径。

  • 相关推荐
  • 轻薄Mini板王!OPPO Pad Mini关键配置出炉:首发骁龙8G5、8.8英寸2.5K屏

    OPPO Pad Mini将于4月21日正式发布,新机定位轻薄Mini板王,主打小尺寸高性能体验。 根据官方公布的信息,新机正面配备8.8英寸2.5K OLED明眸柔光屏,支持144Hz刷新率,同时拥有5.39mm纤薄机身与2.99mm超窄边框,整机重量仅279g。

  • 与谷歌Genie 3竞争!阿里发布世界模型HappyOyster

    今日,阿里发布可实时构建和交互的世界模型产品HappyOyster(快乐生蚝),该模型基于原生多模态架构而建,支持多模态理解与音视频联合生成。 目前,HappyOyster可实现漫游(Wander)和导演(Direct)两大核心能力,用户可实时构建可互动、可演绎、可探索的AI数字世界。 用户生成的数字世界不仅能被完整保存,还能开放给其他用户进行二次创作。 据悉,该产品由阿里ATH创新�

  • AI日报:Chrome为Gemini上线“技能库”;小红书开源训练引擎Relax;Midjourney V8.1发布

    本文汇总了AI领域的最新动态:Chrome为Gemini新增“技能库”功能,简化提示词复用;小红书开源大模型训练引擎Relax,提升多模态训练效率;Midjourney V8.1发布,优化渲染速度与成本;阿里千问AI眼镜全球首店开业,加速硬件生态布局;美团推出AI家庭健康管理产品;李飞飞公司发布集成Three.js的3D渲染器Spark2.0;Claude Code推出自动化流程功能Routines;天猫发布新规规范AI软件及商品发布。

  • 谷歌Gemini再升级!解锁新玩法:输入提示词即可生成交互式3D模型

    近日,谷歌Gemini AI推出最新升级,用户只需输入提示词,就能让聊天机器人生成交互式3D模型和实时模拟。 这一新功能支持多种互动操作,包括旋转模型、拖动滑块调整参数或输入数值改变模拟结果。 例如,用户询问月球绕地球轨道时,Gemini会创建一个3D模型,并提供轨道速度滑块、路径线切换开关以及暂停按钮。

  • 宋雨琦代言!OPPO Reno16 Pro首曝:天玑9系旗舰芯 2亿主摄

    今日,博主数码闲聊站”曝光了OPPO Reno16 Pro的部分核心配置,新机延续由宋雨琦代言。 OPPO Reno16 Pro将提供白、黑、紫、绿四款配色,并带来12GB 256GB、12GB 512GB、16GB 256GB、16GB 512GB、16GB 1TB等多种存储组合。 不过该博主也提到,超大内存版本最终是否保留仍存在变数。

  • 苹果产品迭代周期纪录刷新!HomePod mini发布超2000天:二代至今杳无音信

    截止目前,苹果HomePod mini发布至今已超2000天,在苹果硬件产品线中,其已刷新最长迭代周期。 2020年10月13日,苹果公司在iPhone 12系列发布会上推出HomePod mini。 作为初代HomePod的平价替代品,HomePod mini定位大众市场,首发售价仅99美元。 它采用紧凑的球形设计,支持360度音频,主打高性价比与智能家居控制功能。 在硬件方面,HomePod mini搭载Apple S5芯片,配备单个全频驱动单元�

  • 超擎数智获授“ODCC AI存储实验室”, 创新引领大规模推理应用新纪元

    4月2日,在2026 ODCC春季全会上,超擎数智获授“ODCC AI存储实验室”,标志着AI存储产业迈向标准化、规模化发展的新阶段。该实验室将聚焦AI存储与推理场景的关键技术演进,推动行业标准建设与生态协同发展,为产业高质量发展提供有力支撑。超擎数智凭借在AI应用全栈方案领域的技术积累与实践能力,成为实验室的运营方,未来将联合产业头部力量,共建开放协同生态,加速技术成果转化与标准落地,为AI推理与千行百业应用创新发展提供关键支撑。

  • 小龙虾有更便宜的Token了 国产大模型MiniMax 2.7确认本周开源

    最近小龙虾OpenClaw大热,大部分人主要的消耗还是Token词元费用,这也导致国产大模型异军突起,MiniMax 2.7就长期占据调用量前列。 MiniMax 2.7大模型发布有段时间了,但是一直没有开源的消息,现在官方在Huggingface社区终于透露了具体的计划,对OOS开发者表示歉意,称他们低估了开源所需的工作量,目前还在执行一些基础设施的适配工作,预计本周末发布MiniMax 2.7开源。

  • 首款骁龙8 Gen5小平板来了!OPPO Pad mini详细参数出炉

    OPPO预计将在本月正式推出全新的平板电脑OPPO Pad mini。目前这款备受期待的小尺寸平板的详细参数已在网络上被提前披露。 OPPO Pad mini将采用8.8英寸的144HzOLED屏幕,显示比例为3:2。该设备将搭载高通最新的骁龙8Gen5旗舰平台,这也是业内首款采用该芯片的小尺寸平板产品。 在极其轻薄的机身设计下,这款平板内置了8000毫安时的大容量电池,并支持67W快速充电。其机身厚度仅为5

  • Vidda杀疯了!新品小钢炮S Mini开售,1999元拿下顶配Mini LED 电视

    4月7日,Vidda小钢炮S Mini正式开启全渠道预售。作为专为年轻人打造的首台Mini LED电视,该产品打破中端市场“成本妥协、配置阉割”的行业潜规则,集旗舰抗光屏、MiniLED精准控光、独立低音炮、超高刷等硬核配置于一身,提供55、65、75英寸三大主流尺寸,最低1999元即可入手。产品搭载旗舰级AG+LR低反光屏幕,配备180个独立分区Mini LED背光,结合AI画质引擎实现精准控光,同时内置2.1声道独立低音炮系统,支持杜比与DTS双认证,配合180Hz超高刷新率与MEMC运动补偿,带来影院级音画体验。Vidda以极致性价比推动高端显示技术下沉,让年轻人无需妥协即可拥有全能影音终端。

今日大家都在搜的词: