首页 > AI头条  > 正文

摩尔线程推出URPO框架,助力大模型训练新纪元,AAAI 2026 盛赞

2025-11-14 10:42 · 来源: AIbase基地

近日,摩尔线程的 AI 研究团队在国际顶级学术会议 AAAI2026上发布了其最新研究成果,提出了一种名为 URPO(统一奖励与策略优化)的创新框架。这项技术旨在简化大语言模型的训练过程,并突破其性能的瓶颈,为 AI 领域带来新的技术路径。

在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,研究团队将传统的 “大模型训练” 方法进行了重塑。URPO 框架独特之处在于,它将 “指令遵循” 和 “奖励评判” 两种角色合二为一,让一个单一模型在训练阶段实现同步优化。这意味着模型不仅能听懂指令,还能自己打分,从而提升了训练的效率和效果。

image.png

URPO 框架在三个关键技术方面攻克了当前的挑战。首先是数据格式统一,研究团队成功地将不同类型的数据(如偏好数据、可验证推理数据和开放式指令数据)转化为适用于 GRPO 训练的统一信号格式。其次,通过自我奖励循环,模型在生成多个候选回答后,可以自主评分,将其结果用作 GRPO 训练的奖励信号,从而形成高效的自我改进循环。最后,协同进化机制通过混合处理三类数据,实现了模型生成能力与评判能力的双向提升。

实验结果显示,基于 Qwen2.5-7B 模型的 URPO 框架,在多个性能指标上均超越了依赖独立奖励模型的传统基线。例如,在 AlpacaEval 指令跟随榜单上得分提升至44.84,综合推理能力测试的平均分也从32.66提升至35.66。同时,该模型在 RewardBench 奖励模型评测中获得了85.15的高分,表现优于专用奖励模型的83.55分,充分展现了 URPO 的优越性。

值得一提的是,摩尔线程已经在其自主研发的计算卡上实现了 URPO 框架的高效运行,并完成了与主流强化学习框架 VERL 的深度适配。这一突破不仅标志着摩尔线程在大模型训练领域的领先地位,也为未来的 AI 发展指明了方向。

  • 相关推荐
  • 零跑汽车:2026年冲击100万辆销量!

    零跑汽车今日官宣,截至目前,2025年度累计销量已超50万台,提前完成今年年度目标。 随后,零跑汽车创始人朱江明在朋友圈发文称,2026年将冲击100万辆销量! 从年销不足10万辆到提前达成50万辆目标,零跑的增长速度远超行业预期。 这背后是其全域自研 精准定价”策略的落地:C系列、T系列车型覆盖10-20万元主流

  • 新生儿喝什么品牌的奶粉更好?关注2026奶粉趋势报告get佳贝艾特悦白

    新手妈妈分享选择佳贝艾特悦白羊奶粉的经历:因母乳不足转为混合喂养,经宝妈群推荐关注吸收和低敏性。该奶粉含OPL结构脂提升吸收率,减少宝宝胀气;通过降低过敏蛋白含量及北大医学部实证,敏感率下降42%。作为全球羊奶第一品牌,经1493项检测全部合格,从奶源到成品全程可控。建议新手父母关注吸收、低敏、安全三大核心,选择适合宝宝的产品。

  • 小鹏将推出3款全球化Robotaxi 2026年同步开启试运营

    小鹏汽车在2025科技日宣布,将于2026年推出三款全栈自研L4级Robotaxi,同步开启试运营。该车型搭载4颗图灵AI芯片,算力达3000TOPS,配备第二代VLA模型,具备强大泛化学习能力,能自适应全球不同交通习惯。作为中国首款全栈自研Robotaxi,无需额外改装,不依赖高精地图即可实现量产。车辆提供两套智驾方案,分别侧重通勤效率与极致安全,并在六大关键系统采用双冗余设计,确保行驶安全。小鹏还将开放Robotaxi SDK,与高德地图等伙伴共建全球服务生态。

  • 特斯拉Cybercab不配备方向盘和踏板 预计2026年二季度下线

    特斯拉CEO马斯克透露,Cybercab无人驾驶出租车将于2026年第二季度量产。该车型颠覆传统设计,无方向盘和踏板,完全依赖FSD全自动驾驶技术,采用纯视觉方案。整车成本预计低于3万美元,配备超大后备箱和鸥翼门,内饰极简仅设中控屏。车辆支持感应充电,专为无人出租场景优化,将推动汽车行业变革。

  • 曝折叠屏iPhone配2400万屏下摄像头 预计2026年秋亮相

    近日,摩根士丹利发布重要信息,揭示了苹果公司即将推出的首款折叠屏iPhone的摄像头配置细节。据透露,这款具有里程碑意义的旗舰手机将首次采用屏下摄像头技术,配备一颗高达2400万像素的屏下摄像头,这在苹果历史上尚属首次。

  • 端侧AI驱动产业链变革,elexcon2026聚焦芯片/存储/嵌入式核心器件创新

    近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品,推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局,在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎,2025年第二季度全球腕戴设备出货量同比增长12.3%,中国市场增速达33.8%,占据全球近半份额。端侧AI驱动技术升级,供应�

  • 一丹奖 2026 年提名开启,宣布提名流程升级

    10月28日,一丹奖基金会宣布2026年提名启动。该奖项表彰具远见、创新、改革能力及可持续性的教育变革者,每年颁发教育研究奖与发展奖各一项,每项提供3000万港元奖金(约2748万元人民币),其中一半为现金奖励,另一半用于推广教育项目。2026年将迎来十周年,提名流程升级:提名有效期延至四年,允许并列获奖(同一奖项最多三位获奖者)。2025年获奖者包括美国西北大�

  • 苹果新版iOS 26/iPadOS 26上线一天就被紧急撤回:设备更新后出错

    苹果在推送iOS 26.2和iPadOS 26.2首个开发者测试版一天后,便停止了对iPhone Air、iPhone 16e以及新款M5 iPad Pro蜂窝网络版的签名验证,这些设备暂时无法安装iOS 26.2/iPadOS 26.2 Beta版更新。 据悉,已经安装了该更新的用户反馈,他的M5 iPad Pro更新后出现问题,被迫进入恢复模式,最终他将设备恢复至iPadOS 26.1版本。 值得一提的是,上述受影响的

  • 苹果发布iOS 26.2 beta 2:动效更流畅、继续适配液态玻璃

    苹果今天凌晨发布了iOS 26.2 beta 2,依然在适配更多的液态玻璃效果,并且还优化了动画效果,更流畅丝滑了。 以下是本次主要更新内容: 游戏库新增排序与筛选功能,支持手柄导航,且在播放过程中可实时更新分数。 新版还强化了社交互动功能,用户可以直接从游戏”应用中邀请朋友进行挑战或实时多人游戏,当朋友打破你的高分纪录时,系统还会发送通知,方便你立即�

  • 七连冠诞生!九号见证AG传奇王朝,以智能出行驶入年轻新纪元

    2025年KPL年度总决赛在北京鸟巢落幕,成都AG超玩会击败重庆狼队实现七连冠,成为王者荣耀首支达成此成就的队伍。这场被称为“九号德比”的巅峰对决因两支九号赞助战队同台竞技引发热议。赛事线上线下联动,九号公司通过地铁应援屏、门店打卡点等方式深化品牌与电竞文化的融合,展现“真诚、勇敢、热血、无畏”的九号少年精神。从赛场到街头,电竞热潮与年轻群体产生共鸣,AG与狼队的拼搏故事正重新定义“冠军精神”的时代内涵。

今日大家都在搜的词: