新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

2025-04-21 11:52 · 来源： AIbase基地

在人工智能的不断发展中，扩散模型在推理能力上逐渐崭露头角，现如今，它们不再是自回归模型的 “跟随者”。近日，来自加州大学洛杉矶分校（UCLA）和 Meta 的研究者们联合推出了一种名为 d1的新框架，该框架结合了监督微调(SFT)和强化学习(RL)，使扩散模型具备更强的推理能力，包括数学理解、逻辑推理等。

这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型（dLLM）的性能。在第一阶段，模型通过高质量的推理轨迹进行监督微调，从而掌握基础知识和逻辑推理能力。接着，在第二阶段，研究者们引入了一种名为 diffu-GRPO 的新型策略梯度方法，这一方法专门针对掩码 dLLM 进行了优化，大幅提高了推理效率。

与以往的研究相比，d1的提出旨在解决扩散模型在强化学习后训练中的挑战。传统的自回归模型通过对生成序列的对数概率进行计算，从而优化模型的输出，而 dLLM 则因其迭代生成的特性，面临计算上的困难。为此，研究团队开发了一种高效的对数概率估计器，通过独立计算每个 token 的概率，极大地减少了计算时间并提高了训练效率。

在实验中，研究者使用 LLaDA-8B-Instruct 作为基础模型，比较了 d1-LLaDA 与仅使用 SFT 或 diffu-GRPO 训练的模型。结果显示，d1-LLaDA 在多个数学和逻辑推理测试中表现优异，远超基础模型和单一方法。这一组合式的方法不仅增强了模型的推理能力，还展示了良好的协同效应。

随着 d1框架的推出，扩散模型在推理任务中的表现将迎来新的提升，也为后续的研究提供了广阔的空间。研究者们相信，这一创新的框架将推动语言模型的进一步发展，助力更复杂的推理和逻辑任务的实现。

项目地址:https://top.aibase.com/tool/d1

相关推荐

荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
新增自主决策推理模型！理想汽车OTA 7.2开启推送

快科技4月3日消息，我们从理想汽车官方获悉，OTA7.2版本车机系统正式开启推送，预计一周内完成，升级耗时约50分钟。本次更新新增自主决策推理模型，该模型基于车载场景数据及通用推理模型数据打造，可根据问题内容自主决策是否深度思考，面对车控指令等简单问题时，能够保障响应速度。智能座舱方面，新增全能儿童锁功能，支持一键锁定副驾老板键、后排座椅物理按�

理想汽车 OTA更新智能座舱
AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP协议腾讯紧随其后近日，中国人工智能领域迎来技术标准的变革，ModelContextProtocol成为国内AI生态的事实标准。12.英伟达发布Llama3.1NemotronUltra253B，性能�

人工智能 MCP协议阿里巴巴
鸿扬家装29年好口碑：引领中国定制家装新风尚

在中国家装行业，鸿扬家装凭借 29 年的行业经验，依托卓越的服务与深厚的品牌积淀，赢得了广泛消费者的信任与认可。作为国内领先的定制家装品牌，鸿扬家装始终秉承“美好中国家园，精致中国生活”的使命，以实际行动践行鸿扬家装 29 年好口碑，稳步引领行业发展。高品质满足个性需求定制专属随着消费者审美水平的不断提升和家装需求的日益多元化，鸿扬家装始终�

鸿扬家装定制家装家居设计
荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

现在的国产AI应用，一口气看好几分钟的视频，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结，再按照秒级，对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外，上海交通大学副教授闫维新对这个问题的看法是:总言之，商汤作为国�

国产AI 视频解析智能剪辑
大规模专家并行推理集群实现性能3倍跃迁，联通元景开启推理新纪元

中国联通持续技术攻坚，依托元景大模型MaaS平台成功搭建“大规模专家并行”推理集群，实现DeepSeekMoE大模型在多节点间的超高效集群推理，单卡吞吐提升3倍，解码时延降低50%。这一成果不仅为人工智能技术的创新发展提供了强大助力，也让各行业以更高效率应用AI技术，加速推动千行百业的数字化转型。这一推理创新举措必将助力各行业在复杂多变、竞争激烈的市场环境中抢占先机，以智能化驱动数字化转型，进推动实体经济高质量发展。

中国联通大模型人工智能
国际面料巨头回应冲锋衣中的“永久化学品” 知名机构、公司：整个行业都在逐步淘汰它

《每日经济新闻》此前报道指出含有PFAS的冲锋衣对健康和环境有害。服装材料公司戈尔公司迅速回应，称将采用戈尔ePE薄膜科技。我们建议所有行业参与者加强合作，共同探讨问题和需求，携手寻找解决方案。

PFAS 冲锋衣环保材料
荐OpenAI要Open了，奥特曼开源首个推理模型，ChatGPT一小时暴增百万用户

OpenAI终于要OpenAI了!一大早，奥特曼郑重官宣，「未来几个月，将开源一款强大的推理模型」。这是自GPT-2以来，OpenAI首个开源的模型。无疑为OpenAI下一步增添了更多的戏剧性。

OpenAI 开源模型推理模型
顶级锂电驱动九号，引领两轮出行新范式

近日，智能出行领域的领军品牌九号公司与高性能锂电池企业新能安联合发布了一条品牌纪录片式视频，全面呈现48V30Ah锂电池的生产、组装和测试流程。这款被誉为“超能心脏”的核心部件，正是支撑九号明星车型MMAX2110P实现百公里超长续航、2. 12 秒破25km/h加速性能的关键所在。当视频中高速机械臂以0. 17 秒/颗的效率装配电芯、当电池在针刺测试下依旧保持稳定输出，它不仅

智能出行锂电池技术电动两轮车
李彦宏：如果没有应用模型、芯片都没有价值

百度在4月25日开发者大会上发布文心4.5 Turbo和X1 Turbo两款大模型，同时推出数字人、智能体APP、内容操作系统等多款AI应用及全球首个电商交易MCP平台。李彦宏强调，没有应用场景，芯片和模型都无价值。他指出大模型更新迭代快（去年Q4发布49个，今年Q1达55个），开发者应专注应用开发而非担心模型迭代。百度通过提供完整工具链，让开发者能聚焦场景创新。李彦宏认为，未来主导AI世界的将是应用而非模型，选对基础模型并做好调优的应用不会过时。

百度开发者大会文心4.5 Turbo

今日大家都在搜的词：

热文

3 天
7天

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

荐国产六大推理模型激战OpenAI？

新增自主决策推理模型！理想汽车OTA 7.2开启推送

AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

鸿扬家装29年好口碑：引领中国定制家装新风尚

荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

大规模专家并行推理集群实现性能3倍跃迁，联通元景开启推理新纪元

国际面料巨头回应冲锋衣中的“永久化学品” 知名机构、公司：整个行业都在逐步淘汰它

荐OpenAI要Open了，奥特曼开源首个推理模型，ChatGPT一小时暴增百万用户

顶级锂电驱动九号，引领两轮出行新范式

李彦宏：如果没有应用模型、芯片都没有价值

今日大家都在搜的词：

热文

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

4chan 之“死”：互联网最狂野的角落逐渐消逝！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

站长商机