首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

速度提高200倍!DeepMind推新的微调扩散模型方法DRaFT

2023-10-09 10:55 · 稿源:站长之家

文章概要:

- DRaFT通过反向传播整个采样链条来实现基于梯度的奖励微调。

- 提出DRaFT-K和DRaFT-LV两种变体,通过截断梯度和多样本平均降低方差,提高效率。

- 在Stable Diffusion1.4上应用DRaFT,相比强化学习方法提高200倍的速度。

站长之家(ChinaZ.com)10月9日 消息:扩散模型彻底改变了各种数据类型的生成建模。然而,在实际应用中,例如从文本描述生成美观的图像,通常需要微调。文本到图像扩散模型采用无分类器指导和 LAION Aesthetics 等精选数据集等技术来提高对齐和图像质量。

谷歌DeepMind的研究人员最近在一项研究中提出了一种基于梯度的奖励微调的简单而有效的方法,其中涉及通过扩散采样过程进行区分。他们引入了直接奖励微调 (DRaFT) 的概念,该概念本质上是通过整个采样链进行反向传播,通常表示为长度为50步的展开计算图。为了有效管理内存和计算成本,他们采用梯度检查点技术并优化 LoRA 权重,而不是修改整套模型参数。

image.png

上图展示了使用人类偏好奖励模型的 DRaFT。此外,作者还对 DRaFT 方法进行了增强,以提高其效率和性能。首先,他们提出了 DRaFT-K,这是一种在计算微调梯度时将反向传播限制为采样的最后 K 步的变体。经验结果表明,在相同数量的训练步骤下,这种截断梯度方法的性能明显优于完全反向传播,因为完全反向传播可能会导致梯度爆炸的问题。

此外,作者还介绍了 DRaFT-LV,它是 DRaFT-1的一种变体,它通过对多个噪声样本进行平均来计算低方差梯度估计,从而进一步提高了其方法的效率。

研究人员在Stable Diffusion1.4模型上应用了DRaFT方法,使用各种奖励函数和提示进行评估。与基于强化学习的微调baseline相比,他们的梯度方法效率提高了200倍以上。

DRaFT-LV 是他们提出的变体之一,表现出卓越的效率,学习速度大约是 ReFL(一种先前的基于梯度的微调方法)的两倍。此外,他们通过将 DRaFT 模型与预训练模型相结合或插值,展示了 DRaFT 的多功能性,这可以通过混合或缩放调整 LoRA 权重来实现。

研究显示,直接对可微分奖励进行扩散模型微调,是提高生成建模技术的一种有前景的途径。DRaFT方法的效率、通用性和有效性,使其成为这个领域研究者和从业者的有价值工具。

论文网址:https://arxiv.org/abs/2309.17400

举报

  • 相关推荐
  • 前DeepSeek研究员罗福莉已加入小米:全力奔赴AGI

    11月12日,“95后AI天才少女”罗福莉宣布加入小米MiMo大模型团队。她曾因“雷军千万年薪挖角”话题引发热议,拥有丰富AI研发经历,先后在幻方量化和DeepSeek参与大模型研发。罗福莉表示,将与团队致力于推动AI从语言迈向物理世界,全力构建通用人工智能。她的加入将为小米AI研究注入新活力。

  • AI日报:xAI推出Grok 4.1;OceanBase发布首款AI数据库seekdb;Kimi K2成功接入Perplexity

    本期AI日报聚焦多项技术突破:蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用;xAI推出免费Grok 4.1模型显著提升质量与速度;Poe推出200人群聊功能支持多模型协作;OceanBase发布首款AI数据库seekdb实现混合搜索;国产模型Kimi K2接入Perplexity展现国际竞争力;谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%;ElevenLabs升级为一站式内容生成平台;昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite,用户拍照即可自动完成任务。

  • ​你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略,3步把曝光拉满

    GEO指数是AI搜索时代的品牌可见度衡量指标,量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同,GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示,高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明,企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控,把握AI搜索新机遇。

  • AI浪潮下,项目经理如何破局 | 2025 PMI项目管理大会

    人工智能正重塑项目管理模式,项目经理需超越传统技能,掌握AI赋能下的效率提升、创新促进与决策优化能力。个人应通过组织平台与业务深度绑定,构建不可替代的核心价值。2025PMI项目管理大会将探讨AI前沿应用,助力从业者系统掌握转型路径,实现个体与组织的双向赋能,在AI时代保持竞争力。

  • DeepSeek崩了上热搜 页面显示“服务器繁忙”

    截至2025年11月3日,大量用户在微博话题#DeepSeek崩了#下集中反馈,DeepSeek平台出现服务异常状况,引发广泛关注。综合各方信息,此次故障呈现多方面表现,对用户使用造成显著影响。 众多用户表示遭遇服务全面中断问题,在尝试使用平台

  • 50人团队、1亿美元ARR,AI PPT还在续写“神话”?

    AI 生成 PPT 可以说是去年的热门赛道,尤记得关于这类产品是否具有真正竞争力的热烈讨论,而2025年9月份的数据显示,赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且,今天官宣了由 a16z 领投的6800万美元 B 轮融资,融资后估值达到21亿美元。 而不仅 Gamma,根据 AI 产品榜数据,9月份,AIPPT 赛道的 Top3产品流量平均涨幅30%+,更有一款

  • AI日报:谷歌Gemini 3 Pro Preview模型上线;Cloudflare文件异常致全球宕机;百度Q3 AI收入96亿元

    谷歌发布Gemini 3大模型及Antigravity AI开发平台,支持参数灵活调整;Cloudflare因配置异常致全球服务中断6小时;微软测试AI文件连接器,允许Claude直接读取本地文件;百度Q3 AI收入96亿元,萝卜快跑订单激增;小米AI眼镜新增直播与语音控制功能;TikTok推出AI内容推荐调节选项;微软将Copilot全面集成至Office应用;谷歌推出实时生成交互界面的Generative UI技术;Manus发布Browser Operator,将浏览器升级为全功能AI代理。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • 实测Gemini 3 Pro - 此即未来。

    经过238天等待,Gemini 3 Pro正式上线。在多项基准测试中表现惊人:Humanity's Last Exam测试达45.8%,Math Arena Apex获23.4分,ScreenSpot-Pro界面识别达72.7%。其前端代码能力尤为突出,仅用几十秒就能生成完整网页音乐播放器、像素画板,甚至成功复刻出可运行的Web OS系统。目前该模型在各大竞技场排行榜均位列第一,堪称2025年最具突破性的大模型。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

今日大家都在搜的词: