首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

速度提高200倍!DeepMind推新的微调扩散模型方法DRaFT

2023-10-09 10:55 · 稿源:站长之家

文章概要:

- DRaFT通过反向传播整个采样链条来实现基于梯度的奖励微调。

- 提出DRaFT-K和DRaFT-LV两种变体,通过截断梯度和多样本平均降低方差,提高效率。

- 在Stable Diffusion1.4上应用DRaFT,相比强化学习方法提高200倍的速度。

站长之家(ChinaZ.com)10月9日 消息:扩散模型彻底改变了各种数据类型的生成建模。然而,在实际应用中,例如从文本描述生成美观的图像,通常需要微调。文本到图像扩散模型采用无分类器指导和 LAION Aesthetics 等精选数据集等技术来提高对齐和图像质量。

谷歌DeepMind的研究人员最近在一项研究中提出了一种基于梯度的奖励微调的简单而有效的方法,其中涉及通过扩散采样过程进行区分。他们引入了直接奖励微调 (DRaFT) 的概念,该概念本质上是通过整个采样链进行反向传播,通常表示为长度为50步的展开计算图。为了有效管理内存和计算成本,他们采用梯度检查点技术并优化 LoRA 权重,而不是修改整套模型参数。

image.png

上图展示了使用人类偏好奖励模型的 DRaFT。此外,作者还对 DRaFT 方法进行了增强,以提高其效率和性能。首先,他们提出了 DRaFT-K,这是一种在计算微调梯度时将反向传播限制为采样的最后 K 步的变体。经验结果表明,在相同数量的训练步骤下,这种截断梯度方法的性能明显优于完全反向传播,因为完全反向传播可能会导致梯度爆炸的问题。

此外,作者还介绍了 DRaFT-LV,它是 DRaFT-1的一种变体,它通过对多个噪声样本进行平均来计算低方差梯度估计,从而进一步提高了其方法的效率。

研究人员在Stable Diffusion1.4模型上应用了DRaFT方法,使用各种奖励函数和提示进行评估。与基于强化学习的微调baseline相比,他们的梯度方法效率提高了200倍以上。

DRaFT-LV 是他们提出的变体之一,表现出卓越的效率,学习速度大约是 ReFL(一种先前的基于梯度的微调方法)的两倍。此外,他们通过将 DRaFT 模型与预训练模型相结合或插值,展示了 DRaFT 的多功能性,这可以通过混合或缩放调整 LoRA 权重来实现。

研究显示,直接对可微分奖励进行扩散模型微调,是提高生成建模技术的一种有前景的途径。DRaFT方法的效率、通用性和有效性,使其成为这个领域研究者和从业者的有价值工具。

论文网址:https://arxiv.org/abs/2309.17400

举报

  • 相关推荐
  • 谷歌DeepMind发布Genie 3世界模型:支持实时生成交互式3D环境

    据媒体报道,谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示,快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界,更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令,即可实时修改虚拟环境,显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能(AGI) 的�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • AI大模型选型决策指南:10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

    本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个,但选型面临三大难题:单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法:1)场景刚需筛选80%选项;2)验证核心性能;3)评估边际效益。以Gemini和DeepSeek为例,前者适合常规FAQ场景年省$16,000,后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系,将3小时选型会议压缩至18分钟,错误率下降40%。核心观点:选型应从参数争论转向场景验证,通过自动化工具为工程师节省时间,聚焦提示词优化而非参数对比。

  • 智能体迎来“DeepSeek时刻”,为何主角是纳米AI?

    大模型重塑了人工智能的产业格局,但却没有彻底颠覆人类的生产模式。 在这背后,并非其技术力量不足,而是当前的应用形态仍停留在“工具赋能”的初级阶段,大模型的潜力被束缚在碎片化场景中,未能转化为重构生产逻辑的核心动能。 正如360集团创始人、董事长周鸿祎所言,大模型的能力其实已经相当强大,甚至超越了我们中的许多人。只是其潜力尚未被挖掘。 而�

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • DeepSeek崩了引热议 官方深夜回应:网页/API已恢复

    8月11日,DeepSeek服务突遭全面宕机,API接口、网页平台以及App均无法访问或响应。 许多网友也通过微博话题#DeepSeek崩了#反馈服务异常。

  • 谁在往“DeepSeek们”的回答里塞广告?

    AI正在重塑现代职场与当代生活。如果说在过去,人们遇到问题往往会首选“搜一下”,如今,则变为“问问AI”。或许是ChatGPT和DeepSeek,也可能是豆包和元宝…… 从数据来看,头豹研究院数据显示,全球AI搜索的用户量从2024年1月的3.1亿增长至2025年2月份的19.8亿,增长率达538.7%。 而当AI在日常工作和生活中越来越成为不可或缺的工具,变化正悄然发生。当DeepSeek的回答里频繁�

  • INDEMIND三目AI避障-脏污检测模组,扫地机器人的“全能副手”

    文章介绍了扫地机器人避障技术的最新发展。传统避障方案(ToF、线激光、视觉)各有优劣,而"激光雷达+视觉"组合成为高端机型标配,因其能精准识别拖鞋、线缆等复杂障碍物。随着智能化需求升级,INDEMIND创新推出三目AI避障-污渍检测模块,融合立体视觉避障、AI物体识别、高精度污渍检测及彩色视频传输功能。该模块具备1.5米避障距离、40+类物体识别能力,污渍检测准确率超95%,且计算资源占用极低,可无缝替代现有方案,为扫地机器人提供"智慧之眼"和"敏锐嗅觉",推动清洁设备向智能化、精准化方向发展。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

今日大家都在搜的词: