首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

速度提高200倍!DeepMind推新的微调扩散模型方法DRaFT

2023-10-09 10:55 · 稿源:站长之家

文章概要:

- DRaFT通过反向传播整个采样链条来实现基于梯度的奖励微调。

- 提出DRaFT-K和DRaFT-LV两种变体,通过截断梯度和多样本平均降低方差,提高效率。

- 在Stable Diffusion1.4上应用DRaFT,相比强化学习方法提高200倍的速度。

站长之家(ChinaZ.com)10月9日 消息:扩散模型彻底改变了各种数据类型的生成建模。然而,在实际应用中,例如从文本描述生成美观的图像,通常需要微调。文本到图像扩散模型采用无分类器指导和 LAION Aesthetics 等精选数据集等技术来提高对齐和图像质量。

谷歌DeepMind的研究人员最近在一项研究中提出了一种基于梯度的奖励微调的简单而有效的方法,其中涉及通过扩散采样过程进行区分。他们引入了直接奖励微调 (DRaFT) 的概念,该概念本质上是通过整个采样链进行反向传播,通常表示为长度为50步的展开计算图。为了有效管理内存和计算成本,他们采用梯度检查点技术并优化 LoRA 权重,而不是修改整套模型参数。

image.png

上图展示了使用人类偏好奖励模型的 DRaFT。此外,作者还对 DRaFT 方法进行了增强,以提高其效率和性能。首先,他们提出了 DRaFT-K,这是一种在计算微调梯度时将反向传播限制为采样的最后 K 步的变体。经验结果表明,在相同数量的训练步骤下,这种截断梯度方法的性能明显优于完全反向传播,因为完全反向传播可能会导致梯度爆炸的问题。

此外,作者还介绍了 DRaFT-LV,它是 DRaFT-1的一种变体,它通过对多个噪声样本进行平均来计算低方差梯度估计,从而进一步提高了其方法的效率。

研究人员在Stable Diffusion1.4模型上应用了DRaFT方法,使用各种奖励函数和提示进行评估。与基于强化学习的微调baseline相比,他们的梯度方法效率提高了200倍以上。

DRaFT-LV 是他们提出的变体之一,表现出卓越的效率,学习速度大约是 ReFL(一种先前的基于梯度的微调方法)的两倍。此外,他们通过将 DRaFT 模型与预训练模型相结合或插值,展示了 DRaFT 的多功能性,这可以通过混合或缩放调整 LoRA 权重来实现。

研究显示,直接对可微分奖励进行扩散模型微调,是提高生成建模技术的一种有前景的途径。DRaFT方法的效率、通用性和有效性,使其成为这个领域研究者和从业者的有价值工具。

论文网址:https://arxiv.org/abs/2309.17400

举报

  • 相关推荐
  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • DeepSeek更新至V3.1 Terminus版本:两大升级

    9月22日,深度求索宣布DeepSeek V3.1已更新至Terminus版本,官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上,针对用户反馈进行改进:优化语言一致性,缓解中英文混杂、异常字符等问题;提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定,各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • 破解 AI “安全与性能” 难题!DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

    9月18日,华为全联接大会2025在上海开幕。会上,华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出,对有害言论、敏感内容等14个维度的防御成功率近100%,同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作,推动AI安全技术与产业生态协同发展,为我国人工智能高质量发展提供支撑。

  • Miss Pep闪耀TikTok达人赛,以“时尚健康美学”燃爆纽约地标

    2025年9月20日,纽约本土健康品牌Miss Pep受邀参加在American Dream Mall举办的“美国梦×TikTok达人明星全美品牌推广赛”。品牌通过产品展示、达人直播互动及宣讲,向日均超18万客流传递“健康与美缺一不可”理念。现场设置互动扫码送定制纹身贴等趣味活动,吸引大量潮流人士。多位顶流明星及达人助阵,结合线上线下联动直播,触达数百万粉丝,强化品牌认知。Miss Pep深耕健康美学30年,产品覆盖养颜、膳食补充等多领域,以“细胞级靶向修护+超天然成分”为核心,正加速全球化布局,覆盖超20国市场,致力成为健康美学的领军者。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

今日大家都在搜的词: