速度提高200倍！DeepMind推新的微调扩散模型方法DRaFT

2023-10-09 10:55 · 稿源：站长之家

文章概要:
- DRaFT通过反向传播整个采样链条来实现基于梯度的奖励微调。
- 提出DRaFT-K和DRaFT-LV两种变体，通过截断梯度和多样本平均降低方差，提高效率。
- 在Stable Diffusion1.4上应用DRaFT，相比强化学习方法提高200倍的速度。

站长之家（ChinaZ.com）10月9日消息:扩散模型彻底改变了各种数据类型的生成建模。然而，在实际应用中，例如从文本描述生成美观的图像，通常需要微调。文本到图像扩散模型采用无分类器指导和 LAION Aesthetics 等精选数据集等技术来提高对齐和图像质量。

谷歌DeepMind的研究人员最近在一项研究中提出了一种基于梯度的奖励微调的简单而有效的方法，其中涉及通过扩散采样过程进行区分。他们引入了直接奖励微调（DRaFT）的概念，该概念本质上是通过整个采样链进行反向传播，通常表示为长度为50步的展开计算图。为了有效管理内存和计算成本，他们采用梯度检查点技术并优化 LoRA 权重，而不是修改整套模型参数。

上图展示了使用人类偏好奖励模型的 DRaFT。此外，作者还对 DRaFT 方法进行了增强，以提高其效率和性能。首先，他们提出了 DRaFT-K，这是一种在计算微调梯度时将反向传播限制为采样的最后 K 步的变体。经验结果表明，在相同数量的训练步骤下，这种截断梯度方法的性能明显优于完全反向传播，因为完全反向传播可能会导致梯度爆炸的问题。

此外，作者还介绍了 DRaFT-LV，它是 DRaFT-1的一种变体，它通过对多个噪声样本进行平均来计算低方差梯度估计，从而进一步提高了其方法的效率。

研究人员在Stable Diffusion1.4模型上应用了DRaFT方法，使用各种奖励函数和提示进行评估。与基于强化学习的微调baseline相比，他们的梯度方法效率提高了200倍以上。

DRaFT-LV 是他们提出的变体之一，表现出卓越的效率，学习速度大约是 ReFL（一种先前的基于梯度的微调方法）的两倍。此外，他们通过将 DRaFT 模型与预训练模型相结合或插值，展示了 DRaFT 的多功能性，这可以通过混合或缩放调整 LoRA 权重来实现。

研究显示，直接对可微分奖励进行扩散模型微调，是提高生成建模技术的一种有前景的途径。DRaFT方法的效率、通用性和有效性，使其成为这个领域研究者和从业者的有价值工具。

论文网址:https://arxiv.org/abs/2309.17400

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐「有效上下文」提升20倍！DeepMind发布ReadAgent框架

【新智元导读】模仿人类阅读过程，先分段摘要再回忆，谷歌新框架ReadAgent在三个长文档阅读理解数据集上取得了更强的性能，有效上下文提升了3-20倍。基于Transformer的大语言模型具有很强的语言理解能力，但LLM一次能够读取的文本量仍然受到极大限制。还可以看到ReadAgentS大大优于ReadAgent-P，性能改进的代价是检索阶段的请求数量增加了六倍。

DeepMind ReadAgent
荐DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

DeepMind这篇论文一出，人类标注者的饭碗也要被砸了吗?大模型的幻觉终于要终结了?今日，社媒平台reddit上的一则帖子引起网友热议。帖子讨论的是谷歌DeepMind昨日提交的一篇论文《Long-formfactualityinlargelanguagemodels》，文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说，大语言模型幻觉不再是问题了。更多技术细节和实验结果请参阅原论文。

DeepMind 大模型
DeepMind发布Gecko:专注于文档检索性能媲美大7倍模型

谷歌DeepMind发布了一种名为Gecko的文本嵌入模型，专注于文档检索、语义相似度和分类等多种任务。文本嵌入模型在自然语言处理中扮演着重要角色，通过将文本转换为高维向量空间中的向量表示，实现捕捉文本的语义信息。Gecko的出现为改善信息检索系统提供了一种强大的替代方案，同时在分类、STS和摘要方面也达到了新的SOTA水平。

Gecko DeepMind AI头条
谷歌整合 AI 重心，DeepMind 和研究团队合并

谷歌在周四宣布将整合旗下专注于构建人工智能模型的两个内部团队。Alphabet和谷歌CEO桑达尔・皮查伊在公司网站上发布了一篇博客文章，解释了将AI模型构建团队整合到谷歌DeepMind团队内的决定，其中包括来自公司研究部门的团队。公司还将其他责任团队划归到其中央信任与安全团队，公司正在加大对AI测试和评估的投资。

DeepMind AI头条
DeepMind CEO称谷歌将在 AI 领域投入超过 1000 亿美元

谷歌的AI业务负责人表示，该公司将在未来投入超过1000亿美元开发人工智能技术，这是硅谷正在进行的投资竞赛的又一迹象。在温哥华举行的TED大会上，谷歌DeepMind首席执行官DemisHassabis被问及有关微软公司和OpenAI正在规划的一台名为“星门”的潜在价值1000亿美元的超级计算机的问题。”OpenAI的ChatGPT引发的全球兴趣表明，公众已经准备接受人工智能系统，即使这些系统仍然存在缺陷和错误。

DeepMind 谷歌AI AI头条
微软任命前 DeepMind 专家负责伦敦人工智能中心

站长之家（ChinaZ.com）4月9日消息:微软宣布在伦敦开设一个以前 Google DeepMind 研究人员领导的人工智能研究和开发中心。该中心将专注于推动这家软件巨头不断增长的机器学习工具组合。微软与 OpenAI 的长期合作已将人工智能整合到各种产品中，包括 Windows、Bing、Github 和 Office365。微软已经投入数十亿美元支持 OpenAI 模型的发展，但据报道，将这些投资转化为盈利仍面临困难，例�

微软 DeepMind AI头条
谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-AugmentedFactualityEvaluator”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。我们才能评估自动事实检查对打击错误信息的实际影响。

DeepMind AI系统 AI头条
谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位

英国政府最近宣布，谷歌旗下人工智能子公司DeepMind的首席执行官兼创始人之一德米斯·哈萨比斯因其在人工智能领域的杰出贡献被授予爵士爵位。此举反映了英国对人工智能发展的重视，并表彰了哈萨比斯在推动人工智能技术进步方面所做的努力。随着人工智能在全球范围内的迅速发展，英国政府希望将自己置于该领域的前沿，并表彰那些在推动人工智能技术发展方面做出卓越贡献的人士。

人工智能 DeepMind 英国政府
DeepMind首发游戏AI智能体SIMA！只用自然语言就能玩转「山羊模拟器」

【新智元导读】AI在学会工作之后，终于也能和人一样玩游戏了!DeepMind的SIMA是一个可以感知和理解各种环境的AI代理，能够在多种视频游戏设置中执行任务，未来甚至可能可以与任何虚拟环境进行互动。谷歌DeepMind在AI和游戏方面有着悠久的历史。SIMA只是刚刚开始，我们可以期待在更多的训练环境中继续建立SIMA，并整合更有能力的模型，让它变得更具泛化性和多功能性不仅仅局限于游戏。

DeepMind SIMA
北大发布新图像生成框架VAR 推理速度提高20倍

北京大学最近发布了一种新的图像生成框架，名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer，同时展现出了与大语言模型观察到的类似Scalinglaws的规律。VAR算法为计算机视觉中的自回归算法设计提供了新的见解，有望推动这一领域的进一步发展。

图像生成 AI头条

今日大家都在搜的词：

热文

3 天
7天

速度提高200倍！DeepMind推新的微调扩散模型方法DRaFT

今日大家都在搜的词：

热文

站长商机