MIT与Adobe联手开发DMD：生成图像质量媲美Stable Diffusion ，速度快30倍

2023-12-07 11:35 · 稿源：站长之家

**划重点:**
1. 🔄 **创新方法:** 研究团队提出了分布匹配蒸馏（DMD）方法，将扩散模型转化为一步图像生成器，在保持图像质量的同时显著减少神经网络评估次数。
2. 🌐 **数据优化:** 通过对文本到图像数据进行精细调整，研究团队成功解决了在通用文本到图像数据上扩大模型的难题，实现了高效的图像生成。
3. 📈 **性能超越:**速度超越 StableDiffusion v1.5，图像质量相当。利用扩散模型逼真地生成图像，通过训练两个扩散模型估计真假分布的得分函数，采用梯度更新生成器，使图像更逼真，虚假度更低。

站长之家（ChinaZ.com）12月7日消息:MIT和Adobe的研究人员最近提出了一种新颖的人工智能方法，称之为分布匹配蒸馏（DMD），该方法旨在将扩散模型转化为一步图像生成器，从而显著提高图像生成的效率和质量。据称他们的一步生成器（Gθ）在生成逼真图像方面不仅与 StableDiffusion v1.5相媲美，而且速度更快30倍。

创新方法方面，传统的扩散模型在图像生成方面取得了巨大的进展，但其采样过程相对繁琐，需要通过逐步去噪的迭代过程逐渐减少高斯噪声样本中的噪声，这限制了生成管道作为创意工具时的交互性。与此不同，DMD方法通过将初始多步扩散采样找到的噪声→图像映射压缩成单通道学生网络，加速采样过程。通过这一创新，DMD成功解决了高昂的神经网络评估成本的问题，使得一步生成器在多项任务上表现优越。

在数据优化方面，研究团队通过在文本到图像数据上进行精细调整，不仅学习了数据分布，还学习了蒸馏生成器正在产生的虚构分布。这一方法通过利用预训练扩散模型的去噪扩散输出来解释梯度方向，从而推动人工生成图像向更真实和 less 虚构的方向发展。

性能超越方面，DMD在多项任务中都取得了令人瞩目的成绩。在ImageNet上，其FID指标达到2.62，比一致性模型提升了2.4倍。

此外，DMD在MS COCO2014-30k上获得了11.49的竞争性FID，同时保持了与更昂贵的Stable Diffusion模型相媲美的图像质量。值得注意的是，DMD方法在减少神经网络评估次数的同时，能够在FP16推断下以每秒20帧的速度生成512×512的图像，为交互式应用开辟了许多可能性。

研究团队通过结合分布匹配方法、GANs和pix2pix的灵感和见解，展示了DMD方法如何通过使用扩散模型来建模真实和虚构分布，并通过简单的回归损失匹配多步扩散输出，训练出高保真的一步生成模型。通过在多个任务上的验证，DMD一步生成器在各项基准测试中均表现优异，包括一致性模型、渐进蒸馏和矫正流等。

这一研究为图像生成领域带来了崭新的可能性，通过创新的方法，使得生成模型在效率和质量方面都取得了显著提升。

项目网址:https://tianweiy.github.io/dmd/

论文网址:https://arxiv.org/abs/2311.18828

（举报）

相关推荐

关键词：

DMD
AI头条

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

Firefly 通过在单一空间内提供图像、视频、音频和矢量生成功能，将为基于人工智能的创意制作体验带来革新……

adobe firefly AI模型
比GPT-4o更强？三位Adobe老将出走，做出了超强文生图模型丨AI新榜评测

GPT-4o，被击败了?最近大伙都被GPT-4o生成的各种“整活”图像刷屏了吧，各种动漫油画风格改图、经典影视复现、漫画设计改图……新的玩法每天都在涌现，大有“AI一日，人间一年”之势。甚至OpenAICEOSamAltman都累了:“收手吧，我们需要休息!”但就在GPT-4o火遍全球之际，一个来自初创团队的新模型ReveImage，却凭借其在特定图像生成领域的出色表现，悄然赢得了用户和专业榜单的

GPT-4o Reve Image
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码
ChatGPT图像生成爆火！OpenAI CEO在线求助：急需10万块GPU

OpenAI近期推出的全新图像生成工具引发了热潮，用户使用ChatGPT即可创作出吉卜力等风格的AI艺术作品。这一功能不仅推动了ChatGPT用户数的创新高导致服务器负担过重，甚至一度限制了该功能的使用。SensorTower的数据显示，ChatGPT应用的全球下载量和每周活跃用户数分别较上周增长了11%和5%应用内购买收入则增加了6%。

OpenAI ChatGPT 图像生成
荐AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

本期AI日报聚焦多项AI技术突破与应用：1)Moonshot AI推出开源音频模型Kimi-Audio，基于13亿小时训练数据，支持语音识别等任务；2)阶跃星辰开源图像编辑模型Step1X-Edit，展现强大生成能力；3)夸克AI上线"拍照问夸克"功能，实现视觉问答；4)苹果iOS18.5将在中国推送，带来智能功能；5)谷歌发布601个生成式AI应用案例，覆盖多行业；6)微软推出深度整合Windows的UFO²自动化系统；7)OpenAI升级ChatGPT至GPT-4o版本，提升STEM领域能力；8)Ema公司推出高性价比语言模型EmaFusion；9)Liquid AI发布面向边缘设备的Hyena Edge模型；10)LemonAI推出实时音视频数字人产品Slice Live。此外，国内方面，智谱与生数科技达成战略合作推动大模型发展，宝马中国宣布新车将接入DeepSeek技术。

AI日报音频技术开源模型
低端显卡登上AI的大船！6GB显存就能生成高质量视频

快科技4月20日消息，GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala，发布了一项突破性的新技术FramePack，通过在视频扩散模型中使用固定长度的时域上下文，可以更高效地生成时间更长、质量更高的视频。根据实测，基于FramePack构建的130亿参数模型，只需一块6GB显存的显卡，就能生成60秒钟的视频。FramePack是一种神经网络架构，使用多级优化策略，完成本地AI视频生成。目前，�
字节发布豆包1.5深度思考模型：“实拍级”图像生成

快科技4月17日消息，据报道，今日，在火山引擎AI创新巡展杭州站的现场，字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出，豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中，它能够精准高效地处理复杂问题；在创意写作等通用任务方面，同样表现出色。该模型采用MoE架构，总参数为200B，激�

豆包1.5深度思考模型火山引擎AI创新字节跳动技术发布
苹果发布iOS 18.5开发者预览版Beta 3：正式版5月登场

苹果公司发布iOS 18.5开发者预览版Beta 3，主要更新包括邮件和设置应用功能优化，强化AppleCare覆盖范围信息，并计划推出专为中国市场打造的智能语音助手，与百度、阿里巴巴合作。此外，百度文心大模型将成为中国版苹果智能云端大脑，提供支持。此前，百度一直在开发一种能处理图片和文本的人工智能搜索功能，并升级中文版Siri语音助手。中国版苹果智能还将安装阿里云支持的审查引擎，确保生成内容符合本地法律法规。

iOS 18.5 苹果更新
荐AI日报：智谱发布Agent产品AutoGLM沉思；谷歌Gemini 2.5 Pro免费开放使用；ChatGPT原生图像生成功能向免费用户推出

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱发布Agent产品AutoGLM沉思:首个实现边想边干的智能体智谱AI在2025中关村论坛上发布了其最新的Agent产品——AutoGLM沉思。公司致力于推动具身智能技术的发展，特别是在机器人领域的创新，标志着其在全球市场中的竞争力不断增强。

人工智能智能体技术深度学习
王腾用REDMI Turbo 4 Pro给咖啡机充电：一部手机能打300杯咖啡

Redmi Turbo 4 Pro将于4月24日发布，配备7550mAh大电池和22.5W反向快充，可为手表、耳机等设备充电。该机采用6.83英寸1.5K大屏，首发第四代骁龙8s移动平台，安兔兔跑分240万。新平台采用台积电4nm工艺，CPU性能提升31%，GPU提升49%。王腾还展示创新玩法：用手机给咖啡机供电，一部手机电量可制作300杯咖啡。此外，新机将配备Redmi超强冰封散热系统。

REDMI Turbo4Pro 反向快充

热文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

MIT与Adobe联手开发DMD：生成图像质量媲美Stable Diffusion ，速度快30倍

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

比GPT-4o更强？三位Adobe老将出走，做出了超强文生图模型丨AI新榜评测

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

ChatGPT图像生成爆火！OpenAI CEO在线求助：急需10万块GPU

荐AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

低端显卡登上AI的大船！6GB显存就能生成高质量视频

字节发布豆包1.5深度思考模型：“实拍级”图像生成

苹果发布iOS 18.5开发者预览版Beta 3：正式版5月登场

荐AI日报：智谱发布Agent产品AutoGLM沉思；谷歌Gemini 2.5 Pro免费开放使用；ChatGPT原生图像生成功能向免费用户推出

王腾用REDMI Turbo 4 Pro给咖啡机充电：一部手机能打300杯咖啡

热文

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

站长商机