首页 > 业界 > 关键词  > DMD最新资讯  > 正文

MIT研究员推新AI图片生成框架DMD:AI 单步生成高质量图像 速度快30倍

2024-03-22 09:39 · 稿源:站长之家

划重点:

⭐️ MIT 研究人员开发了一种单步 AI 图像生成器,比传统扩散模型快30倍,同时保持图像质量。

⭐️ 新方法结合了教师 - 学生模型,通过分配匹配蒸馏实现单步图像生成。

⭐️ DMD 框架加速了图像生成,为设计工具、药物发现和3D 建模等领域带来潜在益处。

站长之家(ChinaZ.com)3月22日 消息:在当今人工智能时代,计算机可以通过扩散模型生成自己的 “艺术”,逐步向嘈杂的初始状态添加结构,直到清晰的图像或视频出现。

扩散模型突然变得异常受欢迎:输入几个词,即可体验现实与幻想交汇的梦幻景象。在幕后,这涉及一个复杂、耗时的过程,需要算法多次迭代才能完美图像。

image.png

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员引入了一个新框架,将传统扩散模型的多步过程简化为单步,解决了先前的限制。这是通过一种教师 - 学生模型实现的:教导一个新的计算机模型模仿生成图像的更复杂原始模型的行为。

这种方法称为分配匹配蒸馏(DMD),保留了生成图像的质量,同时实现了更快的生成速度。

DMD 巧妙地包含两个组成部分。首先,它使用回归损失,锚定映射以确保对图像空间的粗略组织,使训练更稳定。接下来,它使用分配匹配损失,确保使用学生模型生成给定图像的概率与其在真实世界中出现的频率相对应。通过利用两个扩散模型作为指导,帮助系统理解真实图像与生成图像之间的差异,并使训练快速的单步生成器成为可能。

该系统通过训练一个新网络来最小化其生成的图像与传统扩散模型使用的训练数据集中的图像之间的分布差异来实现更快的生成。该团队使用预训练网络来简化新学生模型的过程。通过复制和微调原始模型的参数,团队实现了新模型的快速训练收敛,该模型能够使用相同的架构基础生成高质量图像。

在与通常方法的对比测试中,DMD 表现一致。在基于 ImageNet 特定类别生成图像的流行基准测试中,DMD 是第一个单步扩散技术,几乎与原始、更复杂模型的图像媲美,具有非常接近的 Fréchet inception distance(FID)分数,这是令人印象深刻的,因为 FID 是评判生成图像质量和多样性的指标。

此外,DMD 在工业规模的文本到图像生成中表现出色,并实现了最先进的单步生成性能。在处理更棘手的文本到图像应用时,仍然存在一些质量差距,这表明未来还有改进的空间。

DMD 生成的图像性能与蒸馏过程中使用的教师模型的能力密切相关。当前版本使用 Stable Diffusion v1.5作为教师模型,学生继承了一些限制,如渲染文本和小脸部的细节描绘,这表明更先进的教师模型可能进一步提升 DMD 生成的图像。

论文网址:https://arxiv.org/abs/2311.18828

举报

  • 相关推荐
  • 如何辨别AI生成的图片文字声音?分享一些小技巧

    在人工智能生成内容日益普及的今天,辨别AI生成的图片、文字和声音变得尤为重要。以下是一些实用的技巧,希望能帮到你……

  • 如何用DeepSeek生成高质量的竞品SWOT分析报告

    本教程介绍如何利用DeepSeek AI工具快速生成电商平台供应链SWOT分析报告。以京东vs拼多多为例,通过输入指定指令,AI可自动生成包含优势、劣势、机会和威胁四个维度的结构化分析报告,重点突出两者供应链能力差异。操作流程包括:1)登录DeepSeek官网进入对话界面;2)输入SWOT分析指令;3)获取AI生成结果。该方法能显著提升商业分析效率,建议结合最新行业数据对报告进�

  • 月访问量超千万的AI图片产品,如何炼成

    作为与 AI 最容易产生化学反应的图片行业,在 AIGC 来临后最早起势,但同样面临竞争激烈、产品同质化等挑战,而在如今图片编辑细分方向几乎处于横盘的状态下,这类产品前路如何、团队如何维系用户基础、又怎样探索新的增长机会?在上个月的 GTC 全球流量大会上,我

  • 抗衰速度快3倍!C9NMN盼生派Pro版全球首发,让你比同龄人年轻10岁

    亚洲抗衰科技领军品牌盼生派(PSSOPP)发布革命性抗衰产品C9NMN-Pro系列,采用CRISPR-Cas9基因编辑技术结合NAD+能量金三角配方,抗衰效率提升200%。产品通过四大国际认证,纯度达99.9%,28天实现细胞级逆龄。创新肠溶缓释技术使吸收率提升3倍,男女专属配方分别针对职场高压和内外抗衰需求。全球69.8%市场占有率,1000+真人实测显示87.95%用户反馈显著改善。618活动期间经典版3瓶8折103

  • 用AI图像融合工具创造无缝图像融合,带来震撼视觉体验!

    AI图像融合工具正式上线,为您带来最先进的AI图像融合技术。借助这款工具,用户可以轻松地将多张图片融合成一张创意十足的视觉作品,展现无与伦比的艺术效果。

  • 如何用 AI工具 生成论文选题

    本教程介绍如何利用DeepSeek AI工具生成学术论文选题。首先需要明确自身专业、研究方向、兴趣领域等研究信息。通过特定格式构建提问指令,在DeepSeek平台输入后,AI会基于算法分析生成10个相关选题。用户需从研究价值、创新性、可行性等维度评估选题,筛选出最适合的研究方向。该工具能有效帮助研究者快速获取选题思路,提高学术论文创作效率。

  • 埃克塞尔集团携手孝南区共绘算力经济新蓝图——“数智创新 算力未来”主题活动助推区域高质量发展

    2025年5月21日,中国智能计算产业联盟等单位在孝南区举办"数智创新+算力未来"专家座谈会。会议围绕算力经济发展展开讨论,重点包括:1)孝南区正加速布局3D专用超算中心,推动算力向"水电化"方向发展;2)专家建议构建分布式算力网络应对国际竞争,探索"东数西算"本地化路径;3)孝南区依托纸卫品、食品等"2+2"主导产业优势,计划建设适配型智算中心;4)埃克塞尔集团表示将推动算力技术与本地光电子等产业深度融合。会议达成多项合作共识,将共同推进智算产业园区规划建设,助力湖北算力经济高质量发展。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • 小白如何用海绵音乐生成AI音乐?

    本教程介绍如何利用AI音乐生成工具"海绵音乐"零基础创作个性化音乐。通过输入情绪(治愈/欢快)、乐器(钢琴/吉他)、节奏(慢/中/快)等关键词,AI可快速生成适合短视频配乐、背景音乐等场景的原创音乐。操作流程简单:注册账号→输入关键词→生成试听→下载使用。关键技巧包括使用具体关键词组合、多次调整优化。注意商用需确认版权,部分功能需付费。该工具让音

  • 如何用DeepSeek快速起草高质量商务合作邮件

    本文介绍如何利用DeepSeek AI快速生成专业商务合作邀约邮件。传统邮件撰写耗时费力,而通过该工具只需四步:1)登录官网输入指令;2)提供合作对象、内容等关键信息;3)AI自动生成结构清晰、措辞专业的邮件草稿;4)复制到邮箱发送或下载存档。该工具能显著提升商务沟通效率,特别适合需要频繁进行业务往来的职场人士,支持个性化调整并保留专业度,是现代化办公的高效解决方案。(139字)