新图像合成模型LCM SD生成图片推导步骤减少至4步！

2023-10-24 14:22 · 稿源：站长之家

要点:
研究人员提出了一种新的图像合成模型，称为潜在一致性模型（LCM），可以在少步推理的情况下生成高分辨率的图像。
LCM是从预训练的潜在扩散模型（LDM）中有效地提取出来的，可以直接预测潜在空间中的概率流ODE的解，避免了多次迭代的需要。
LCM还引入了一种新的微调方法，称为潜在一致性微调（LCF），可以在定制的图像数据集上进行快速的少步推理，实现了文本到图像的生成。

站长之家（ChinaZ.com）10月24日消息:图像合成是计算机视觉领域的一个重要研究方向，目标是根据给定的条件生成逼真的图像。近年来，潜在扩散模型（LDM）在这方面取得了显著的成果，能够生成高分辨率和高质量的图像。然而，LDM的一个主要缺点是它们需要进行多次迭代的采样过程，导致生成速度缓慢。

为了解决这个问题，本文受一致性模型的启发，提出了一种新的图像合成模型，称为潜在一致性模型（LCM）。LCM可以利用任何预训练的LDM，包括稳定扩散模型(SD)，并通过少步推理生成高分辨率的图像。LCM的核心思想是将引导反向扩散过程视为求解一个增广概率流ODE(PF-ODE)，并设计一个网络来直接预测该ODE在潜在空间中的解，从而减少迭代次数和计算量。

LCM可以从预训练的无分类器引导扩散模型中有效地提取出来，在只需要32个A100GPU小时的训练时间内，就可以生成768×768分辨率的高质量图像。以往我们用 SD 生成图片起码需要20步的推导步骤，但是使用 LCM 只需要4步就行，从一些测试结果看6-8步可能是一个理想的步骤。

项目地址:https://latent-consistency-models.github.io/

这个技术可以让4090在1秒钟生成10张512X512大小的图片.如果可以用在 Animetadiff 中的话可以大幅提高视频生成效率。

此外，论文还介绍了一种新的微调方法，称为潜在一致性微调（LCF），它专门用于在定制的图像数据集上微调预训练的LCM。LCF不需要教师扩散模型，只需要少量数据和训练步骤，就可以使LCM产生具有定制风格的图像。

论文在LAION-5B-Aesthetics数据集上对LCM进行了评估，结果表明LCM在文本到图像生成任务上达到了最先进的性能，并且具有快速、高保真、低失真和低噪声等优点。

论文还展示了LCM使用LCF在Pokemon和Simpsons两个定制数据集上生成图像的效果，证明了LCM具有良好的泛化能力和适应能力。

本文为图像合成领域提供了一种新颖且有效的方法，不仅提高了生成速度和质量，还降低了训练成本和数据需求。本文也为进一步探索潜在空间中的一致性和结构提供了一个有益的尝试。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
MoA：用于图片合成的混合注意力架构可实现风格参考和人物融合

在最新的研究中，提出了一种名为注意力混合模式的新架构，旨在个性化文本到图像扩散模型，可以实现风格参考和人物融合的效果。受大型语言模型中使用的专家混合机制的启发，MoA通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。这些应用展示了MoA在个性化图像生成领域的潜在价值和广泛适用性。

MoA AI头条
AI文生图模型PixArt-sigma，可以生成4K分辨率图片

PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目，是一个强大的文本到图像生成模型，通过弥散Transformer进行弱到强训练，旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练，从能够更好地生成高质量的4K分辨率图像。在应用方面，PixArt-Σ是一款强大的文本到图像生成工具，具有广泛的应用场景，可以满足艺术、设计、游戏开发、营销

PixArt-sigma AI头条
旷视发布HiDiffusion，SD生成速度更快，图片质量更高

最近，旷视发布的HiDiffusion技术，近日引起业界广泛关注。这一新技术只需一行代码，便能显著提升SD（扩散模型）生成图像的分辨率和生成速度，允许图像生成的分辨率高达4096×4096，同时将图像生成速度提高1.5至6倍。值得一提的是，HiDiffusion不仅支持所有SD模型，也兼容SD模型的下游模型，如Playground。

HiDiffusion AI头条
北大发布新图像生成框架VAR 推理速度提高20倍

北京大学最近发布了一种新的图像生成框架，名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer，同时展现出了与大语言模型观察到的类似Scalinglaws的规律。VAR算法为计算机视觉中的自回归算法设计提供了新的见解，有望推动这一领域的进一步发展。

图像生成 AI头条
Garment3DGen：用衣服图片就能生成逼纹理效果的3D模型

研究人员提出了一种名为Garment3DGen的方法，旨在实现3D服装的风格化和纹理生成。该方法通过结合先进的计算机视觉技术和人工智能算法，为用户提供了一个简单高效的工具，用于实现服装设计的个性化风格化。随着这一技术的不断完善和推广，我们有理由相信，未来的服装设计将更加多样化和个性化。

Garment3DGen AI头条
AI图像编辑工具Facet AI 实时图像生成，可精确控制图像元素

Facet AI是一款创新的图像编辑工具，它以其独特的功能和用户友好的操作界面，为广告制作和产品图像设计领域带来了革命性的变化。这款工具的核心优势在于其精确控制图像元素的能力，使得用户可以轻松地对图像进行实时编辑和调整。官网地址：https://facet.ai/Facet AI的直观画布操作是其一大亮点。用户可以通过简单的拖拽和调整，实现对图像

Facet AI头条
AI图像编辑软件DesignEdit 像PS一样分图层处理图片

DesignEdit是一款突破性的图像编辑软件，它采用了设计领域中常见的图层概念，为用户带来了一种全新的空间感知图像编辑体验。通过将复杂的图像编辑任务分解为多层潜在的编辑操作，DesignEdit实现了对象移除、多对象编辑、镜头平移和缩放、排版编辑以及跨图像合成等一系列高级编辑功能。这不仅为创意设计提供了无限的可能性，也为图像合成和视觉特效制作带来了新的解决方案。

DesignEdit AI头条
Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像

Adobe的图像生成AI“Firefly”以其训练集来源自AdobeStock中的图片和视频闻名。美国经济报纸彭博社报道称，Firefly的数据集实际上包含由Midjourney等公司生成的图像。”然，Tushnett教授指出，Firefly学习自Midjourney生成的图像的事实与其声称与其他图像生成AI不同的说法相矛盾。

Firefly Adobe AI头条
Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Meta与德国慕尼黑工业大学研发出创新模型ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义，也将为未来的3D图像生成领域带来更多创新可能。

ViewDiff AI头条
字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD，是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能，同时保持了模型大小的精简。随着进一步的研究和开发，Hyper-SD及其衍生技术有望在多个领域内推动AI技术的发展和应用。

Hyper AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

新图像合成模型LCM SD生成图片推导步骤减少至4步！

今日大家都在搜的词：

热文

站长商机