深入解析SDXL潜在空间以及如何改善其生成图像的方法

2023-11-24 11:10 · 稿源：站长之家

要点:
SDXL潜在空间包括4个通道，分别是亮度、青/红、绿/紫、图案/结构。
SDXL生成的颜色范围偏向黄色，原因是模型在生成过程中更偏向认知中的亮度、青/红、绿/紫，而相对较少使用蓝色。
通过实验性地探索SDXL潜在空间，作者提出了一些纠正SDXL输出的方法，包括去除异常值、平衡颜色、增加颜色范围等。

站长之家（ChinaZ.com）11月24日消息:近日，Hugging Face社区成员Timothy Alexis Vass撰写了一篇名为《Explaining the SDXL latent space》的文章，重点解释了SDXL（可能是Super Diffusion XL）潜在空间的特性以及如何改善其生成图像的方法。

据了解，SDXL潜在空间的结构包括四个通道，分别对应图像的亮度、青/红、绿/紫、以及图案/结构。这为理解SDXL生成的图像提供了基础。

SDXL生成的图像往往存在颜色偏向黄色的问题，这是因为模型更倾向于使用亮度、青/红、绿/紫这几个主要颜色，而相对较少使用蓝色。通过对SDXL潜在空间的实验性探索，Timothy Alexis Vass提供了一种直接将SDXL潜在空间转换为RGB图像的线性逼近方法。此方法允许在生成图像之前对颜色范围进行调整，从而避免在后处理阶段进行矫正。

我们可以创建一个近似函数，直接将潜在变量转换为 RGB:

deflatents_to_rgb（latents）:

在实际操作中，Timothy Alexis Vass提出了一些纠正SDXL输出的方法，包括去除异常值、平衡颜色、增加颜色范围等。通过一系列的代码实现，他展示了如何在生成图像的过程中应用这些方法，从而改善图像的质量。这些方法包括对潜在空间进行软裁剪、颜色平衡和范围增加等。

SDXL 颜色范围偏向黄色的可能原因

自然界中相对较少的东西是蓝色或白色的。在愉快的条件下，这些颜色在天空中最为突出。因此，该模型通过图像了解现实，以亮度（通道0）青色/红色(通道1)和石灰/中紫色(通道2)进行思考，其中红色和绿色是主要的，蓝色是次要的。这就是为什么 SDXL 世代通常偏向黄色(红色 + 绿色)。

在推理过程中，张量中的值将从min < -30和开始max >30，解码时的最小/最大边界大约-4为4。guidance_scale值越高，min和之间的差异就越大max。

理解边界的关键之一是查看解码过程中发生的情况:

decoded=vae.decode（latents/vae.scaling_factor）.sample#(SDXLvae.scaling_factor=0.13025)decoded=decoded.div(2).add(0.5).clamp(0，1)#Thedynamicsoutsideof0to1atthispointwillbelost

如果此时的值超出0到1的范围，则钳位中的一些信息将会丢失。因此，如果我们能够在去噪过程中进行修正，以满足 VAE 的预期，我们可能会得到更好的结果。

需要纠正什么?

如何锐化模糊图像、白平衡、改善细节、增加对比度或增加颜色范围?最好的方法是从清晰的图像开始，该图像具有正确的白平衡、良好的对比度、清晰的细节和高范围。

模糊清晰的图像、改变色彩平衡、降低对比度、获取无意义的细节以及限制色彩范围比改善图像要容易得多。

SDXL 具有非常明显的颜色偏差倾向，并将值置于实际边界之外（左图）。通过将值居中并将它们置于边界内(右图)可以轻松解决这个问题:

defcenter_tensor（input_tensor，per_channel_shift=1，full_tensor_shift=1，channels=[0，1，2，3]）:forchannelinchannels:

让我们以 SDXL 的输出为例

seed:77777777

请注意，我特意选择了较高的指导尺度。

我们如何修复这个图像?一半是绘画，一半是照片。颜色范围偏向黄色。右侧是具有完全相同设置的固定一代。

但在合理guidance_scale设置为7.5的情况下，我们仍然可以得出结论，固定输出更好，没有无意义的细节和正确的白平衡。

我们可以在潜在空间中做很多事情来总体改进一代，并且我们可以做一些非常简单的事情来针对一代中的特定错误:

异常值去除

这将通过修剪距分布平均值最远的值来控制无意义细节的数量。它还有助于以更高的guidance_scale进行生成。

#Shrinkingtowardsthemean（willalsoremoveoutliers）defsoft_clamp_tensor(input_tensor，threshold=3.5，boundary=4):ifmax(abs(input_tensor.max())，abs(input_tensor.min()))<4:returninput_tensor

色彩平衡和增加范围

我有两种主要方法来实现这一目标。第一个是在标准化值的同时向平均值收缩（这也将消除异常值），第二个是在值偏向某种颜色时进行修复。这也有助于生成更高的guidance_scale。

#Centertensor（balancecolors）defcenter_tensor(input_tensor，channel_shift=1，full_shift=1，channels=[0，1，2，3]):forchannelinchannels:

张量最大化

这基本上是通过将张量乘以一个非常小的量（例如1e-5几个步骤）来完成的，并确保最终张量在转换为 RGB 之前使用完整的可能范围(接近 -4/4)。请记住，在像素空间中，在保持完整动态的情况下降低对比度、饱和度和清晰度比增加对比度、饱和度和清晰度更容易。

#Maximize/normalizetensordefmaximize_tensor（input_tensor，boundary=4，channels=[0，1，2]）:

回调实现示例

defcallback（pipe，step_index，timestep，cbk）:iftimestep>950:

最后，Timothy Alexis Vass展示了在高引导比例下使用长提示进行生成的图像，通过对颜色范围的调整，使得整个提示成为可能。通过这些方法，可以在生成图像的初步阶段就对输出进行改善，而不是在后期进行矫正。这为提高SDXL生成图像质量提供了一种新的思路。

（举报）

相关推荐
大家在看

关键词：

SDXL

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
InstantStyle: 文本生成图像格参考，用于SD保持风格一致

InstantStyle是一个通用框架，旨在在文本到图像生成过程中实现风格与内容的有效分离。该框架采用了两种简单但强大的技术，以实现对风格和内容的有效解耦。InstantStyle还将继续改进和扩展，为用户提供更多功能和选择，助力他们在图像生成领域取得更大的成功。

InstantStyle AI头条
商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

来自香港中文大学-商汤科技联合实验室等机构的研究者们提出了FouriScale，旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。扩散模型因其卓越的性能，已逐渐超越GAN和自回归模型，成为生成式模型的主流选择。定量和定性的实验对比表明，FouriScale能够在不同预训练模型，不同分辨率下都能够保证更高的图像生成质量。

FouriScale AI头条
SDXL模型精选微调模型合集SDXL fine-tunes 覆盖各种风格可直接用于开发

Replicate上的“SDXLfine-tunes”收藏包含了一系列基于SDXL模型的精选微调模型，这些模型专为生成特定视觉风格和主题的高质量图像设计。这些微调模型利用了大型生成模型SDXL的强大功能，通过针对特定内容进行优化和调整，为用户提供了丰富的视觉创作工具。还有galleri5/icons模型，这是一个SDXL微调模型，专门用于生成光滑的图标和扁平的波普构成主义图形，带有粗边缘，基于Bing

SDXL模型 AI头条
Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像

Adobe的图像生成AI“Firefly”以其训练集来源自AdobeStock中的图片和视频闻名。美国经济报纸彭博社报道称，Firefly的数据集实际上包含由Midjourney等公司生成的图像。”然，Tushnett教授指出，Firefly学习自Midjourney生成的图像的事实与其声称与其他图像生成AI不同的说法相矛盾。

Firefly Adobe AI头条
AI图像编辑工具Facet AI 实时图像生成，可精确控制图像元素

Facet AI是一款创新的图像编辑工具，它以其独特的功能和用户友好的操作界面，为广告制作和产品图像设计领域带来了革命性的变化。这款工具的核心优势在于其精确控制图像元素的能力，使得用户可以轻松地对图像进行实时编辑和调整。官网地址：https://facet.ai/Facet AI的直观画布操作是其一大亮点。用户可以通过简单的拖拽和调整，实现对图像

Facet AI头条
DreamWalk：实现对图像生成风格和内容的精细控制

在图像生成领域，精确控制图像的风格和特征一直是一个具有挑战性的问题。DreamWalk技术的出现为这一难题提供了解决方案，使得用户可以更加自由地决定图像中哪部分应该更加强烈地体现某种风格哪部分则保持原样或采用另一种风格。这一功能为用户提供了一种简单有效的方式，将他们的照片或收藏的图像转化为独特的艺术风格，从丰富了数字艺术的创作方式。

DreamWalk AI头条
Align Your Steps：低步数推理保持高质量结果适用于SD 1.5和SDXL

在深度学习领域，扩散模型作为生成建模的前沿方法已经得到广泛应用。DMs的一个关键缺点是其较慢的采样速度，这主要是由于需要通过大型神经网络进行多次顺序函数评估。在视频生成方面进行了研究，发现使用优化计划可以在视频生成过程中产生更加稳定的视频，减少随时间推移的颜色失真。

AlignYourSteps AI头条
DesignEdit官网体验入口 AI图像编辑空间感知工具使用方法

DesignEdit是一款集成了各种空间感知图像编辑功能的统一框架。它通过将空间感知图像编辑任务分解为多层潜在表征的分解和融合两个子任务来实现。立即访问DesignEdit官网，体验最先进的空间感知图像编辑工具！

DesignEdit
FourieScale:无需训练，生成高分辨率图像

香港中文大学和商汤科技联合实验室的研究人员提出了一种名为FourieScale的新方法，用于改善利用预训练扩散模型生成高分辨率图像的效果。随着扩散模型在生成式模型中的应用日益普遍，传统问题是生成超出训练分辨率的图像时会出现模式重复和人工伪影的情况。这一研究成果为图像生成技术的发展提供了新的思路和方法，值得关注。

FourieScale AI头条
FouriScale官网体验入口高分辨率图像AI生成工具使用方法教程指南

FouriScale是一款可以从预训练的扩散模型生成高分辨率图像的工具。它通过创新的、无需训练的方法，结合膨胀技术和低通操作的方法，成功实现了灵活处理各种宽高比文本到图像生成。想要了解更多关于高分辨率图像生成工具FouriScale的使用方法，请访问FouriScale官方网站。

FouriScale

今日大家都在搜的词：

热文

3 天
7天

深入解析SDXL潜在空间以及如何改善其生成图像的方法

今日大家都在搜的词：

热文

站长商机