首页 > 业界 > 关键词  > SDXL最新资讯  > 正文

深入解析SDXL潜在空间以及如何改善其生成图像的方法

2023-11-24 11:10 · 稿源:站长之家

要点:

  • SDXL潜在空间包括4个通道,分别是亮度、青/红、绿/紫、图案/结构。

  • SDXL生成的颜色范围偏向黄色,原因是模型在生成过程中更偏向认知中的亮度、青/红、绿/紫,而相对较少使用蓝色。

  • 通过实验性地探索SDXL潜在空间,作者提出了一些纠正SDXL输出的方法,包括去除异常值、平衡颜色、增加颜色范围等。

站长之家(ChinaZ.com)11月24日 消息:近日,Hugging Face社区成员Timothy Alexis Vass撰写了一篇名为《Explaining the SDXL latent space》的文章,重点解释了SDXL(可能是Super Diffusion XL)潜在空间的特性以及如何改善其生成图像的方法。

据了解,SDXL潜在空间的结构包括四个通道,分别对应图像的亮度、青/红、绿/紫、以及图案/结构。这为理解SDXL生成的图像提供了基础。

SDXL生成的图像往往存在颜色偏向黄色的问题,这是因为模型更倾向于使用亮度、青/红、绿/紫这几个主要颜色,而相对较少使用蓝色。通过对SDXL潜在空间的实验性探索,Timothy Alexis Vass提供了一种直接将SDXL潜在空间转换为RGB图像的线性逼近方法。此方法允许在生成图像之前对颜色范围进行调整,从而避免在后处理阶段进行矫正。

我们可以创建一个近似函数,直接将潜在变量转换为 RGB:

deflatents_to_rgb(latents):

在实际操作中,Timothy Alexis Vass提出了一些纠正SDXL输出的方法,包括去除异常值、平衡颜色、增加颜色范围等。通过一系列的代码实现,他展示了如何在生成图像的过程中应用这些方法,从而改善图像的质量。这些方法包括对潜在空间进行软裁剪、颜色平衡和范围增加等。

SDXL 颜色范围偏向黄色的可能原因

自然界中相对较少的东西是蓝色或白色的。在愉快的条件下,这些颜色在天空中最为突出。因此,该模型通过图像了解现实,以亮度(通道0)青色/红色(通道1)和石灰/中紫色(通道2)进行思考,其中红色和绿色是主要的,蓝色是次要的。这就是为什么 SDXL 世代通常偏向黄色(红色 + 绿色)。

在推理过程中,张量中的值将从min < -30和开始max >30,解码时的最小/最大边界大约-4为4。guidance_scale值越高,min和之间的差异就越大max。

理解边界的关键之一是查看解码过程中发生的情况:

decoded=vae.decode(latents/vae.scaling_factor).sample#(SDXLvae.scaling_factor=0.13025)decoded=decoded.div(2).add(0.5).clamp(0,1)#Thedynamicsoutsideof0to1atthispointwillbelost

如果此时的值超出0到1的范围,则钳位中的一些信息将会丢失。因此,如果我们能够在去噪过程中进行修正,以满足 VAE 的预期,我们可能会得到更好的结果。

需要纠正什么?

如何锐化模糊图像、白平衡、改善细节、增加对比度或增加颜色范围?最好的方法是从清晰的图像开始,该图像具有正确的白平衡、良好的对比度、清晰的细节和高范围。

模糊清晰的图像、改变色彩平衡、降低对比度、获取无意义的细节以及限制色彩范围比改善图像要容易得多。

SDXL 具有非常明显的颜色偏差倾向,并将值置于实际边界之外(左图)。通过将值居中并将它们置于边界内(右图)可以轻松解决这个问题:

image.png

defcenter_tensor(input_tensor,per_channel_shift=1,full_tensor_shift=1,channels=[0,1,2,3]):forchannelinchannels:

让我们以 SDXL 的输出为例

seed:77777777

请注意,我特意选择了较高的指导尺度。

我们如何修复这个图像?一半是绘画,一半是照片。颜色范围偏向黄色。右侧是具有完全相同设置的固定一代。

image.png

但在合理guidance_scale设置为7.5的情况下,我们仍然可以得出结论,固定输出更好,没有无意义的细节和正确的白平衡。

image.png

我们可以在潜在空间中做很多事情来总体改进一代,并且我们可以做一些非常简单的事情来针对一代中的特定错误:

异常值去除

这将通过修剪距分布平均值最远的值来控制无意义细节的数量。它还有助于以更高的guidance_scale进行生成。

#Shrinkingtowardsthemean(willalsoremoveoutliers)defsoft_clamp_tensor(input_tensor,threshold=3.5,boundary=4):ifmax(abs(input_tensor.max()),abs(input_tensor.min()))<4:returninput_tensor

色彩平衡和增加范围

我有两种主要方法来实现这一目标。第一个是在标准化值的同时向平均值收缩(这也将消除异常值),第二个是在值偏向某种颜色时进行修复。这也有助于生成更高的guidance_scale。

#Centertensor(balancecolors)defcenter_tensor(input_tensor,channel_shift=1,full_shift=1,channels=[0,1,2,3]):forchannelinchannels:

张量最大

这基本上是通过将张量乘以一个非常小的量(例如1e-5几个步骤)来完成的,并确保最终张量在转换为 RGB 之前使用完整的可能范围(接近 -4/4)。请记住,在像素空间中,在保持完整动态的情况下降低对比度、饱和度和清晰度比增加对比度、饱和度和清晰度更容易。

#Maximize/normalizetensordefmaximize_tensor(input_tensor,boundary=4,channels=[0,1,2]):

回调实现示例

defcallback(pipe,step_index,timestep,cbk):iftimestep>950:

最后,Timothy Alexis Vass展示了在高引导比例下使用长提示进行生成的图像,通过对颜色范围的调整,使得整个提示成为可能。通过这些方法,可以在生成图像的初步阶段就对输出进行改善,而不是在后期进行矫正。这为提高SDXL生成图像质量提供了一种新的思路。

举报

  • 相关推荐
  • 微算法科技(NASDAQ MLGO):以隐私计算区块链筑牢多方安全计算(MPC)安全防线

    微算科技开发的隐私计算区块链将区块链技术融入多方安全计算(MPC),构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约,对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护,确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性,在金融、医疗、政务等领域实现跨主体数据安全协作,释放数据价值。

  • PCEVA深度评测:忆联AE531 QLC SSD以高效稳定,从容应对多元应用场景挑战

    PCEVA对忆联首款QLC商用消费级SSD AE531进行深度评测。该产品在性能测试中全面超越同级,顺序读写达6817/5680MB/s,SLC缓存策略提供约110GB空间,60℃满载无降速。跨平台兼容性与低TCO设计满足企业降本增效需求,验证了QLC在商用场景下的稳定优势。

  • 微算法科技(NASDAQ MLGO)研发基于AI的动态权重学习模型,开启区块链账户关联分析智能新时代

    微算法科技(NASDAQ MLGO)推出基于AI的动态权重学习模型,解决区块链账户关联分析中传统静态模型难以适应业务快速变化的问题。该模型采用分层架构,结合注意力机制LSTM、联邦学习等技术,实时捕捉交易模式演变,动态调整账户关联权重。在分片效率、风险控制、资源分配等领域应用效果显著,提升交易处理速度与欺诈识别率。未来计划融合多模态数据,探索量子机器�

  • 苹果藏了一手!M5 MacBook Pro隐形升级:SSD速度提升211%

    苹果在前不久正式推出了新款M5 MacBook Pro,不过在外观上缺乏明显变化,可能给人留下了苹果只是升级了M5芯片就完事”的印象。 然而最新的测试显示,其固态硬盘速度也有着大幅提升,对比M4 MacBook Pro,读写速度最高竟提升了211%。 根据Max Tech的对比测试,M5和M4 MacBook Pro在内部布局、单风扇和单热管散热方案上保持一致,都采用了两颗NAND闪存芯片以最大化SSD性能。 不过,在

  • 马斯克:特斯拉FSDV14.2会大规模推送

    特斯拉FSD V14.2无人驾驶系统即将全面更新,马斯克确认该系统稳定性更佳、功能更完善。新版已解决超92%技术障碍,尤其在变道迟疑和刹车异常方面优化显著。新增"疯狂麦克斯"模式兼顾高速行驶与主动变道策略,智能性较前代大幅提升。实测显示系统能高效应对复杂路况,完成并行操作,体现高识别功能与稳健驾驶风格。马斯克表示V14.2将推动FSD大规模应用,后续版本将持续迭代,助力无人驾驶迈向新时代。

  • 忆联AE531 QLC SSD以三重创新,破局存储密度与能效

    在AI与高性能计算推动下,存储技术不再局限于容量突破,更致力于性能、能效与兼容性的全局优化。忆联消费级SSD AE531以QLC介质为基础,通过架构创新与智能温控实现存储密度提升超30%、运行温度≤60℃及无缝兼容三大突破。其采用优化的DRAM-less架构,顺序读写达6800/5600MB/s,4K随机读写达700K/800K IOPS,突破传统QLC性能瓶颈。产品通过7000余项测试,支持全平台兼容与硬件加密,以高密度、低功耗、强兼容的核心竞争力重新定义消费级SSD的TCO价值体系,推动TB级存储普及。

  • 新SDXL蒸馏模型SDXL Flash 速度相对LCM更慢些图像质量更好

    SDXLFlash是一个由SDXL团队与ProjectFluently合作推出的新型快速高质量文本到图像转换模型。尽管相对于LCM、Turbo和Lightning模型,SDXLFlash的速度稍慢,但在图像质量上表现更佳。SDXLFlash的推出为需要在速度和质量之间取得平衡的图像生成任务提供了新的选择,特别是对于那些追求高质量输出的用户和应用场景。

  • SDXL模型精选微调模型合集SDXL fine-tunes 覆盖各种风格 可直接用于开发

    Replicate上的“SDXLfine-tunes”收藏包含了一系列基于SDXL模型的精选微调模型,这些模型专为生成特定视觉风格和主题的高质量图像设计。这些微调模型利用了大型生成模型SDXL的强大功能,通过针对特定内容进行优化和调整,为用户提供了丰富的视觉创作工具。还有galleri5/icons模型,这是一个SDXL微调模型,专门用于生成光滑的图标和扁平的波普构成主义图形,带有粗边缘,基于Bing

  • 打破应用孤岛——个推AI SDK全面接入MCP全场景能力

    大模型技术正推动产业从移动互联网向智能互联网跃迁,用户需求转向场景化、主动化、闭环化的智能体验。个推推出行业首个AI+SDK,集成自然语言交互、上下文理解、行业知识库等能力,帮助APP一键集成AI功能,降低开发成本。通过智能搜索、跨应用服务协同(MCP)等,实现从"字面匹配"到"意图识别"的升级,为用户提供精准服务。该方案已接入AI协同应用创新平台,支持多行业快速构建专业可信的智能应用生态。

  • Animagine XL 3.1发布:一个开源的SDXL动漫模型

    AnimagineXL3.1,一款全新的开源动漫主题文本到图像模型,已经正式发布。该版本在原有的基础上进行了一系列的升级和优化,使其对广泛的动漫作品和风格的理解更加深入,覆盖了从古老到现代的各种艺术风格。这些图像覆盖了广泛的动漫角色、风格和主题,为模型提供了一个深厚的知识基础。

今日大家都在搜的词: