T2I扩散模型PIXART-α：图像生成质量媲美Stable Diffusion

2023-10-16 10:01 · 稿源：站长之家

划重点:
新时代的逼真图像合成:文本到图像（T2I）生成模型DALLE2、Imagen和Stable Diffusion，对后续应用产生深远影响。
降低成本的高质量图像生成:研究人员提出PIXART-α，大幅降低了训练成本，同时保持了与最新图像生成器相媲美的图像质量。
改进文本到图像生成:通过创新方法，包括训练策略和数据集改进，提高了T2I模型的效率和质量。

站长之家（ChinaZ.com）10月16日消息:最近，文本到图像（T2I）生成模型如DALLE2、Imagen和Stable Diffusion的发展，开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响，还为研究社区和企业提供了许多下游应用的机会。

然而，这些复杂的模型需要巨大的计算资源来进行训练。例如，训练SD v1.5需要6，000块A100GPU，成本约为32万美元。而更大的模型RAPHAEL，甚至需要60，000块A100GPU，成本高达308万美元。此外，训练会产生大量的二氧化碳排放，给环境造成了压力，例如，RAPHAEL的训练会产生35吨的二氧化碳排放，相当于一个人七年的排放量。

这种高昂的价格限制了研究社区和企业获得这些模型，严重阻碍了人工智能生成内容（AIGC）领域的发展。关键问题是，是否可以以更少的资源开发高质量的图像生成模型?

来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员提出了PIXART-α，它显著降低了训练成本，同时保持了与最新图像生成器相匹敌的图像质量。他们提出了三个主要的设计思路:

首先，他们通过分解训练计划，将文本到图像生成问题划分为三个简单的子任务:学习自然图像像素的分布、学习文本图像对齐以及提高图像的美观度。通过使用低成本的类别条件模型初始化T2I模型，大幅降低了第一个子任务的学习成本。其次，他们提出了一个训练范例，包括在信息密度高的文本图像对数据上进行预训练，然后在更高审美质量的数据上进行微调，以提高训练效果。他们还使用交叉注意力模块来注入文本条件，并简化了计算密集的类别条件分支，从而提高了效率。

此外，他们提出了一种重新参数化方法，可以让修改后的文本到图像模型直接导入原始类别条件模型的参数。这样一来，他们可以利用ImageNet关于自然图片分布的过去知识，为T2I Transformer提供合理的初始化，加速训练过程。

在高质量信息方面，他们的研究揭示了现有的文本-图像对数据集存在显著缺陷，例如LAION。文本描述经常受到严重的长尾效应影响（即很多名词出现频率极低），而且缺乏信息内容(通常只描述图像中的一部分物体)。这些缺陷极大地降低了T2I模型训练的效果，需要数百万次迭代才能获得可靠的文本图像对齐。他们建议使用最先进的视觉-语言模型进行自动标注，以在SAM上生成说明，从而克服这些问题。

SAM数据集具有大量多样化的对象，这使其成为生成信息密度高的文本-图像对的理想来源，更适合文本-图像对齐学习。他们的聪明方法使其模型的训练非常高效，仅需675块A100GPU天和26，000美元。与Imagen相比，他们的方法使用更少的训练数据量（0.2% vs. Imagen）和更短的训练时间(2% vs. RAPHAEL)。他们的训练费用约为RAPHAEL的1%，为他们节省了约300万美元。

关于生成质量，他们的用户研究试验显示，PIXART-α提供了比当前SOTA T2I模型、Stable Diffusion等更好的图像质量和语义对齐，此外，它在T2I-CompBench上的性能显示出在语义控制方面具有优势。

他们预计，他们有效训练T2I模型的努力将为AIGC社区提供有用的见解，并帮助更多的独立学术界或公司以更实惠的价格生成高质量的T2I模型。

总之，PIXART-α具有以下特色和功能:

高质量图像生成:PIXART-α基于Transformer技术，能够生成高质量、艺术性强、高细节、广角镜头的图像，包括明亮的场景、鸟瞰图、古城、幻想、华丽的光线、镜面反射等。
低培训成本:与其他先进的文本到图像模型相比，PIXART-α的培训成本明显降低，仅需相对较少的训练资源，从而显著降低了培训过程中的时间和经济成本。
高分辨率图像合成:PIXART-α支持高分辨率图像的合成，可以生成高达1024px分辨率的图像，这有助于满足商业应用的需求。
训练效率:该模型提出了一种训练策略分解，通过优化不同的训练步骤来提高训练效率，包括像素依赖性、文本图像对齐和图像美学质量的优化。
CO2排放减少:PIXART-α的低培训成本也导致了较低的CO2排放，对环境友好，有助于减少碳排放。
支持文本-图像对齐:该模型强调了文本-图像对之间概念密度的重要性，并利用大型视觉语言模型自动标记密集的伪标题以提高文本-图像对齐的质量。
控制功能:PIXART-α还提供了控制功能，允许用户生成定制图像，精确修改物体颜色等，以满足特定需求。

PIXART-α论文网址:https://arxiv.org/abs/2310.00426

PIXART-α项目网址:https://pixart-alpha.github.io/

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
新型AI超分辨率方法StableSR 利用预训练扩散模型提高图像保真度

StableSR是一种创新性的AI方法，旨在通过利用预训练扩散模型的威力来增强超分辨率任务。传统的SR方法通常需要大量的计算资源来从头开始训练扩散模型，这可能会损害它们的生成先验知识。通过利用预训练的扩散模型并结合创新技术，如时间感知编码器、可控特征包装模块和渐进聚合采样策略，StableSR为将扩散先验知识应用于图像恢复任务的未来研究提供了坚实的基础。

StableSR
OnnxStream：内存友好的机器学习推理引擎可在树莓派Zero 2上运行Stable Diffusion 1.5

OnnxStream是一款专注于减少内存占用、提高推理效率的机器学习推理引擎。它的设计目标是在资源受限的环境中运行深度学习模型，如树莓派Zero2，该设备只有512MB的RAM。它的跨平台性使得用户可以在不同的设备上灵活使用。

OnnxStream
Deci AI推出8.2亿参数的文本到图像潜在扩散模型DeciDiffusion 1.0

DeciAI最近推出了DeciDiffusion1.0，这是一项令人振奋的创新，旨在解决文本到图像生成领域的挑战。将文本描述转化为栩栩如生的图像一直是人工智能领域的难题，因为这涉及到自然语言理解和视觉内容创建之间的巨大差距。随着研究人员继续推动AI能够实现的界限，我们可以期待进一步的突破，使我们更接近一个世界，其中文本无缝地转化为引人入胜的图像，从在各个行业和领�

DeciDiffusion AI头条
腾讯开源StableDiffusion工作流保存插件LightDiffusionFlow

腾讯宣布开源LightDiffusionFlow，LightDiffusionFlow是一个开源插件，基于AI绘画开源平台StableDiffusionwebUI开发来。它可以帮助用户一键保存和复现SD绘画工作流，包括模型、提示词、垫图和其他第三方插件的参数设置。对于SD初学者来说，使用Flow文件可以快速上手SD，降低学习和使用门槛;对于SD进阶者来说，可以保存优质的工作流并快速复用，减少操作成本，并传播AI绘画能力;对于企业团队来说，可以建立可复用的AI绘画工作流，快速建立团队的AI绘画能力，实现降本增效。
荐AI视野：OpenAI开发者大会开放申请；微软在开发AI模型时泄露了38TB敏感数据；螺旋控制图像Illusion Diffusion爆火

2023年OpenAI开发者大会正式开始接受申请，计划于11月6日在旧金山举行，涵盖主题演讲、分组会议和晚间招待会。参会者需提交申请，门票费用为450美元，名额有限。🤖📱💼AI应用ChatVideo:用GPT分析和总结视频ChatVideo是基于人工智能的视频分析和管理工具，利用其独特的AI技术，能够通过语音识别快速转录视频内容成文�

OpenAI
Stability AI发布AI音乐生成工具“Stable Audio” 可生成长达90S音乐

伦敦初创公司StabilityAI发布了一款名为StableAudio的AI音乐生成工具，标志着音乐创作领域再次迎来了创新。StableAudio采用了一种称为潜在扩散的技术，据称可以生成高质量、商业可用的音乐。StabilityAI表示，他们正在积极采取措施来确保内容的真实性，包括在图像模型中实施水印技术，以便用户和平台可以识别通过其托管服务生成的AI辅助内容。

StabilityAI StableAudio AI头条
Stability AI发布移动端语言模型Stable LM 3B

StabilityAI发布了最新的语言模型StableLM3B，该模型是为便携式数字设备设计的，参数规模为30亿，比行业通常使用的70亿参数模型要小，具有更高的性能和可移植性。StableLM3B具有较小的体积和高效性的优势，需要更少的资源和较低的运行成本，使其对大多数用户来说更加可承受。该模型已在HuggingFace平台上发布，可以下载权重进行尝试。
螺旋形状控制网图像Illusion Diffusion：Hugging Face空间的创新之光

一套基于螺旋形状的控制网图像在网络上引发了热潮。这种独特的螺旋形状风格成为了网友们关注的焦点令人惊讶的是，这个风格是由HuggingFace空间创造出来的。HuggingFace空间的这种创新尝试，不仅展示了其在图像设计和处理方面的强大实力，也进一步推动了相关领域的发展和创新。

IllusionDiffusion
荐Meta开源数字水印Stable Signature，极大增强生成式AI安全

全球社交、科技巨头Meta在官网宣布，开源数字水印产品StableSignature，并公开论文。StableSignature是由Meta和INRIA联合开发成，可将数字水印直接嵌入到AI自动生成的图片中，防止其非法用途。通过StableSignature将数字水印嵌入到AI图片中，可极大避免此类事件的发生。

数字水印
荐AI视野：英特尔首款AI PC处理器发布；腾讯开源StableDiffusion插件LightDiffusionFlow；百度发布医疗大模型；妙鸭相机推出免费体验版

DeepMind发布AlphaMissense模型，能预测基因错义突变是否致病，提升近千倍于人类专家，成功分类7100万突变中89%的致病性，加强遗传病诊断和新致病基因发现。论文地址:https://www.science.org/doi/10.1126/science.adg7492百度发布医疗大模型“灵医大模型”百度发布国内首个“产业级”医疗大模型——灵医大模型，旨在推�

英特尔

今日大家都在搜的词：

热文

3 天
7天

T2I扩散模型PIXART-α：图像生成质量媲美Stable Diffusion

今日大家都在搜的词：

热文

站长商机