图片质量媲美Midjourney、SDXL？PixArt训练成本减少90%

2023-11-10 11:02 · 稿源：站长之家

要点:
PixArt-α是一款基于Transformer的文本到图像生成模型，具有竞争力的图像生成质量，且训练成本明显低于现有大规模文本到图像模型。
PixArt-α采用了三项核心设计:训练策略分解，高效的T2I Transformer，以及使用高信息密度的数据进行训练，从而实现高分辨率图像合成，并在训练成本上取得显著节约。
PixArt-α不仅能够生成高分辨率图像，而且在复杂文本提示下表现出色，与现有系统如Stable Diffusion XL、Imagen和DALL-E2相比，既能匹敌其质量，又更加高效。

站长之家（ChinaZ.com）11月10日消息:PixArt是一款基于Transformer的文本到图像生成模型，其图像生成质量可与最先进的图像生成器（例如Imagen、SDXL，甚至Midjourney）竞争，达到接近商业应用的标准。这种新模型使用Transformer扩散模型，可以比使用UNet模型训练便宜90%。它还支持高达1024px 分辨率的高分辨率图像合成，且训练成本较低。

项目地址:

https://huggingface.co/docs/diffusers/main/en/api/pipelines/pixart?utm_source=talkingdev.uwl.me

该模型通过三项核心设计实现了高分辨率图像的合成，同时显著降低了训练成本。首先，采用训练策略分解，将训练过程分为三个步骤，分别优化像素依赖性、文本-图像对齐和图像审美质量。其次，引入了高效的T2I Transformer，通过在Diffusion Transformer中加入交叉注意力模块，注入文本条件并简化计算密集型的类别条件分支。最后，利用高信息密度的数据进行训练，强调文本-图像对中概念密度的重要性，并借助大型视觉语言模型自动标注密集伪标题，助力文本-图像对齐学习。

PixArt不仅在高分辨率图像合成上表现出色，还能有效遵循复杂文本提示，使其在图像生成领域具有广泛的应用前景。与现有系统相比，如Stable Diffusion XL、Imagen和DALL-E2，PixArt-α不仅匹敌其生成质量，而且在训练效率上更为高效。

实验证明，PixArt的训练速度仅占Stable Diffusion v1.5训练时间的10.8%（675vs.6，250A100GPU天），节省近30万美元和减少90%的CO2排放。与更大的SOTA模型RAPHAEL相比，训练成本仅为1%。总体而言，PixArt-α在图像质量、艺术性和语义控制方面都表现卓越，为AIGC社区和初创公司提供了加速从零开始构建高质量低成本生成模型的新视角。

在使用PixArt时，可以通过设定不同的尺寸范围来获得最佳结果，作者推荐了一些尺寸范围。此外，PixArt支持高分辨率图像合成，最高可达1024像素，且训练成本较低。因此，PixArt不仅在技术上取得了显著进展，而且在实际应用中具有巨大的潜力。

（举报）

相关推荐
大家在看

关键词：

PixArt

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
AI文生图模型PixArt-sigma，可以生成4K分辨率图片

PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目，是一个强大的文本到图像生成模型，通过弥散Transformer进行弱到强训练，旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练，从能够更好地生成高质量的4K分辨率图像。在应用方面，PixArt-Σ是一款强大的文本到图像生成工具，具有广泛的应用场景，可以满足艺术、设计、游戏开发、营销

PixArt-sigma AI头条
midjourney prompt：如何用AI工具制作古诗文短视频？4个高质量midjourney古诗AI绘画提示词分享

图源备注：图片由AI生成，图片授权服务商MidjourneybyVictoNgaiAsereneflatillustrationinthestyleofWuGuanzhongdepicts，Chineselandscapepaintingstyle，highmountainsandflowingwater，shroudedincloudsandmist，waterfallflowingstraightdown，calmlakesurface，aflatboat，twopeoplesittingquietly，blueandbluetones，peacefulandmagnificent--ar3:4--niji6由VictoNgai吴冠中风格的一幅宁静的平面插图，中国山水画风格，高山流水，云雾笼罩，瀑布直下，湖面�

midjourney
旷视发布HiDiffusion，SD生成速度更快，图片质量更高

最近，旷视发布的HiDiffusion技术，近日引起业界广泛关注。这一新技术只需一行代码，便能显著提升SD（扩散模型）生成图像的分辨率和生成速度，允许图像生成的分辨率高达4096×4096，同时将图像生成速度提高1.5至6倍。值得一提的是，HiDiffusion不仅支持所有SD模型，也兼容SD模型的下游模型，如Playground。

HiDiffusion AI头条
Midjourney指控Stability AI员工入侵其数据库并窃取图像

据AI爱好者NickSt.Pierre最近在X上分享的消息，周六发生了一起被指称为侵犯知识产权的事件。StabilityAI的员工入侵了Midjourney的数据库，窃取了所有的提示和图像对，这一行为还导致了长达24小时的服务中断。在这场AI公司之间的冲突中，让我们拭目以待进展，看看这一事件是否会对这两家公司之间的关系产生持久影响。

Midjourney StabilityAI AI头条
Midjourney发布random功能可基于提示词生成完全随机的图像风格

Midjourney发布了一个有趣的功能，可以基于提示词生成完全随机的图像风格。使用方式:在提示词后添加--srefrandom，如果找到了喜欢的风格可以通过--srefurl将风格迁移到新图片上。无论是个人创作还是与他人合作，Midjourney的新功能都将为用户提供更多创作灵感和交流的机会。

Midjourney AI头条
Align Your Steps：低步数推理保持高质量结果适用于SD 1.5和SDXL

在深度学习领域，扩散模型作为生成建模的前沿方法已经得到广泛应用。DMs的一个关键缺点是其较慢的采样速度，这主要是由于需要通过大型神经网络进行多次顺序函数评估。在视频生成方面进行了研究，发现使用优化计划可以在视频生成过程中产生更加稳定的视频，减少随时间推移的颜色失真。

AlignYourSteps AI头条
荐一款手游有400+个AI角色！腾讯游戏新系统炸场GDC：训练成本大减90%

你敢信?一款手游里藏着400个AI角色，且各自有各自的性格……这就是腾讯在一年一度的“游戏界春晚”GDC上展示的一场技术肌肉秀——《火影忍者》手游相关负责人介绍了大规模强化学习AI训练系统，该方法的训练成本和时间比传统的训练方案减少90%。移动端光追、144帧渲染、跨平台开发管线管理等技术也都逐一亮相。GDC还有哪些好玩的呢?欢迎有参与到GDC的小伙伴，与我们分�

腾讯游戏
SDXL模型精选微调模型合集SDXL fine-tunes 覆盖各种风格可直接用于开发

Replicate上的“SDXLfine-tunes”收藏包含了一系列基于SDXL模型的精选微调模型，这些模型专为生成特定视觉风格和主题的高质量图像设计。这些微调模型利用了大型生成模型SDXL的强大功能，通过针对特定内容进行优化和调整，为用户提供了丰富的视觉创作工具。还有galleri5/icons模型，这是一个SDXL微调模型，专门用于生成光滑的图标和扁平的波普构成主义图形，带有粗边缘，基于Bing

SDXL模型 AI头条
Midjourney推出新功能Room 用户可在聊天室中一起创作图像

Midjourney最近推出了一个有趣的新功能——Room，为用户提供了一个协作和社交平台。在这个功能中，用户可以一起创建和分享图像，并参与实时聊天。Midjourney通过引入Room功能，为用户提供了一个探索、合作和分享他们人工智能艺术创作过程的平台。

Midjourney AI头条
荐模型未发API先至！Stable Diffusion 3 API 发布性能比肩 Midjourney v6

其开发者平台API现已支持最新版本的StableDiffusion3及其增强版本StableDiffusion3Turbo。这一发布标志着StabilityAI在文字到图像生成领域的技术进步，其性能已经达到甚至超越了行业内的一些领先模型，如DALL-E3和Midjourneyv6。公司承诺提供99.9%的服务可用性，这对于企业用户来说尤为重要，因为他们在使用开发者平台进行关键的生成型AI工作时，需要确保服务的稳定性和可靠性。

StableDiffusion3

今日大家都在搜的词：

热文

3 天
7天

图片质量媲美Midjourney、SDXL？PixArt训练成本减少90%

今日大家都在搜的词：

热文

站长商机