图片质量媲美Midjourney、SDXL？PixArt训练成本减少90%

2023-11-10 11:02 · 稿源：站长之家

要点:
PixArt-α是一款基于Transformer的文本到图像生成模型，具有竞争力的图像生成质量，且训练成本明显低于现有大规模文本到图像模型。
PixArt-α采用了三项核心设计:训练策略分解，高效的T2I Transformer，以及使用高信息密度的数据进行训练，从而实现高分辨率图像合成，并在训练成本上取得显著节约。
PixArt-α不仅能够生成高分辨率图像，而且在复杂文本提示下表现出色，与现有系统如Stable Diffusion XL、Imagen和DALL-E2相比，既能匹敌其质量，又更加高效。

站长之家（ChinaZ.com）11月10日消息:PixArt是一款基于Transformer的文本到图像生成模型，其图像生成质量可与最先进的图像生成器（例如Imagen、SDXL，甚至Midjourney）竞争，达到接近商业应用的标准。这种新模型使用Transformer扩散模型，可以比使用UNet模型训练便宜90%。它还支持高达1024px 分辨率的高分辨率图像合成，且训练成本较低。

项目地址:

https://huggingface.co/docs/diffusers/main/en/api/pipelines/pixart?utm_source=talkingdev.uwl.me

该模型通过三项核心设计实现了高分辨率图像的合成，同时显著降低了训练成本。首先，采用训练策略分解，将训练过程分为三个步骤，分别优化像素依赖性、文本-图像对齐和图像审美质量。其次，引入了高效的T2I Transformer，通过在Diffusion Transformer中加入交叉注意力模块，注入文本条件并简化计算密集型的类别条件分支。最后，利用高信息密度的数据进行训练，强调文本-图像对中概念密度的重要性，并借助大型视觉语言模型自动标注密集伪标题，助力文本-图像对齐学习。

PixArt不仅在高分辨率图像合成上表现出色，还能有效遵循复杂文本提示，使其在图像生成领域具有广泛的应用前景。与现有系统相比，如Stable Diffusion XL、Imagen和DALL-E2，PixArt-α不仅匹敌其生成质量，而且在训练效率上更为高效。

实验证明，PixArt的训练速度仅占Stable Diffusion v1.5训练时间的10.8%（675vs.6，250A100GPU天），节省近30万美元和减少90%的CO2排放。与更大的SOTA模型RAPHAEL相比，训练成本仅为1%。总体而言，PixArt-α在图像质量、艺术性和语义控制方面都表现卓越，为AIGC社区和初创公司提供了加速从零开始构建高质量低成本生成模型的新视角。

在使用PixArt时，可以通过设定不同的尺寸范围来获得最佳结果，作者推荐了一些尺寸范围。此外，PixArt支持高分辨率图像合成，最高可达1024像素，且训练成本较低。因此，PixArt不仅在技术上取得了显著进展，而且在实际应用中具有巨大的潜力。

（举报）

相关推荐

关键词：

PixArt

Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

2025年11月11日，舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计，提供一站式高品质音频服务，集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证，无缝接入MTR生态系统，支持端到端加密通信，确保会议安全。用户可远程管理系统，降低运维成本。舒尔与微软合作，共同提升企业协作效率，首批体验用户反馈语音清晰流畅，显著优化沟通质量。

Shure IntelliMix Room
Creators’ App迎来重大更新

索尼与分秒帧联合推出云端影像创作平台ICE-Cloud，集成索尼先进影像技术与高效云端协作能力，为创作者提供从拍摄到后期全流程赋能。平台支持移动端、PC端及网页应用，实现素材自动上传、云端管理、在线审片和项目协同，打破时空限制，提升创作效率。通过Creators’ App连接相机与云端，实现即拍即传、异地实时协作，致力于打造新一代创意工作流。

索尼云端影像创作平台 Creators’
OpenAI发布GPT-5.1：情商大涨本周开始推送

OpenAI正式推出GPT-5.1模型，以“智商与情商深度融合”为核心亮点。新模型优化推理能力，强化情绪价值与个性化交互，包含Instant与Thinking两大核心版本：Instant首次引入自适应推理功能，针对复杂任务延长思考时间，简单问题保持极速响应；Thinking版本智能分配思考时长，提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型，支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度，防范拟人化风险。付费用户可保留旧版三个月过渡期。

GPT-5.1模型智商与情商自适应推理
50人团队、1亿美元ARR，AI PPT还在续写“神话”？

AI 生成 PPT 可以说是去年的热门赛道，尤记得关于这类产品是否具有真正竞争力的热烈讨论，而2025年9月份的数据显示，赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且，今天官宣了由 a16z 领投的6800万美元 B 轮融资，融资后估值达到21亿美元。而不仅 Gamma，根据 AI 产品榜数据，9月份，AIPPT 赛道的 Top3产品流量平均涨幅30%+，更有一款

AI生成PPT Gamma融资 AIPPT赛道
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

某互联网大厂品牌总监分享：投入200万SEO使"企业级CRM"关键词在Google排名第一，但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时，AI回答中根本没有该品牌。更值得警惕的是，竞品不仅被提及，还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区：企业不知道AI如何"看待"自身品牌。数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道，而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念，通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力，并给出五步实施流程：建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明，系统化GEO优化能在3个月内提升品牌提及率33个百分点，证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
数智驱动，共赢跨境｜RixDesk亮相ICBE 2025，重磅发布“跨屏全媒介广告投放解决方案”

在ICBE2025深圳跨境电商博览会上，RixDesk发布“跨屏全媒介广告投放解决方案”。该方案针对用户多设备切换导致的广告触点分散问题，通过跨屏整合、一次创建全媒介触达、智能优化及数据闭环四大核心功能，帮助品牌实现多平台高效投放，提升传播效果与ROI。系统利用AI技术自动分发内容、优化策略，助力跨境品牌在复杂流量环境中精准获客与持续增长。

跨境电商广告投放数字营销
双十一战报喜讯！中兴路由霸榜再创多个平台TOP1亮眼佳绩

2025年双十一购物季，中兴路由器凭借硬核实力再创佳绩。京东、天猫等平台数据显示，中兴路由器在全渠道强势领跑：不仅斩获京东路由器成交额、品牌增速、Wi-Fi7成交额三项TOP1，跻身京东路由器成交额TOP3；同时获天猫路由器店铺交易额TOP2、拼多多智能路由器TOP1、抖音爆款榜TOP1，全方位印证其市场头部地位。旗舰产品BE7200Pro+凭借顶配配置和稳定表现登顶京东金榜，月围观量达168.2万；星云MAX主路由以2.5G网口设计适配国内家庭网络，便捷操作与NAS扩展功能成为家庭组网首选。巡天、晴天系列多款产品持续热销，中兴以精准用户洞察和强悍产品力赢得市场口碑。

中兴路由器双十一购物季 Wi-Fi7路由器
iPhone Pocket正式开售：联名三宅一生售价1299元起

苹果与三宅一生合作推出iPhone Pocket配件，短带款1299元、长带款1899元。采用创新3D针织一体结构，适配所有iPhone型号，可容纳随身小物，拉伸时织物微透便于查看屏幕。支持手持、系包、佩戴等多种方式。虽被网友吐槽像“杯套”“长筒袜”，且定价偏高引发争议，但其独特设计和联名价值仍吸引关注。限量发售渠道有限，市场接受度待观察。

苹果三宅一生 iPhone
iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

苹果联合日本设计师品牌三宅一生推出iPhone Pocket配件，售价1299元。产品采用3D针织工艺，支持七种佩戴方式，但被质疑与普通手机套功能无异。社交媒体上“1299元买块会变形的布”引发热议，消费者对比9.9元帆布手机套直指苹果收割粉丝。支持者认为定价符合奢侈品逻辑，反对者则拒绝为设计概念支付溢价。该产品在设计价值与实用功能间引发两极争议。

今日大家都在搜的词：

热文

3 天
7天

图片质量媲美Midjourney、SDXL？PixArt训练成本减少90%

Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

Creators’ App迎来重大更新

OpenAI发布GPT-5.1：情商大涨本周开始推送

50人团队、1亿美元ARR，AI PPT还在续写“神话”？

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

数智驱动，共赢跨境｜RixDesk亮相ICBE 2025，重磅发布“跨屏全媒介广告投放解决方案”

双十一战报喜讯！中兴路由霸榜再创多个平台TOP1亮眼佳绩

iPhone Pocket正式开售：联名三宅一生售价1299元起

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

今日大家都在搜的词：

热文

iPhone Pocket正式开售：联名三宅一生售价1299元起

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

微信小程序将在iOS端支持接入虚拟支付苹果抽成15%

华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

站长商机