T2I扩散模型PIXART-α：图像生成质量媲美Stable Diffusion

2023-10-16 10:01 · 稿源：站长之家

划重点:
新时代的逼真图像合成:文本到图像（T2I）生成模型DALLE2、Imagen和Stable Diffusion，对后续应用产生深远影响。
降低成本的高质量图像生成:研究人员提出PIXART-α，大幅降低了训练成本，同时保持了与最新图像生成器相媲美的图像质量。
改进文本到图像生成:通过创新方法，包括训练策略和数据集改进，提高了T2I模型的效率和质量。

站长之家（ChinaZ.com）10月16日消息:最近，文本到图像（T2I）生成模型如DALLE2、Imagen和Stable Diffusion的发展，开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响，还为研究社区和企业提供了许多下游应用的机会。

然而，这些复杂的模型需要巨大的计算资源来进行训练。例如，训练SD v1.5需要6，000块A100GPU，成本约为32万美元。而更大的模型RAPHAEL，甚至需要60，000块A100GPU，成本高达308万美元。此外，训练会产生大量的二氧化碳排放，给环境造成了压力，例如，RAPHAEL的训练会产生35吨的二氧化碳排放，相当于一个人七年的排放量。

这种高昂的价格限制了研究社区和企业获得这些模型，严重阻碍了人工智能生成内容（AIGC）领域的发展。关键问题是，是否可以以更少的资源开发高质量的图像生成模型?

来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员提出了PIXART-α，它显著降低了训练成本，同时保持了与最新图像生成器相匹敌的图像质量。他们提出了三个主要的设计思路:

首先，他们通过分解训练计划，将文本到图像生成问题划分为三个简单的子任务:学习自然图像像素的分布、学习文本图像对齐以及提高图像的美观度。通过使用低成本的类别条件模型初始化T2I模型，大幅降低了第一个子任务的学习成本。其次，他们提出了一个训练范例，包括在信息密度高的文本图像对数据上进行预训练，然后在更高审美质量的数据上进行微调，以提高训练效果。他们还使用交叉注意力模块来注入文本条件，并简化了计算密集的类别条件分支，从而提高了效率。

此外，他们提出了一种重新参数化方法，可以让修改后的文本到图像模型直接导入原始类别条件模型的参数。这样一来，他们可以利用ImageNet关于自然图片分布的过去知识，为T2I Transformer提供合理的初始化，加速训练过程。

在高质量信息方面，他们的研究揭示了现有的文本-图像对数据集存在显著缺陷，例如LAION。文本描述经常受到严重的长尾效应影响（即很多名词出现频率极低），而且缺乏信息内容(通常只描述图像中的一部分物体)。这些缺陷极大地降低了T2I模型训练的效果，需要数百万次迭代才能获得可靠的文本图像对齐。他们建议使用最先进的视觉-语言模型进行自动标注，以在SAM上生成说明，从而克服这些问题。

SAM数据集具有大量多样化的对象，这使其成为生成信息密度高的文本-图像对的理想来源，更适合文本-图像对齐学习。他们的聪明方法使其模型的训练非常高效，仅需675块A100GPU天和26，000美元。与Imagen相比，他们的方法使用更少的训练数据量（0.2% vs. Imagen）和更短的训练时间(2% vs. RAPHAEL)。他们的训练费用约为RAPHAEL的1%，为他们节省了约300万美元。

关于生成质量，他们的用户研究试验显示，PIXART-α提供了比当前SOTA T2I模型、Stable Diffusion等更好的图像质量和语义对齐，此外，它在T2I-CompBench上的性能显示出在语义控制方面具有优势。

他们预计，他们有效训练T2I模型的努力将为AIGC社区提供有用的见解，并帮助更多的独立学术界或公司以更实惠的价格生成高质量的T2I模型。

总之，PIXART-α具有以下特色和功能:

高质量图像生成:PIXART-α基于Transformer技术，能够生成高质量、艺术性强、高细节、广角镜头的图像，包括明亮的场景、鸟瞰图、古城、幻想、华丽的光线、镜面反射等。
低培训成本:与其他先进的文本到图像模型相比，PIXART-α的培训成本明显降低，仅需相对较少的训练资源，从而显著降低了培训过程中的时间和经济成本。
高分辨率图像合成:PIXART-α支持高分辨率图像的合成，可以生成高达1024px分辨率的图像，这有助于满足商业应用的需求。
训练效率:该模型提出了一种训练策略分解，通过优化不同的训练步骤来提高训练效率，包括像素依赖性、文本图像对齐和图像美学质量的优化。
CO2排放减少:PIXART-α的低培训成本也导致了较低的CO2排放，对环境友好，有助于减少碳排放。
支持文本-图像对齐:该模型强调了文本-图像对之间概念密度的重要性，并利用大型视觉语言模型自动标记密集的伪标题以提高文本-图像对齐的质量。
控制功能:PIXART-α还提供了控制功能，允许用户生成定制图像，精确修改物体颜色等，以满足特定需求。

PIXART-α论文网址:https://arxiv.org/abs/2310.00426

PIXART-α项目网址:https://pixart-alpha.github.io/

（举报）

相关推荐

关键词：

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

某互联网大厂品牌总监分享：投入200万SEO使"企业级CRM"关键词在Google排名第一，但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时，AI回答中根本没有该品牌。更值得警惕的是，竞品不仅被提及，还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区：企业不知道AI如何"看待"自身品牌。数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道，而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念，通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力，并给出五步实施流程：建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明，系统化GEO优化能在3个月内提升品牌提及率33个百分点，证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech

今日大家都在搜的词：

热文

3 天
7天

T2I扩散模型PIXART-α：图像生成质量媲美Stable Diffusion

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

易鑫正式发布汽车金融行业首个Agentic大模型

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

今日大家都在搜的词：

热文

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

鸿蒙智行：智界R7累计交付量破10万台

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发