首页 > 业界 > 关键词  > PixArt最新资讯  > 正文

图片质量媲美Midjourney、SDXL?PixArt训练成本减少90%

2023-11-10 11:02 · 稿源:站长之家

要点:

  • PixArt-α是一款基于Transformer的文本到图像生成模型,具有竞争力的图像生成质量,且训练成本明显低于现有大规模文本到图像模型。

  • PixArt-α采用了三项核心设计:训练策略分解,高效的T2I Transformer,以及使用高信息密度的数据进行训练,从而实现高分辨率图像合成,并在训练成本上取得显著节约。

  • PixArt-α不仅能够生成高分辨率图像,而且在复杂文本提示下表现出色,与现有系统如Stable Diffusion XL、Imagen和DALL-E2相比,既能匹敌其质量,又更加高效。

站长之家(ChinaZ.com)11月10日 消息:PixArt是一款基于Transformer的文本到图像生成模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL,甚至Midjourney)竞争,达到接近商业应用的标准。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练便宜90%。它还支持高达1024px 分辨率的高分辨率图像合成,且训练成本较低。

image.png

项目地址:

https://huggingface.co/docs/diffusers/main/en/api/pipelines/pixart?utm_source=talkingdev.uwl.me

该模型通过三项核心设计实现了高分辨率图像的合成,同时显著降低了训练成本。首先,采用训练策略分解,将训练过程分为三个步骤,分别优化像素依赖性、文本-图像对齐和图像审美质量。其次,引入了高效的T2I Transformer,通过在Diffusion Transformer中加入交叉注意力模块,注入文本条件并简化计算密集型的类别条件分支。最后,利用高信息密度的数据进行训练,强调文本-图像对中概念密度的重要性,并借助大型视觉语言模型自动标注密集伪标题,助力文本-图像对齐学习。

PixArt不仅在高分辨率图像合成上表现出色,还能有效遵循复杂文本提示,使其在图像生成领域具有广泛的应用前景。与现有系统相比,如Stable Diffusion XL、Imagen和DALL-E2,PixArt-α不仅匹敌其生成质量,而且在训练效率上更为高效。

实验证明,PixArt的训练速度仅占Stable Diffusion v1.5训练时间的10.8%(675vs.6,250A100GPU天),节省近30万美元和减少90%的CO2排放。与更大的SOTA模型RAPHAEL相比,训练成本仅为1%。总体而言,PixArt-α在图像质量、艺术性和语义控制方面都表现卓越,为AIGC社区和初创公司提供了加速从零开始构建高质量低成本生成模型的新视角。

在使用PixArt时,可以通过设定不同的尺寸范围来获得最佳结果,作者推荐了一些尺寸范围。此外,PixArt支持高分辨率图像合成,最高可达1024像素,且训练成本较低。因此,PixArt不仅在技术上取得了显著进展,而且在实际应用中具有巨大的潜力。

举报

  • 相关推荐
  • 数智驱动,共赢跨境|RixDesk亮相ICBE 2025,重磅发布“跨屏全媒介广告投放解决方案”

    在ICBE2025深圳跨境电商博览会上,RixDesk发布“跨屏全媒介广告投放解决方案”。该方案针对用户多设备切换导致的广告触点分散问题,通过跨屏整合、一次创建全媒介触达、智能优化及数据闭环四大核心功能,帮助品牌实现多平台高效投放,提升传播效果与ROI。系统利用AI技术自动分发内容、优化策略,助力跨境品牌在复杂流量环境中精准获客与持续增长。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 苹果推出网页版App Store 浏览器即可使用

    苹果公司近日推出网页版App Store,用户无需依赖特定苹果设备,通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似,功能丰富且交互流畅,取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面,实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容,包括编辑推荐、热门�

  • 致态TiPlus7100s固态硬盘正式发布,性能全面跃迁

    2025年11月10日,致态发布TiPlus7100s固态硬盘。作为TiPlus7100的升级版,它采用长江存储新一代晶栈®Xtacking®4.0架构闪存颗粒,顺序读取速度高达7400MB/s,写入速度达6900MB/s。随机读写性能显著提升,最高达1500K IOPS,较上一代提升66%-114%。新品针对游戏玩家与专业用户,优化游戏加载、大文件读写及视频编辑等场景体验,并提供1TB/2TB/4TB三种容量版本,已在京东旗舰店开售。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 燃爆蓉城!快手王者之战暨街霸6CPT亚洲白金赛圆满收官

    10月31日至11月2日,“快手王者之战VI暨CAPCOM PRO TOUR 2025亚洲白金赛”在成都成功举办。日本选手HINAO从566名选手中脱颖而出,决赛中以3:2逆转夺冠,成为CPT史上最年轻白金赛冠军。赛事汇聚全球顶尖选手,覆盖亚太多赛区,冠军直通CAPCOM CUP总决赛。快手通过独家内容策划与线上线下联动,打造“电竞+文旅”融合模式,结合成都本地文化,推动电竞赛事破圈传播,彰显游戏生态布局优势。

  • 双11京东:海尔麦浪舒适风空调双榜TOP1

    双11大促带动空调市场“冬季焕新”热潮。海尔空调表现抢眼:麦浪舒适风空调斩获京东“万单品质空调榜”与“舒适风趋势空调榜”双榜首;小红花净省电空调位列“健康趋势空调榜”第二。产品优势源于海尔开展的千人众测活动,通过17天真实用户体验,以“新品体验+真实测评”方式直观展示产品性能。当前空调消费趋势转向“实用型升级”,用户更关注舒适感、节能性与健康保障。海尔通过线下众测让用户亲身体验智能操控与舒适送风,以“眼见为实”互动提升产品可信度,为双11选购提供直观参考。

  • 真我GT8 Pro阿斯顿马丁F1限量版正式开售 售价5499元

    真我GT8 Pro阿斯顿马丁F1限量版于11月10日开售,售价5499元。配备16GB+1TB顶配内存,外观融入F1赛车元素,采用标志性青绿色和专属设计,包装盒含赛车主题配件。UI深度定制,拥有专属开机动画和相机水印。配置包括6.79英寸2K直屏、高通骁龙8至尊版平台、7000mAh电池,支持120W有线及50W无线闪充。影像系统搭载5000万像素主摄及2亿像素潜望长焦,支持多种胶片滤镜。具备满级防尘防水和超声波屏下指纹,综合性能强劲,专为科技与赛车爱好者打造跨界盛宴。

今日大家都在搜的词: