首页 > 业界 > 关键词  > PixArt最新资讯  > 正文

图片质量媲美Midjourney、SDXL?PixArt训练成本减少90%

2023-11-10 11:02 · 稿源:站长之家

要点:

  • PixArt-α是一款基于Transformer的文本到图像生成模型,具有竞争力的图像生成质量,且训练成本明显低于现有大规模文本到图像模型。

  • PixArt-α采用了三项核心设计:训练策略分解,高效的T2I Transformer,以及使用高信息密度的数据进行训练,从而实现高分辨率图像合成,并在训练成本上取得显著节约。

  • PixArt-α不仅能够生成高分辨率图像,而且在复杂文本提示下表现出色,与现有系统如Stable Diffusion XL、Imagen和DALL-E2相比,既能匹敌其质量,又更加高效。

站长之家(ChinaZ.com)11月10日 消息:PixArt是一款基于Transformer的文本到图像生成模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL,甚至Midjourney)竞争,达到接近商业应用的标准。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练便宜90%。它还支持高达1024px 分辨率的高分辨率图像合成,且训练成本较低。

image.png

项目地址:

https://huggingface.co/docs/diffusers/main/en/api/pipelines/pixart?utm_source=talkingdev.uwl.me

该模型通过三项核心设计实现了高分辨率图像的合成,同时显著降低了训练成本。首先,采用训练策略分解,将训练过程分为三个步骤,分别优化像素依赖性、文本-图像对齐和图像审美质量。其次,引入了高效的T2I Transformer,通过在Diffusion Transformer中加入交叉注意力模块,注入文本条件并简化计算密集型的类别条件分支。最后,利用高信息密度的数据进行训练,强调文本-图像对中概念密度的重要性,并借助大型视觉语言模型自动标注密集伪标题,助力文本-图像对齐学习。

PixArt不仅在高分辨率图像合成上表现出色,还能有效遵循复杂文本提示,使其在图像生成领域具有广泛的应用前景。与现有系统相比,如Stable Diffusion XL、Imagen和DALL-E2,PixArt-α不仅匹敌其生成质量,而且在训练效率上更为高效。

实验证明,PixArt的训练速度仅占Stable Diffusion v1.5训练时间的10.8%(675vs.6,250A100GPU天),节省近30万美元和减少90%的CO2排放。与更大的SOTA模型RAPHAEL相比,训练成本仅为1%。总体而言,PixArt-α在图像质量、艺术性和语义控制方面都表现卓越,为AIGC社区和初创公司提供了加速从零开始构建高质量低成本生成模型的新视角。

在使用PixArt时,可以通过设定不同的尺寸范围来获得最佳结果,作者推荐了一些尺寸范围。此外,PixArt支持高分辨率图像合成,最高可达1024像素,且训练成本较低。因此,PixArt不仅在技术上取得了显著进展,而且在实际应用中具有巨大的潜力。

举报

  • 相关推荐
  • 微信iOS又有新功能 聊天终于能发实况图片了

    日前,微信iOS版又迎来新功能与好友聊天支持发送实况照片,目前为灰度测试阶段。 据了解,使用该功能需要将微信iOS更新至8.0.61版本及以上,默认实况为关闭状态,发送照片时点击进入大图预览页面可手动开启单个照片的实况开关。

  • 微信朋友圈评论区能发表情包和图片:缓存可清理 不会太占用存储空间

    上个月,微信开始灰度测试朋友圈评论区带图功能,支持用户用表情包和图片进行评论。 有网友表示,微信现在评论可以带图了,我想知道评论区的图片会不会缓存下来占用我的手机空间。 对此,微信员工客村小蒋表示,在讨论微信占空间时,有两种需要区分的数据:可再生数据和非可再生数据。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • AI日报:腾讯元宝升级一句话搜索图片视频;微信支付MCP上线;谷歌在全球推出 Veo 3

    【AI日报】今日AI领域重要动态:1)腾讯元宝升级,支持一句话搜索呈现图文视频;2)微信支付MCP上线,AI与支付结合开启商业新纪元;3)谷歌Veo3视频生成模型向Pro/Ultra会员开放,新增"照片生成视频"功能;4)开源DeepSeek R1增强版推理效率提升200%;5)美图WHEE推出"一句话修图"功能;6)芯片公司Ambiq申请美国IPO,受益生成式AI需求;7)昆仑万维开源奖励模型Skywork-Reward-V2;8)Kyutai发布超低延迟开源语音合成技术;9)Figma拟以200亿美元估值登陆纽交所;10)字节跳动开源Trae-Agent智能开发工具。

  • 小米:MIX Flip 2不要私自更换内屏膜 极易导致物理损坏

    今日早间,小米CEO雷军转发小米手机官方微博发布的“小米MIX Flip2答网友问”,针对用户关注的新机可靠性及使用细节进行权威解答。其中,关于折叠屏手机内屏膜更换的疑问成为焦点。 针对用户能否自行撕下并更换小米MIX Flip2内屏膜的问题,小米明确回应:“不可自行操作,此原则适用于全行业折叠屏手机。”官方解释称,折叠屏内屏贴膜需在专业工具与无尘环境中完成,�

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • REDMI K90 Pro参数曝光:安排潜望长焦 看齐大哥小米Pro系列

    博主数码闲聊站爆料,REDMI K90 Pro搭载高通骁龙8 Elite 2旗舰平台,还安排了潜望长焦,同时拥有金属中框、对称式双扬声器、3D超声波屏幕指纹、无线快充和大尺寸X轴线性马达,工程机还有一项违背祖制的旗舰级配置,全方位升级。 对此上代K80 Pro,REDMI K90 Pro有两大重要升级,一是处理器升级为最新的骁龙8 Elite 2,二是影像配备了潜望长焦,看齐大哥小米Pro系列。

  • 红米年度旗舰!博主称REDMI K90 Pro影像史诗级加强

    博主数码闲聊站称,REDMI K90 Pro影像迎来史诗级加强,很给面。 根据爆料的消息,REDMI K90 Pro虽然没有徕卡联名,但是依然给到了旗舰级影像系统,同时配备了一颗潜望长焦,这是REDMI K系列首款潜望长焦旗舰。 相比于直立长焦,潜望式长焦结构更复杂也更先进,它运用了光学反射的原理,通过内部的反光镜或棱镜将光路弯折,使得光线可以在手机机身内部形成更长的焦距。 �

  • REDMI下半年两款重磅新品来袭:Note 15/K90蓄势待发

    博主数码闲聊站表示,下半年REDMI将有两款重磅系列新品要发布,首先登场的是REDMI Note 15系列,这是一款敢越级的中端机型,然后是Q4登场的REDMI K90系列,定位是高端旗舰。 在去年下半年,REDMI带来了Note 14系列,其中Note 14 Pro首发起售价是1399元,Note 14 Pro 首发起售价是1899元。 根据官方公布的数据,Redmi Note 14 Pro系列首销日销量翻倍,其中Pro 版本首销极为火爆,该机刷新了2024