首页 > 业界 > 关键词  > PIXART-α最新资讯  > 正文

T2I扩散模型PIXART-α:图像生成质量媲美Stable Diffusion

2023-10-16 10:01 · 稿源:站长之家

划重点:

新时代的逼真图像合成:文本到图像(T2I)生成模型DALLE2、Imagen和Stable Diffusion,对后续应用产生深远影响。

降低成本的高质量图像生成:研究人员提出PIXART-α,大幅降低了训练成本,同时保持了与最新图像生成器相媲美的图像质量。

改进文本到图像生成:通过创新方法,包括训练策略和数据集改进,提高了T2I模型的效率和质量。

站长之家(ChinaZ.com)10月16日 消息:最近,文本到图像(T2I)生成模型如DALLE2、Imagen和Stable Diffusion的发展,开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响,还为研究社区和企业提供了许多下游应用的机会。

image.png

然而,这些复杂的模型需要巨大的计算资源来进行训练。例如,训练SD v1.5需要6,000块A100GPU,成本约为32万美元。而更大的模型RAPHAEL,甚至需要60,000块A100GPU,成本高达308万美元。此外,训练会产生大量的二氧化碳排放,给环境造成了压力,例如,RAPHAEL的训练会产生35吨的二氧化碳排放,相当于一个人七年的排放量。

这种高昂的价格限制了研究社区和企业获得这些模型,严重阻碍了人工智能生成内容(AIGC)领域的发展。关键问题是,是否可以以更少的资源开发高质量的图像生成模型?

来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员提出了PIXART-α,它显著降低了训练成本,同时保持了与最新图像生成器相匹敌的图像质量。他们提出了三个主要的设计思路:

首先,他们通过分解训练计划,将文本到图像生成问题划分为三个简单的子任务:学习自然图像像素的分布、学习文本图像对齐以及提高图像的美观度。通过使用低成本的类别条件模型初始化T2I模型,大幅降低了第一个子任务的学习成本。其次,他们提出了一个训练范例,包括在信息密度高的文本图像对数据上进行预训练,然后在更高审美质量的数据上进行微调,以提高训练效果。他们还使用交叉注意力模块来注入文本条件,并简化了计算密集的类别条件分支,从而提高了效率。

此外,他们提出了一种重新参数化方法,可以让修改后的文本到图像模型直接导入原始类别条件模型的参数。这样一来,他们可以利用ImageNet关于自然图片分布的过去知识,为T2I Transformer提供合理的初始化,加速训练过程。

在高质量信息方面,他们的研究揭示了现有的文本-图像对数据集存在显著缺陷,例如LAION。文本描述经常受到严重的长尾效应影响(即很多名词出现频率极低),而且缺乏信息内容(通常只描述图像中的一部分物体)。这些缺陷极大地降低了T2I模型训练的效果,需要数百万次迭代才能获得可靠的文本图像对齐。他们建议使用最先进的视觉-语言模型进行自动标注,以在SAM上生成说明,从而克服这些问题。

SAM数据集具有大量多样化的对象,这使其成为生成信息密度高的文本-图像对的理想来源,更适合文本-图像对齐学习。他们的聪明方法使其模型的训练非常高效,仅需675块A100GPU天和26,000美元。与Imagen相比,他们的方法使用更少的训练数据量(0.2% vs. Imagen)和更短的训练时间(2% vs. RAPHAEL)。他们的训练费用约为RAPHAEL的1%,为他们节省了约300万美元。

关于生成质量,他们的用户研究试验显示,PIXART-α提供了比当前SOTA T2I模型、Stable Diffusion等更好的图像质量和语义对齐,此外,它在T2I-CompBench上的性能显示出在语义控制方面具有优势。

他们预计,他们有效训练T2I模型的努力将为AIGC社区提供有用的见解,并帮助更多的独立学术界或公司以更实惠的价格生成高质量的T2I模型。

总之,PIXART-α具有以下特色和功能:

  1. 高质量图像生成:PIXART-α基于Transformer技术,能够生成高质量、艺术性强、高细节、广角镜头的图像,包括明亮的场景、鸟瞰图、古城、幻想、华丽的光线、镜面反射等。

  2. 低培训成本:与其他先进的文本到图像模型相比,PIXART-α的培训成本明显降低,仅需相对较少的训练资源,从而显著降低了培训过程中的时间和经济成本。

  3. 高分辨率图像合成:PIXART-α支持高分辨率图像的合成,可以生成高达1024px分辨率的图像,这有助于满足商业应用的需求。

  4. 训练效率:该模型提出了一种训练策略分解,通过优化不同的训练步骤来提高训练效率,包括像素依赖性、文本图像对齐和图像美学质量的优化。

  5. CO2排放减少:PIXART-α的低培训成本也导致了较低的CO2排放,对环境友好,有助于减少碳排放。

  6. 支持文本-图像对齐:该模型强调了文本-图像对之间概念密度的重要性,并利用大型视觉语言模型自动标记密集的伪标题以提高文本-图像对齐的质量。

  7. 控制功能:PIXART-α还提供了控制功能,允许用户生成定制图像,精确修改物体颜色等,以满足特定需求。

PIXART-α论文网址:https://arxiv.org/abs/2310.00426

PIXART-α项目网址:https://pixart-alpha.github.io/

举报

  • 相关推荐
  • AI时代的营销答卷:淘宝天下摘得TopDigital桂冠

    淘宝天下凭借AI技术在营销领域的创新实践,在第十三届TopDigital创新营销盛典上斩获两项大奖。其获奖案例《淘宝蛇年"一起上春晚"云参演证互动传播》通过AIGC技术生成个性化"云参演证",结合明星联动和裂变式传播策略,实现超45亿曝光量,累计生成1.18亿张参演证,重塑了传统春节文化互动模式。同时,与神州租车合作的小米SU7 Ultra上新营销案例,通过头部KOL传播和社交化内容裂变,达成2.36亿+曝光量,获"社会化营销"铜奖。淘宝天下已布局AI驱动的全链路营销解决方案"淘天智家平台",支持从创意生成到多媒介内容生产的全流程,持续推动数字营销创新。

  • DigitalOcean 携手 AMD 推出 AMD Instinct MI300X GPU Droplet,加速 AI 创新

    DigitalOcean与AMD达成合作,将推出搭载AMD Instinct MI300X GPU的云服务器,支持AI/ML/HPC工作负载。该GPU具备192GB HBM3内存,能完整加载数十亿参数模型,显著提升训练和推理效率。服务定价每小时1.99美元起,支持1-8个GPU配置,并与Kubernetes无缝集成。未来还将推出MI325X GPU,并面向中国市场提供服务。此次合作旨在为开发者提供经济高效的AI开发解决方案,简化云端GPU部署流程。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 探营“数龙杯”参赛团队,Helix Studio努力打造互动影游2.0

    2023年互动剧《完蛋!我被美女包围了!》走红后,同类产品难现爆款。近期Helix Studio团队在数龙杯大赛推出AI驱动的沉浸式叙事影游《The Nightcap》,展现互动剧新形态。该作品整合NVIDIA ACE等前沿技术,实现虚拟角色与玩家深度互动;采用跨平台无缝体验设计,支持手机与VR设备切换;通过"有边界的自由空间"平衡剧情引导与玩家选择。团队表示AI技术使制作效率提升40-50%

  • 谷歌“坟场”再添一员:将于 12 月关闭 Instant Apps!

    2017 年首次推出的 Instant Apps 功能将于 2025 年 12 月正式退役。届时,用户只能回归“老老实实用网页”的生活方式了……

  • Baidu Steamer-I2V推动视频生成技术突破,擎舵平台赋能原生创意营销

    百度推出全球领先的视频生成模型Baidu Steamer-I2V,以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化,能将静态图像转化为连贯动态视频。百度营销平台迎来2周年,已服务超13万家企业,日均生产素材超10万+。在"AI驱动营销全链路升级"主题下,百度与核心代理商共同探讨AIGC技术突破与创意升级,推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势,同时突破创意边界,实现营销效果飞跃。未来百度将优化模型性能,拓展应用场景,推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

  • 极光GPTBots成功完成“生成式人工智能服务登记”

    极光旗下AI开发平台GPTBots.ai近日在广东省网信部门完成生成式人工智能服务登记,成为合规经营的AI服务提供商。该平台严格遵循国家《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规要求,标志着其在技术创新、服务模式和数据安全等方面获得关键合规认可。此次登记体现了极光对法律法规的严格遵守和对安全责任的高度重视,为区域AI生态发展注入新活力。未来,极光将继续优化技术与服务,保障用户权益,推动生成式AI技术的健康规范发展。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 探索AI时代出海新范式!impact.com荣获TopDigital创新营销奖「年度营销技术公司」

    2025年7月1日,impact.com在第十三届TopDigital创新营销盛典上荣获"年度营销技术公司"大奖。该平台凭借技术能力、商业影响和全球化战略的综合表现获得认可,其AI技术正深刻改变品牌营销工作方式,尤其在效率提升与流程优化方面成效显著。impact.com通过智能推荐、智能审批等功能,将AI能力引入合作伙伴管理核心环节,帮助出海企业构建全球化合作网络。大中华区总裁Jennifer Zhang表示,AI不是替代营销人,而是释放其判断力与创造力。作为全球合作伙伴经济核心引擎,impact.com已服务众多中国出海品牌,未来将继续深化AI在营销管理平台的应用。

  • 天悦康康:AI赋能打造可验证的CBT-I睡眠疗法

    文章介绍了睡眠科学的重要性,指出传统助眠方式依赖主观经验而缺乏数据验证。重点介绍了天悦康康基于世界睡眠医学会认证的CBT-I(失眠认知行为疗法)构建的智能睡眠管理系统,通过智能指环精准监测睡眠数据,结合AI分析提供个性化睡眠改善方案。其创新在于将CBT-I的认知调整(改变错误睡眠观念)和行为训练(建立健康习惯)数字化,形成"数据监测+CBT-I模型+科学干预"的完整闭环。产品还具备睡眠银行、AI伴睡等特色功能,通过可视化数据和正向激励帮助用户养成规律作息,实现睡眠质量的可持续提升。