首页 > 业界 > 关键词  > PIXART-α最新资讯  > 正文

T2I扩散模型PIXART-α:图像生成质量媲美Stable Diffusion

2023-10-16 10:01 · 稿源:站长之家

划重点:

新时代的逼真图像合成:文本到图像(T2I)生成模型DALLE2、Imagen和Stable Diffusion,对后续应用产生深远影响。

降低成本的高质量图像生成:研究人员提出PIXART-α,大幅降低了训练成本,同时保持了与最新图像生成器相媲美的图像质量。

改进文本到图像生成:通过创新方法,包括训练策略和数据集改进,提高了T2I模型的效率和质量。

站长之家(ChinaZ.com)10月16日 消息:最近,文本到图像(T2I)生成模型如DALLE2、Imagen和Stable Diffusion的发展,开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响,还为研究社区和企业提供了许多下游应用的机会。

image.png

然而,这些复杂的模型需要巨大的计算资源来进行训练。例如,训练SD v1.5需要6,000块A100GPU,成本约为32万美元。而更大的模型RAPHAEL,甚至需要60,000块A100GPU,成本高达308万美元。此外,训练会产生大量的二氧化碳排放,给环境造成了压力,例如,RAPHAEL的训练会产生35吨的二氧化碳排放,相当于一个人七年的排放量。

这种高昂的价格限制了研究社区和企业获得这些模型,严重阻碍了人工智能生成内容(AIGC)领域的发展。关键问题是,是否可以以更少的资源开发高质量的图像生成模型?

来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员提出了PIXART-α,它显著降低了训练成本,同时保持了与最新图像生成器相匹敌的图像质量。他们提出了三个主要的设计思路:

首先,他们通过分解训练计划,将文本到图像生成问题划分为三个简单的子任务:学习自然图像像素的分布、学习文本图像对齐以及提高图像的美观度。通过使用低成本的类别条件模型初始化T2I模型,大幅降低了第一个子任务的学习成本。其次,他们提出了一个训练范例,包括在信息密度高的文本图像对数据上进行预训练,然后在更高审美质量的数据上进行微调,以提高训练效果。他们还使用交叉注意力模块来注入文本条件,并简化了计算密集的类别条件分支,从而提高了效率。

此外,他们提出了一种重新参数化方法,可以让修改后的文本到图像模型直接导入原始类别条件模型的参数。这样一来,他们可以利用ImageNet关于自然图片分布的过去知识,为T2I Transformer提供合理的初始化,加速训练过程。

在高质量信息方面,他们的研究揭示了现有的文本-图像对数据集存在显著缺陷,例如LAION。文本描述经常受到严重的长尾效应影响(即很多名词出现频率极低),而且缺乏信息内容(通常只描述图像中的一部分物体)。这些缺陷极大地降低了T2I模型训练的效果,需要数百万次迭代才能获得可靠的文本图像对齐。他们建议使用最先进的视觉-语言模型进行自动标注,以在SAM上生成说明,从而克服这些问题。

SAM数据集具有大量多样化的对象,这使其成为生成信息密度高的文本-图像对的理想来源,更适合文本-图像对齐学习。他们的聪明方法使其模型的训练非常高效,仅需675块A100GPU天和26,000美元。与Imagen相比,他们的方法使用更少的训练数据量(0.2% vs. Imagen)和更短的训练时间(2% vs. RAPHAEL)。他们的训练费用约为RAPHAEL的1%,为他们节省了约300万美元。

关于生成质量,他们的用户研究试验显示,PIXART-α提供了比当前SOTA T2I模型、Stable Diffusion等更好的图像质量和语义对齐,此外,它在T2I-CompBench上的性能显示出在语义控制方面具有优势。

他们预计,他们有效训练T2I模型的努力将为AIGC社区提供有用的见解,并帮助更多的独立学术界或公司以更实惠的价格生成高质量的T2I模型。

总之,PIXART-α具有以下特色和功能:

  1. 高质量图像生成:PIXART-α基于Transformer技术,能够生成高质量、艺术性强、高细节、广角镜头的图像,包括明亮的场景、鸟瞰图、古城、幻想、华丽的光线、镜面反射等。

  2. 低培训成本:与其他先进的文本到图像模型相比,PIXART-α的培训成本明显降低,仅需相对较少的训练资源,从而显著降低了培训过程中的时间和经济成本。

  3. 高分辨率图像合成:PIXART-α支持高分辨率图像的合成,可以生成高达1024px分辨率的图像,这有助于满足商业应用的需求。

  4. 训练效率:该模型提出了一种训练策略分解,通过优化不同的训练步骤来提高训练效率,包括像素依赖性、文本图像对齐和图像美学质量的优化。

  5. CO2排放减少:PIXART-α的低培训成本也导致了较低的CO2排放,对环境友好,有助于减少碳排放。

  6. 支持文本-图像对齐:该模型强调了文本-图像对之间概念密度的重要性,并利用大型视觉语言模型自动标记密集的伪标题以提高文本-图像对齐的质量。

  7. 控制功能:PIXART-α还提供了控制功能,允许用户生成定制图像,精确修改物体颜色等,以满足特定需求。

PIXART-α论文网址:https://arxiv.org/abs/2310.00426

PIXART-α项目网址:https://pixart-alpha.github.io/

举报

  • 相关推荐
  • 大家在看
  • Platen.ai:AI写作,超越人类能力

    Platen.ai是一款AI写作工具,针对SEO进行优化,能够生成优化的内容,提高有机流量。它集成了作家、研究员和专业的SEO专家的功能,能够根据关键词生成高效的内容。使用Platen.ai,您只需输入关键词,即可轻松生成符合品牌声音和受众需求的SEO优化内容。

  • Ohai:AI增强角色扮演

    Ohai是一个AI增强的角色扮演平台,为用户提供与心爱角色进行有趣的互动故事和私密的一对一聊天。

  • Wikipedia Article AI:快速创建维基百科页面

    Wikipedia Article AI是一个易于使用的工具,几乎可以立即创建维基百科文章。它基于AI技术,根据维基百科的要求生成高质量的、经过事实核实的文章。价格相对于人工撰写的维基百科文章要便宜很多。

  • ZeST:图像材质迁移技术

    ZeST是由牛津大学、Stability AI 和 MIT CSAIL 研究团队共同开发的图像材质迁移技术,它能够在无需任何先前训练的情况下,实现从一张图像到另一张图像中对象的材质迁移。ZeST支持单一材质的迁移,并能处理单一图像中的多重材质编辑,用户可以轻松地将一种材质应用到图像中的多个对象上。此外,ZeST还支持在设备上快速处理图像,摆脱了对云计算或服务器端处理的依赖,大大提高了效率。

  • CleeAI:最准确可信赖的AI搜索引擎

    CleeAI是市场上最准确的AI搜索引擎,通过实时爬取网络提供快速准确的结果。即刻获取您需要的答案,将搜索时间缩短为零。

  • Sonauto :利用AI创作流行歌曲

    Sonauto 索纳托是一款结合人工智能技术的音乐创作平台,用户可以通过该平台轻松创作出流行歌曲。产品功能包括旋律生成、歌词创作、曲风选择等,旨在简化音乐创作流程,让音乐爱好者和专业人士都能快速创作出高质量的音乐作品。优势在于AI的高效算法和丰富的音乐素材库,支持用户进行个性化创作。定价方面,Sonauto 索纳托提供免费试用和付费订阅服务,以满足不同用户的需求。

  • August:, 你的健康伴侣

    August 是一个免费的健康人工智能平台,提供24/7的咨询服务。无论你面临健康问题、心理健康问题、营养与健身问题,还是需要支持和指导,August 都可以帮助你。它可以回答你的健康问题、提供个性化建议、定期关怀你的健康状态等。

  • robotika.ai:通过AI辅助做出明智的投资决策

    RoboFin是您的AI动力投资分析师。它通过分析大量的数据,提供基于数据分析的清晰可行的投资建议,帮助您做出明智的投资决策。RoboFin的优势包括减轻压力、节约时间、提高投资回报等。

  • GpuMall智算云:面向AI开发者的GPU云平台,高性价比,极致体验,计费灵活

    GpuMall智算云是一个面向AI开发者的GPU云平台,提供高性价比的计算资源,灵活的计费方式,以及弹性的调度能力,可以满足AI开发者的各种需求。用户可以在这里快速租用GPU资源进行AI模型训练和推理,并且可以根据实际使用情况灵活调整资源配置,达到最佳性价比。平台还提供了丰富的使用文档和在线客服支持,让用户使用起来更加便捷。

  • ACEPAL:个性化营销建议

    ACEPAL 是一个个性化营销建议平台,为数千个营销任务提供个性化建议。它利用动态提示生成器和优化聊天机器人来提升营销效果。ACEPAL 可以帮助分析Facebook、Twitter、LinkedIn、Instagram、Pinterest、TikTok和YouTube等平台的数据,并根据不同任务和变量提供定制化的营销建议。它的功能包括分析受众洞察、分析竞争对手策略、优化内容策略、提供最佳时机建议等。ACEPAL的价格根据用户需求定制,请联系我们获取详细定价信息。

  • LLM Transparency Tool:分析Transformer语言模型的内部工作机制

    LLM Transparency Tool(LLM-TT)是一个开源的交互式工具包,用于分析基于Transformer的语言模型的内部工作机制。它允许用户选择模型、添加提示并运行推理,通过可视化的方式展示模型的注意力流动和信息传递路径。该工具旨在提高模型的透明度,帮助研究人员和开发者更好地理解和改进语言模型。

  • JetMoE-8B:以低成本实现高性能的大型语言模型

    JetMoE-8B是一个开源的大型语言模型,通过使用公共数据集和优化的训练方法,以低于10万美元的成本实现了超越Meta AI LLaMA2-7B的性能。该模型在推理时仅激活22亿参数,大幅降低了计算成本,同时保持了优异的性能。

  • CTRL-F-VIDEO:在视频中快速搜索特定单词或短语

    CTRL-F-VIDEO 是一个开源项目,通过Chrome扩展实现在YouTube视频中搜索特定单词或短语的功能。它利用OpenAI的Whisper模型将音频转换为文本,并在视频时间条上标记出匹配词汇的位置,帮助用户节省查找信息的时间。

  • Breezemail:整理你的收件箱,AI分类

    Breezemail帮助你保持重要的邮件在收件箱内,并通过AI分类整理其余的邮件。我们训练了AI来识别对你重要的邮件,将其标记为重要邮件,并将其余的邮件自动组织到智能分类中。你可以使用预定义的分类,也可以创建自己的智能分类。Breezemail使用ChatGPT查询来组织你的邮件,不再需要复杂的过滤器和编程运算符来构建邮件标签。现在,你可以使用自然语言轻松创建自己的个性化超级高级分类。例如:“所有关于金融和投资的邮件”。Breezemail还提供了预定义的分类,帮助你无需努力就可以整理收件箱。订阅Breezemail,让我们的AI发挥魔力,相信你的收件箱会感谢你的。安全与隐私方面,Breezemail致力于保护您的安全和隐私。我们不会保留、出售或分析您的数据,除非与我们的公开可访问功能相关。我们不会展示广告,因为我们会为我们的服务收取公平的订阅费用。我们不会共享、出售或试图使您的数据匿名化,您的数据包括您的电子邮件地址、在您的邮箱中发现的电子邮件地址,以及电子邮件内容和附件。您的电子邮件内容仅由ChatGPT处理。我们使用ChatGPT来处理和分类您的电子邮件内容,所有包括文本、图片、附件等的电子邮件内容都直接发送到ChatGPT API,Breezemail不在服务器上处理或保留您的任何内容。您可以随时授予Breezemail访问您的邮箱,并且可以随时撤销。所有访问令牌都经过加密,仅用于执行与我们功能相关的操作。您的凭据也经过加密,以保护您的邮箱访问细节,使其对Breezemail内部的任何人都无法访问。订阅我们的通讯,获取有关Breezemail的更新。谢谢!

  • Somi AI:AI写作与助手工具

    Somi AI是最受欢迎的高等教育、市场营销人员、企业主、影响者和作家的AI写作软件工具。我们的AI助手引擎帮助您更好、更快地写作。

  • S&C - Gemini™ AI chat for Google™ search:在Google™搜索中与Gemini™ AI聊天

    S&C - Gemini™ AI chat for Google™ search是一款能够在Google™搜索中与Gemini™ AI进行聊天的插件。它提供Gemini™、ChatGPT™、Claude™和Pi™等多个聊天机器人,可以在搜索页面上直接与它们进行对话。插件支持Google™、Yahoo™和DuckduckGo™等搜索引擎,并且提供无限制的免费查询次数。

  • Jinno: code any React component with AI:用AI开发HTML或React组件,并与GPT4聊天

    Jinno是一个使用AI开发HTML或React组件的插件。它可以修改React、HTML和CSS代码。它支持React、CSS和JavaScript,并提供了颜色选择器、字体选择器、页面标尺等功能。可以导出React、HTML和CSS代码,适用于开发人员和设计师。

  • Free Email Extractor from Website:强大的免费网络电子邮件抓取工具,自动访问网站以快速提取批量电子邮件、电话号码和社交资料,支持域名到电子邮件查找。

    My Email Extractor是一个强大的免费网络电子邮件抓取工具,它可以自动访问网站并快速提取电子邮件、电话号码和社交资料。它支持从不同域名提取电子邮件,并将结果保存到CSV文件中。用户可以使用它来生成销售线索、进行市场研究以及数据自动化。My Email Extractor的准确性取决于数据来源,它实时从网页中收集电子邮件。

  • WizardLM-2:新模型,多种型号,AI驱动合成数据训练

    WizardLM-2是WizardLM推出的新一代大型语言模型,包含三种型号:8x22B、70B和7B。该产品采用AI驱动的合成数据训练系统,通过数据分析、加权抽样、渐进式学习和AI互校AI等方法,优化模型性能。它能够自动生成高品质的指令和响应,提供多样化的对话能力,适用于多种编程和开发场景。

  • idefics-80b:一个通用的多模态模型,可用于问答、图像描述等任务

    HuggingFaceM4/idefics-80b-instruct是一个开源的多模态模型,它可以接受图像和文本的输入,输出相关的文本内容。该模型在视觉问答、图像描述等任务上表现出色,是一个通用的智能助手模型。它由Hugging Face团队开发,基于开放数据集训练,提供免费使用。

今日大家都在搜的词: