首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon:更高效先进

2023-07-17 09:55 · 稿源:站长之家

站长之家(ChinaZ.com) 7月17日消息:Meta 正在继续推进对新形式生成式人工智能模型的研究,并公布了最新成果,名为 CM3leon(发音类似于「chameleon(变色龙)」)

355350269_735396441693973_7081320402844920765_n (1).jpg

图片来自Meta

CM3leon 是一个用于文本到图像创建和图像到文本创建的多模态基础模型,对于自动生成图像标题非常有用。

人工智能生成的图像在当前已经不是新概念,广泛可用的工具如 Stable Diffusion、DALL-E 和 Midjourney 已经取得了很大成功。

新鲜的是 Meta 正在使用构建 CM3leon 的技术以及 Meta 声称该基础模型能够实现的性能。

当前文本到图像生成技术主要依赖 diffusion 模型(Stable Diffusion 的名称源自此)来创建图像。CM3leon 则采用了不同的方法:基于 token 的自回归模型。

Meta 的研究人员在一篇名为《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》的研究论文中写道:「近年来,由于性能强大且相对计算成本较低,diffusion 模型在图像生成工作中占据主导地位。相比之下,众所周知基于 token 的自回归模型也能产生出色的结果,尤其在全局图像连贯性方面更好,但训练和推理的成本要高得多。」

Meta 的研究人员已经能够通过 CM3leon 实际演示基于 token 的自回归模型实际上可以比基于 diffusion 模型的方法更高效。

Meta 的研究人员在一篇博客文章中写道:「尽管使用的计算资源比之前基于 Transformer 的方法少了五倍,CM3leon 在文本到图像生成方面实现了最先进的性能。

CM3leon 的基本工作原理在某种程度上与现有的文本生成模型类似。

Meta 的研究人员首先进行了一个检索增强的预训练阶段。与仅从互联网上收集公开可用的图像不同,这种方法已经给基于 diffusion 模型的模型带来了一些法律挑战,Meta 选择了一条不同的道路。

Meta 的研究论文指出:「在文本到图像生成领域,图像数据来源的道德影响已经引发了广泛的讨论。在本研究中,我们只使用 Shutterstock 上的经过授权的图像。因此,我们可以避免与图像所有权和归属相关的担忧,同时不会牺牲性能。

在预训练之后,CM3leon 模型经过一阶段有监督微调(SFT),Meta 的研究人员声称这种方法产生了高度优化的结果,无论是资源利用还是图像质量。SFT 是 OpenAI 用于训练 ChatGPT 的一种方法。Meta 在研究论文中指出,SFT 用于训练模型理解复杂提示,在生成任务中非常有用。

论文中指出:「我们发现,指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。」

通过查看 Meta 在关于 CM3leon 的博客文章中分享的生成图像样本集,结果令人印象深刻,清楚地显示了模型理解复杂的多阶段提示,从而生成了分辨率极高的图像。

目前,CM3leon 仍然是一个研究项目,尚不清楚 Meta 是否会在其平台的一个服务中公开提供这项技术。鉴于它的强大性能和更高的生成效率,CM3leon 及其生成式人工智能方法有可能超越研究阶段最终得到应用。

举报

  • 相关推荐
  • AI新模型KOSMOS-G:实现零样本保真图像生成

    图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。KOSMOS-G是将图像生成塑造成一种语言的初步步骤。

  • Meta悄然发布Llama 2 Long AI模型

    Meta最近发布了Llama2LongAI模型,该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术,Meta的研究人员提高了这个AI模型的性能,使其能够更好地处理长文本和复杂任务。强调了合作的重要性,指出不是每个企业都拥有高级的数据工程和数据科学技能,因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

  • SyncDreamer:从单视图图像生成多视一致图像以实现3D重建

    3D生成领域经历了迅猛的进展,其中一个备受瞩目、在GitHubRepo上广受欢迎的项目备受关注。这个项目被认为是最为稳定和通用的,用户只需提供一张图像,模型就能自动合成多个视图并生成相应的3D模型。SyncDreamer生成的图像可以用于高质量的3D重建。

  • Open AI推出DALL・E3图像生成模型:理解能力提升 片细节更丰富

    OpenAI宣布推出DALL・E3图像生成模型,它的前身是DALL・E2。相比于之前的版本,DALL・E3在理解细微差别和细节方面有了显著提升,能够更准确地将想法转化为图像。OpenAI表示,DALL·E3目前处于研究预览阶段,将于10月份通过API向ChatGPTPlus和企业客户提供,并于今年秋天晚些时候在实验室中提供。

  • T2I扩散模型PIXART-α:图像生成质量媲美Stable Diffusion

    文本到图像生成模型如DALLE2、Imagen和StableDiffusion的发展,开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响为研究社区和企业提供了许多下游应用的机会。控制功能:PIXART-α还提供了控制功能,允许用户生成定制图像,精确修改物体颜色等,以满足特定需求。

  • Meta开源数字水印Stable Signature,极大增强生成式AI

    全球社交、科技巨头Meta在官网宣布,开源数字水印产品StableSignature,并公开论文。StableSignature是由Meta和INRIA联合开发成,可将数字水印直接嵌入到AI自动生成的图片中,防止其非法用途。通过StableSignature将数字水印嵌入到AI图片中,可极大避免此类事件的发生。

  • Meta 斥巨资打造明星AI数字人

    Meta最近宣布将在名人AI领域投入巨资,以打造名人AI双胞胎。根据TheInformation的一份报道,Meta公司已经签下了一位顶级创作者,为其提供了高达500万美元合同,合同期限为两年,包括六小时的工作时间。这也可能鼓励其他科技巨头进一步投资类似的项目。

  • Meta AI提出视频抠新方法OmnimatteRF:结合动态2D前景层和3D背景模型

    Omnimatte是迄今为止最有前景的视频抠图方法。它使用单应性建模背景,因此只适用于背景为平面或仅有旋转运动的视频。它也可助力构建沉浸式的虚拟环境。

  • 蓝湖 Sketch 插件全新改版,更高效,更便捷

    去年Sketch插件升级后,蓝湖团队收到了很多用户们的反馈,表扬的就不多赘述了,每一份产品建议蓝湖团队也都会仔细地收集好,并将所有热心建议按需排期,未来的优化中会尽最大可能为蓝湖用户们带来更卓越的使用体验。今天小编就跟大家聊聊本次蓝湖Sketch插件做了哪些优化。以上就是本次蓝湖Sketch插件改版的所有内容啦~希望这次的优化升级能击中大家的心巴,带给大�

  • Getty推出人工智能图像生成

    在对人工智能进行了一年多的训练后,图片库盖蒂图片社将允许用户通过其网站使用人工智能生成图像。该公司承诺用户不必担心版权纠纷,因为其人工智能仅接受盖蒂自有图片进行训练。用于训练的图片数据以及人工智能生成的图片输出应该具有透明度。

今日大家都在搜的词: